문항1. 데이터 분석과 빅데이터 분석의 차이점에 4가지에 대해서 설명하시오. (48점) 1. 사전처리와 사후처리 - 빅데이터 처리기술이 등장함에 따라 사후처리가 더욱 중요해졌다. 2. 표본조사와 전수조사 - 기존에는 데이터 수집단계에서 표본조사를 통해 필요한 만큼만의 데이터를 만들었다. - 이유는 수집, 처리 비용, 분석 능력 등의 부담이 존재했기 때문이다. 하지만 이제는 조사의 대상이 되는 자료 전체를 빠짐없이 조사하는, 전수조사가 가능해졌다. - 전수조사의 장점은 표본조사가 주지 못하는 패턴과 같은 정보를 제공한다는 점이다. 3. 질과 양 - 데이터의 질보다 양이 더 강조되고 있다. - 실시간으로 분석할 수 있는 데이터의 양이 증가하면 사소한 몇몇 오류는 분석결과에 큰 영향을 미치지 않게 된다. 4. 인과관계와 상관관계 - 비즈니스의 상황에서 중요한 것은 인과관계보다도 상관관계 파악이다. - 인과관계를 증명한 후 행동하기에는 비용대비 효과가 나오지 않을 때가 훨씬 더 많다. - 빅데이터 분석을 통해 다양한 상관관계를 빠르게 저렴하게 도출할 수 있게 되었다고 말할 수 있다. 문항2. 데이터 전처리 기술 3가지가 무엇인지 명칭을 작성하고, 그 개념에 대해 설명하시오.(필요시, 사용되는 세부적인 기술을 설명하시오.) (52점) 1. 데이터 필터링 - 필터링이란 오류의 발견 후 보정과 삭제 또는 중복성 검사 등을 수행하는 것이다. - 실제 사전 테스트에서 필터링 과정을 수행하게 되고, 필터링 기준을 최적화하여 활용하는 것이 일반적이다. - 데이터 필터링 작업을 수행할 때에는 사전 정의된 기준에 의거하여야 하며, 오류에 대한 이력을 저장해야 한다. 2. 데이터 변환 - 데이터 변환은 데이터의 특정 변수를 정해진 규칙에 따라 변환하는 것이다. - 데이터 변환 기술은 평활화, 집계, 정규화, 일반화, 속성 생성이다. - 첫번째, 평활화란 데이터로부터 잡음제거를 위해 데이터 추세에 벗어나는 값들을 변환하는 기법이다. - 두번째, 집계란 다양한 차원의 방법으로 데이터를 요약하는 기법이다. 복수의 속성을 하나로 줄이거나 유사한 데이터 객체를 줄이고 스케일을 변경하는 기법을 사용한다. - 세번째, 정규화란 데이터를 정해진 구간 내에 들도록 하는 기법이다. 정규화를 할 때 사용하는 통계방식은 최소-최대 정규화, Z-스코어 정규화, 소수 스케일링이다. - 네번째, 일반화란 특정 구간에 분포하는 값으로 스케일을 변화시키는 기법이다. 일반화가 잘 되어있다면 이상값이나 노이즈가 들어오더라도 크게 흔들리지 않는다. - 다섯 번째, 속성 생성이란 데이터 통합을 위해 새로운 속성이나 특징을 만드는 기법이다. 이는 주어진 여러 데이터 분포를 대표할 수 있는 새로운 속성이나 특징으로 대체하여 데이터를 변경 처리하는 것이다. 3. 데이터 정제 - 데이터 정제는 수집된 데이터의 불일치성을 교정하기 위한 것이며, 데이터 정제 기술에는 결측치의 처리와 잡음 처리가 있다. - 결측치를 처리하는 방법은 해당 레코드 무시하기, 자동채우기, 담당자 수작업하기가 있다. 잡음을 처리하는 방법은 구간화, 회기값 적용, 군집화이다.