문항1. 데이터 분석과 빅데이터 분석의 차이점에 4가지에 대해서 설명하시오. (48점) 1. 데이터의 급격한 증가 현상으로 인해 엄청난 대규모의 데이터를 통칭할 용어가 필요해짐 2. 최근에는 대규모 자료의 수집, 저장, 분석, 시각화를 포괄하는 용어로 발전함 3. 1분간 얼마나 많은 데이터가 만들어질까 4. 1시간 동안 월마트에서 고객업무 처리를 위해 저장되는 데이터는 얼마나 될까 문항2. 데이터 전처리 기술 3가지가 무엇인지 명칭을 작성하고, 그 개념에 대해 설명하시오.(필요시, 사용되는 세부적인 기술을 설명하시오.) (52점) 데이터 전처리란, 수집 데이터를 저장소에 적재하기 위해 처리하는 작업이고, 데이터 유형과 분석 목적을 고려하여 적절한 데이터 처리 기법을 선정한다. 데이터 전처리 기술로는 데이터 필터링, 데이터 변환, 데이터 정제가 있다. 데이터 필터링은 오류발견, 보정, 삭제 및 중복성 검사 등을 수행하는 것을 의미하며, 실제 사전 테스트에서 필터링 과정을 수행하게 되고, 필터링 기준을 최적화하여 활용한다. 또한 생성된 파일의 중복성을 확인할 수 있도록 파일명, 확장자 등 필터ㅓ링 기능을 제공해야하고, 사전 정의된 기준에 의거하여야 하며, 오류에 대한 이력을 저장해야한다. 데이터 변환은 다양한 형식으로 수집되 데이터를 분석에 용이하도록 일관성 있는 형식으로 변환하는 것을 의미하며, 데이터 변환에는 평활화, 집계, 정규화, 일반화, 속성 생성 총 5가지의 기술이 있다. 데이터 정제는 수집된 데이터의 불일치성을 교정하기 위한 것이고, 결측치 처리방법과 잡음 처리방법의 기술이 있다.