문항1. 데이터 분석과 빅데이터 분석의 차이점에 4가지에 대해서 설명하시오 1) 사전처리와 사후처리 - 사전처리 : 정보관리 시스템이 충분히 데이터를 처리할 수 있도록 필요한 정보를 추려내고 필요없는 정보를 제거함 - 사후처리 : 데이터에서 의미를 찾아내기 위해 데이터 유형에 따라 적합한 저장관리, 품질관리, 보안괄를 수행함 2) 표본조사와 전수조사 - 표본조사 : 조사의 대상이 되는 자료의 일부만을 택하여 조사함으로써 전체를 추측하는 조사 - 전수조사 : 조사의 대상이 되는 자료 전체를 빠짐없이 조사하는 것(모집단 전체 조사) 3) 질과 양 - 데이터의 양이 증가함에 따라 사소한 몇몇 오류는 분석 결과에 큰 영향을 미치지 않게 됨 - 분석할 수 있는 데이터가 많을수록 결과의 정확성은 증가하게 됨 4) 인간관계와 상관관계 - 인과관계보다도 상관관계의 파악이 상대적으로 더 중요해짐 - 빠르고, 저렴한 비용으로 상관관계의 파악이 가능해짐 문항2. 데이터 전처리 기술 3가지가 무엇인지 명칭을 작성 하고, 그 개념에 대해 설명하시오(필요시, 사용되는 세부적인 기술을 설명하시오) 1)데이터 필터링 - 오류 발견, 보정, 삭제 및 중복성 검사 등을 수행하는 것으로 활용 목적에 맞지 않는 정보는 필터링하여 제거해야함 2)데이터 변환 - 다양한 형으로 수집된 데이터를 분석에 용이하도록 일관성 있는 형식으로 변환하는 것 A) 평활화: 데이터로부터 잡음 제거를 위해 데이터 추세에 벗어나는 값들을 변환하는 기법 B) 집계: 다양한 차원의 방법으로 데이터를 요약하는 기법 C) 정규화: 데이터를 정해진 구간 내에 들도록 하는 기법 D) 일반화: 특정 군간에 분포하는 값으로 스케일을 변화시키는 기법 F) 속성생성: 데이터 통합을 위해 새로운 속성이나 특징을 만드는 기법 3)데이터 정제 - 수집된 데이터의 불일치성을 교정하기 위한 것 A) 결측치 처리 방법: - 해당 레코드 무시하기, 자동으로 채우기, 담당자가 수작업으로 입력하기 B) 잡음 처리 방법: - 랜덤 에러나 측정된 변수의 변형된 값 - 센서의 작동 실패, 데이터 엔트리(기입,표기)문제, 데이터 전송 문제, 기술적인 한계, 데이터 속성 값의 부정확성 등