문항1. 데이터 분석과 빅데이터 분석 차이 1. 사전처리와 사후처리 정보관리 시스템을 이용해 데이터 분석을 수행하기 위해서 데이터에 대해서 사전 처 리가 필요했습니다. 여기서 사전처리란 필요한 정보만 추려내고 필요 없는 정보는 제거해서 데이터를 축소하는 것을 말합니다. 오늘날에는 빅데이터 처리기술이 등장 함에 따라 사전처리보다 사후처리가 더욱 중요해졌습니다. 데이터를 저장하여 모아 놓고 데이터에서 직접 의미를 찾아내기 위해서 무엇을 해야 할까요? 데이터 유형에 따라 저장방법을 결정하는 저장관리, 신뢰성 있는 데이터를 확보하는 품질관리, 데 이터의 유출방지와 안전한 사용을 보장하는 보안관리 등의 역할의 수행이 중요해진 것입니다. 2. 표본조사와 전수조사 통계분석과 같은 전통적인 데이터 분석법도 표본 데이터에서 의미를 찾는 것에 초점 을 두고 발전해왔습니다. 왜냐하면 수집, 처리 비용, 분석 능력 등의 부담이 존재했 기 때문입니다. 하지만 이제 조사대상이 되는 자료 전체를 빠짐없이 조사하는, 전수 조사 가능해졌습니다. 전수조사의 장점은 표본조사가 주지 못하는 패턴과 같은 정보 를 제공한다는 점입니다. 3. 양과 질 세번째는 질과 양입니다. 데이터의 질보다 양이 더 강조되는 시대입니다. 빅데이터 란 말에도 나타나듯이 데이터의 양이 크지 않다면 빅데이터가 아닐 것입니다. 실시 간으로 분석할 수 있는 데이터의 양이 증가하면 사소한 몇몇 오류는 분석결과에 큰 영향을 미치지 않습니다.분석할 수 있는 데이터가 많으면 많을수록 결과의 정확성은 증가하게 됩니다. 4. 인과관계와 상관관계 기존의 데이터 분석은 이론적인 틀과 정해진 목적에 따라서만 진행되었습니다. 하지 만 비즈니스의 상황에서 중요한 것은 인과관계보다도 상관관계 파악입니다. 빅데이 터 분석을 통해 다양한 상관관계를 빠르게 저렴하게 도출할 수 있게 되었다고 말할 수 있습니다. 문항2. 데이터 전처리 기술 3가지 (1) 관계형 데이터베이스 관리시스템 데이터를 테이블 형식으로 저장하며 많은 데이터를 처리할 수 있습니다. 또한 5가지 성질은 원자성(Atomocity), 일관성(Consistency), 고립성(Isolation), 지속성 (Durability)을 보장합니다. 관계형 데이터베이스 관리시스템의 한계점은 시스템 이 용 불가시간이 발생한다는 점과 스케일 아웃의 한계가 발생한다는 점입니다. (2) 비관계형 데이터베이스 관리시스템 비관계형 데이터베이스 관리시스템의 기술적 특징은 4가지입니다. 첫번째 노 스키마 입니다. 데이터를 모델링하는 고정된 데이터 스키마가 없이 키 값을 이용하여 다양한 형태의 데이터 저장 및 접근이 가능합니다. 다양한 데이터 저장 방식이란 열, 값, 문 서, 그래프 등의 이용하는 것입니다. 두번째 탄력성입니다. 탄력성이라는 시스템에 일부에 장애가 발생하더라도 클라이언트가 시스템에 접근이 가능합니다. 응용시스템 의 다운 타임이 없도록 동시에 대용량 데이터의 생성 및 갱신이 가능합니다. 또한 질 의에 대응할 수 있도록 시스템 규모와 성능 확장이 용이하며 입출력의 부하를 분산시 키는데 용이한 구조에 해당합니다. 세번째 질의입니다. 수십 대에서 수천 대 규모로 구성된 시스템에서도 데이터의 특 성에 맞게 효율적으로 데이터를 검색하고 처리할 수 있는 질의언어 관련 처리 기술 과 API를 제공합니다. 네번째 캐싱입니다. 대규모 질의에도 고성능 응답속도를 제 공할 수 있는 메모리 기반 캐싱 기술을 적용하는 것이 중요합니다. (3) 분산파일 시스템 분산 파일 시스템은 막대한 양의 데이터를 저장하고 관리하기 위해 수많은 서버들에 데이터를 나누어 저장하고 관리하는 파일 시스템입니다. 빠른 처리 성능과 수백 페 라바이트 이상의 데이터 저장을 지원하고 쉽게 시스템을 확장할 수 있습니다. 시스 템 장애에도 계속해서 안전하게 서비스를 제공할 신뢰성, 가용성을 확보합니다. 저 장소 성능 향상을 위한 여러 노드를 활용하여 용량과 속도를 늘리는 기능이 필요로 되어집니다. 분산 파일 시스템의 대표적인 예로는 구글 파일시스템과 하둡 분산 파 일시스템 등이 해당합니다.