빅데이터의 수집 기법 -크롤링: SNS, 웹, 뉴스 정보 등의 인터넷상에 제공하는 웹 문서 정보를 수집합니다. -스크래핑: 인터넷 웹 사이트에 보이는 내용 중에서 특정 정보만을 추출하고 모든 동작을 자동으로 수행합니다. -FTP: TCP/IP 프로토콜을 이용하여 인터넷 서버로부터 각종 파일을 송수신합니다. -오픈 API: 서비스, 정보, 데이터 등의 개방된 정보로부터 API를 통해 데이터를 수집합니다. -RSS: 웹상의 최신 정보를 공유하기 위한 XML 기반의 콘텐츠 배급 프로토콜입니다. -스트리밍(Streaming): 인터넷에서 음성, 오디오, 비디오 등의 멀티미디어 데이터를 송수신하는 기술입니다. -로그 Aggregator: 웹 서버 로그, 웹 로그, 트랜잭션 로그, 데이터베이스 로그 등의 각종 서비스 로그를 수집하는 오픈소스 기술입니다. -RDB Aggregator: 관계형 데이터베이스에서 정형 데이터를 수집하여 하둡 분산 파일 시스템(HDFS)이나 HBase 등의 NoSQL에 저장하는 오픈소스 기술입니다. 실무에서 공공데이터를 수집하는 경우 공공기관의 오픈 API와 크롤링 + 스크래핑을 이용해서 수집할 것입니다.