1. 크롤링 : SNS, 웹, 뉴스 정보 등의 인터넷상에 제공하는 웹 문서 정보를 수집합니다. 2. 스크래핑 : 인터넷 웹 사이트에 보이는 내용 중에서 특정 정보만을 추출하고 모든 동작을 자동으로 수행합니다. 3. FTP : TCP/IP 프로토콜을 이용하여 인터넷 서버로부터 각종 파일을 송수신합니다. 4. 오픈 API : 서비스, 정보, 데이터 등의 개방된 정보로부터 API를 통해 데이터를 수집합니다. 5. RSS : 웹상의 최신 정보를 공유하기 위한 XML 기반의 콘텐츠 배급 프로토콜입니다. 6. 스트리밍(Streaming) : 인터넷에서 음성, 오디오, 비디오 등의 멀티미디어 데이터를 송수신하는 기술입니다. 7. 로그 Aggregator : 웹 서버 로그, 웹 로그, 트랜잭션 로그, 데이터베이스 로그 등의 각종 서비스 로그를 수집하는 오픈소스 기술입니다. 8. RDB Aggregator : 관계형 데이터베이스에서 정형 데이터를 수집하여 하둡 분산 파일 시스템(HDFS)이나 HBase 등의 NoSQL에 저장하는 오픈소스 기술입니다. 공공데이터란 '공공기관이 생성하거나 관리하는 데이터베이스, 전자화된 파일 등 법령 등에서 정하는 목적을 위하여 생성 또는 취득하여 관리하고 있는 광 또는 전자적 방식으로 처리된 자료 또는 정보'를 의미하므로 크롤링이나 로그 Aggregator 기법을 활용하여 수집 프로젝트를 진행할 것 같다.