일반적으로 빅데이터의 종류는 정형, 반정형, 비정형 등 3가지로 분류할 수 있음. 정형 데이터(Structured Data) : 정형 데이터는 미리 정해 놓은 형식과 구조에 따라 저장되도록 구성하여 고정된 필드에 저장된 데이터이며, 지정된 행과 열에 데이터가 구별되어 입력되어 있으며 관계형 데이터 베이스(RDMS)의 테이블 형태로 저장됨. 정해진 형식과 저장 구조를 바탕으로 손쉽게 데이터에 대한 부분 검색 및 선택, 갱신, 삭제 등의 연산을 수행할 수 있어 주로 정형화된 업무 또는 서비스에 사용함. 반정형 데이터(Semi-Structured Data) : 반정형 데이터는 구조에 따라 저장된 데이터지만 정형 데이터와 달리 데이터 내용 안에 구조에 대한 설명이 함께 존재함. 그렇기 때문에 데이터 내용에 대한 설명인 구조를 파악하는 파싱 과정이 필요하고, 보통 파일 형태로 저장됨. 반정형 데이터의 예시로 웹에서 데이터를 교환하기 위해 작성하는 HTML, XML, JSON 문서나 웹 로그, 센서 데이터 등이 있음. 비정형 데이터(Unstructured Data) : 비정형 데이터는 정해진 구조가 없이 저장된 데이터임. 소셜 데이터의 텍스트, 이미지, 영상, 워드나 PDF 문서와 같은 멀티미디어 데이터가 대표적인 예이며, SNS 이용률이 크게 높아지면서 실시간으로 많은 양의 비정형 데이터가 생산되고 있음. (비정형 데이터는 데이터 구조가 없어 내용에 대한 질의 처리를 할 수 없으므로 데이터 특징을 추출하여 반정형, 또는 정형 데이터로 변환하는 전처리 과정이 필요함.)