데이터가 수집되는 형태에 따라 정형데이터, 반정형데이터, 비정형데이터로 분류할 수 있습니다.
1. 정형 데이터 (Structured data)
- 구조와 관리체계에 규칙이 있는 데이터
- 틀이 잡혀 있는 데이터
- 스키마 구조를 가지고 있는 데이터
- 제조업, 금융업등에서 수집/관리하고 있는 업무용 데이터의 대부분
(통상적으로 사용한 구분자가 있고 해당 데이터 값이 있는 데이터들)
- 마리아/오라클/MySQL과 같은 관계형 데이터 베이스(RDBMS)를 통하여 관리
※ 스키마 : 데이터 베이스에서 자료의 구조, 자료의 표현방법, 자료간의 관계를 형식 언어로 정의한 구조
(구조를 만들기 위한 항목, 메타 데이터들의 집합)
※ SQL : RDBMS를 사용하기 위한 언어
2. 비정형 데이터 (Unstructured Data)
- 정형데이터 외에 모든 데이터
- 틀이 잡혀 있지 않고 스키마 구조가 없는 데이터
- 음원, 이미지, 동영상, 텍스트 문서, 로그 등과 같은 특정한 형태가 없는 데이터
- 연산이 되는 구조가 아니고, 각 데이터의 특성에 맞게 저장/관리됨
- 다양하고 방대한 양의 데이터로 별도의 분석 처리 기술이 필요
- 카산드라, 몽고DB 등의 NOSQL 데이터 베이스를 통하여 관리