본문 바로가기

Data Analysis

데이터 형태에 따른 구분 : 정형 데이터 vs 비정형데이터

데이터가 수집되는 형태에 따라 정형데이터, 반정형데이터, 비정형데이터로 분류할 수 있습니다.

 

 

1. 정형 데이터 (Structured data)

 - 구조와 관리체계에 규칙이 있는 데이터

 - 틀이 잡혀 있는 데이터

 - 스키마 구조를 가지고 있는 데이터

 - 제조업, 금융업등에서 수집/관리하고 있는 업무용 데이터의 대부분

  (통상적으로 사용한 구분자가 있고 해당 데이터 값이 있는 데이터들)

 - 마리아/오라클/MySQL과 같은 관계형 데이터 베이스(RDBMS)를 통하여 관리

 

 ※ 스키마 : 데이터 베이스에서 자료의 구조, 자료의 표현방법, 자료간의 관계를 형식 언어로 정의한 구조

                (구조를 만들기 위한 항목, 메타 데이터들의 집합)

 ※ SQL : RDBMS를 사용하기 위한 언어

 

 

정형 데이터 구조

 

 

2. 비정형 데이터 (Unstructured Data)

 - 정형데이터 외에 모든 데이터

 - 틀이 잡혀 있지 않고 스키마 구조가 없는 데이터

 - 음원, 이미지, 동영상, 텍스트 문서, 로그 등과 같은 특정한 형태가 없는 데이터

 - 연산이 되는 구조가 아니고, 각 데이터의 특성에 맞게 저장/관리됨

 - 다양하고 방대한 양의 데이터로 별도의 분석 처리 기술이 필요

 - 카산드라, 몽고DB 등의 NOSQL 데이터 베이스를 통하여 관리