(사)정보화사회실천연합

빅데이터의 데이터 분류체계

0 146

빅데이터의 데이터 분류체계

빅데이터의 데이터 분류체계는 데이터 유형에 따른 “데이터 유형 분류체계”와 데이터의 저장 구조에 따른 “데이터 구조 분류체계”로 정의한다.

  • 데이터 유형 분류체계는 생산 주체에 따라 “프로세스가 생성”, “기계가 생성”, “사람이 생성”으로 분류하며, 자료출처에 의하여 “업무정보”,“생체정보”,“사물인터넷정보”,“지식정보”,“웹/SNS정보” 등으로 분류 유형 그룹을 정의하여“메타데이터, 기준데이터, 거래데이터 등”외 10개의 데이터 유형으로 분류하여 데이터 유형 분류체계를 정의한다.
  • 데이터 구조 분류체계는 컨텐츠 형식에 따라 “정형”,“반정형”,“비정형”으로 분류되며, 저장유형에 따라“RDBMS”,“No-SQL”,“비구조”로 분류할 수 있으며, 이를 세분화하면 “관계구조, 키-값 구조, 컬럼패밀리구조 등”의 6개 데이터 구조로 분류하여 데이터 구조분류체계를 정의한다.

빅데이터의 유형에 따른 분류

빅데이터를 분류하는데 있어 빅데이터의 유형에 따른 분류는 IBM과 UNECE(유엔유럽경제위원회)가 분류한 ‘자료출처’ 및 ‘자료유형’ 기준 참조하여 다음과 같이 정의할 수 있다.

빅데이터의 데이터 유형 분류체계
빅데이터의 데이터 유형 분류체계

빅데이터는 생산주체에 따라 프로세스에 의해서 생성되는 프로세스 생성, 각종 기기에 의하여 생산되는 기계 생산 및 사람에 의하여 생산되는 사람생성으로 구분할 수 있다. 생산주체에 따라 자료가 생성되는 출처에 따라 다음과 같이 데이터 유형 분류군을 세분화할 수 있다.

데이터 유형 분류
설명
프로세스 생성
•기관 및 기업의 업무시스템이 생성
업무 활동
•정보시스템 및 서비스를 통한 업무활동
기계 생성
•의료장비, 생산설비 및 각종 센서가 생성
생체 활동
•의료장비, 신분인식기 등으로 생성된 신체에 관한 생체 활동
측정 활동
•기상, 환경, 위치, 가전 등 목적성 장비 및 개인장치(모바일) 등 센서의 측정 활동
사람 생성
•온라인 및 오프라인에서 개인이 생성
지식 활동
•기관의 지식 데이터 및 논문, 문서, 미디어 등 지식 활동
웹/SNS 활동
•웹 검색, 게시글, 공개 SNS 등의 활동

 

앞서 분류된 데이터 유형분류체계에 의하여 메타데이터, 기준데이터, 로그데이터, 거래데이터, 분석데이터, GIS(공간)데이터, 문서데이터, 미디어데이터, 센서데이터, 활동데이터 등 10개의 데이터 유형으로 분류할 수 있다.

데이터 유형
설명
예시
메타 데이터
(Meta data)
•테크니컬 메타: 관리를 위해서 파악해야 하거나 통제해야 할 대상이나 항목으로 데이터 구조, 데이터 표준, 데이터 흐름, 데이터 권한 등에 대한 정보
•데이터셋의 물리/논리명, 항목의 물리/논리명, 데이터형식, 업무조건, 표준사전, 표준도메인 등
•비스니스 메타: 데이터를 활용하기 위하여 파악해야 할 대상이나 항목으로 데이터를 설명하는 정보로 정보명, 주제영역, 품질수준, 다른 데이터와 연관성 등에 대한 정보
•정보설명, 위치, 주제영역, 출처, 중요도, 품질수준, 연관성 등
기준 데이터
(Master data)
•업무 프로세스의 중심이 되는 공통 개념의 데이터로 정보 값이 자주 변하지 않는 정보 및 참조 정보(데이터의 값을 참조하는 코드성 정보)를 포함
•제품정보, 고객정보, 사업자정보 등
•지역코드, 성별코드, 학력코드 등
로그 데이터
(Log data)
•시스템이 생성한 Log 데이터, 웹 상의 모든 흔적 정보, Raw file 형태의 데이터
•로그기록, WebLog(Raw file) 등
거래 데이터
(Transaction data)
•기업/기관의 고유한 업무 활동 및 서비스로 생성되는 정보
•신용/직불카드 거래 자료 및 금융 거래 자료, 쇼핑자료
분석 데이터
(Analytics data)
•집계 데이터 및 분석을 통하여 결과로 생성된 정보
•업종별 매출현황, 서울 인구이동 분포, 종로 상권분석 등
GIS 데이터
(GIS data)
•GIS 시스템에 의하여 생성한 공간 정보(벡터(Vector),래스터(Raster) 데이터)와 속성정보로 구성된 정보
•행정구역도, 지하매설물도, 산림도, 정사영상 등
문서 데이터
(Document data)
•문서 작성기로 생성한 문서 정보(고유의 저장형식(hwp, doc, pdf 등)을 가짐)
•일반문서, 논문, 보고서 등
미디어 데이터
(Multimedia data)
•사진, 영상, 음성 등 미디어 정보
•사진, 위성사진, 항공사진, 영상, 음성 등
센서 데이터
(Sensor data)
•추적장치정보(Tracking device data)를 포함한 각종 센서를 통하여 생성되는 정보
•위치, 기상, 수질, 대기, IoT, 교통 등
활동 데이터
(Online behavior data)
•의견정보 (Opinion data), 웹 검색정보 등을 포함한 온라인상에서 생성된 것으로 분석을 위하여 전처리(정재, 자연어처리 등)를 수행한 정보
•인터넷 검색 및 페이지뷰 인덱싱 정보 (WebLog ) 등 및 이메일, 카카오톡, 트위터 등의 공개 자료

 

빅데이터의 구조에 따른 분류

빅데이터의 데이터 저장구조에 따른 분류는 컨텐츠 형식에 따라 “정형”,“반정형”,“비정형”으로 분류되며, 저장유형에 따라“RDBMS”,“No-SQL”,“비구조”로 분류할 수 있으며, 이를 세분화하면 “관계구조, 키-값 구조, 컬럼패밀리구조 등”의 6개 데이터 구조로 분류하여 데이터 구조분류체계로 정의할 수 있다.

빅데이터의 데이터 구조 분류체계
빅데이터의 데이터 구조 분류체계
데이터 구조
설명
정형
•간단한 자료구조형식을 갖는 컨텐츠
RDBMS
•RDBMS에서 사용되는 구조
관계구조 (Entity-Relationship)
•객체간의 관계가 정의된 구조
NoSQL
•빅데이터 생태계에서 제공하는 구조
키-값 구조 (Key-Value)
•Key와 Value로 구성된 구조
컬럼 집합 구조 (Column Family)
•하나의 Key에 여러 Column 속성으로 구성된 구조
반정형
•복잡한 자료구조형식을 갖는 컨텐츠
NoSQL
그래프 구조 (Graph)
•정보간의 연결 관계를 가지는 구조
문서 구조 (Document)
•JSON, XML과 같이 값과 구조가 같이 정의된 구조
비정형
•특정한 자료구조형식을 갖추지 않은 컨텐츠
비 구조
•파일 시스템에 직접 저장되는 구조
비 구조 (Non Structure)
•정보가 집합체의 성격을 갖거나 정보를 세분화하여 정형, 반정형 구조에 저장 할 수 없어 파일 시스템에 저장되는 구조

 


참고자료 : 빅데이터의 분류

 

Big Data classification, IBM, 2013
IBM Introduction to big data classification and architecture, IBM, 2013

 

Classification of Types of Big Data developed by UNECE, 2015
Classification of Types of Big Data developed by 유엔유럽경제위원회(United Nations Economic Commission for Europe, UNECE) (source: De Francisci, 2015, p. 16).

 

Big Data classification
I. A. T. Hashem, I. Yaqoob, N. B. Anuar, S. Mokhtar, A. Gani, and S. U. Khan, “The rise of ‘big data’ on cloud computing: Review and open research issues,” Inf. Syst., vol. 47, pp. 98–115, 2015.

글을 남겨주세요.