(사)정보화사회실천연합

빅데이터의 데이터 분류체계

0 542

빅데이터의 데이터 분류체계

빅데이터의 데이터 분류체계는 데이터 유형에 따른 “데이터 유형 분류체계”와 데이터의 저장 구조에 따른 “데이터 구조 분류체계”로 정의한다.

  • 데이터 유형 분류체계는 생산 주체에 따라 “프로세스가 생성”, “기계가 생성”, “사람이 생성”으로 분류하며, 자료출처에 의하여 “업무정보”,“생체정보”,“사물인터넷정보”,“지식정보”,“웹/SNS정보” 등으로 분류 유형 그룹을 정의하여“메타데이터, 기준데이터, 거래데이터 등”외 10개의 데이터 유형으로 분류하여 데이터 유형 분류체계를 정의한다.
  • 데이터 구조 분류체계는 컨텐츠 형식에 따라 “정형”,“반정형”,“비정형”으로 분류되며, 저장유형에 따라“RDBMS”,“No-SQL”,“비구조”로 분류할 수 있으며, 이를 세분화하면 “관계구조, 키-값 구조, 컬럼패밀리구조 등”의 6개 데이터 구조로 분류하여 데이터 구조분류체계를 정의한다.

유형에 따른 분류

빅데이터를 분류하는데 있어 빅데이터의 유형에 따른 분류는 IBM과 UNECE(유엔유럽경제위원회)가 분류한 ‘자료출처’ 및 ‘자료유형’ 기준 참조하여 다음과 같이 정의할 수 있다.

빅데이터 분류 (데이터 유형분류)
빅데이터 유형분류

빅데이터는 생산주체에 따라 프로세스에 의해서 생성되는 프로세스 생성, 각종 기기에 의하여 생산되는 기계 생산 및 사람에 의하여 생산되는 사람생성으로 구분할 수 있다. 생산주체에 따라 자료가 생성되는 출처에 따라 다음과 같이 데이터 유형 분류군을 세분화할 수 있다.

데이터 유형 분류
설명
프로세스 생성
•기관 및 기업의 정보시스템이 생성
업무 활동
•업무 및 고객 서비스 등 업무 활동
기계 생성
•의료장비, 생산설비 및 각종 센서가 생성
생체 활동
•의료장비, 신분인식기 등으로 생성된 신체에 관한 생체 활동
측정 활동
•기상, 환경, 위치, 가전 등 기기 장치 및 개인장치(스마트폰 등) 센서의 측정 활동
사람 생성
•온라인 및 오프라인에서 사람이 생성
지식 활동
•기관의 지식 정보 및 논문, 문서, 미디어 등 지식 활동
웹/SNS 활동
•웹 검색 및 웹 게시글, SNS 게시글 등의 활동

 

앞서 분류된 데이터 유형분류체계에 의하여 메타데이터, 기준데이터, 로그데이터, 거래데이터, 분석데이터, GIS(공간)데이터, 문서데이터, 미디어데이터, 센서데이터, 활동데이터 등 10개의 데이터 유형으로 분류할 수 있다.

데이터 유형
설명
예시
메타 데이터
(Meta data)
•테크니컬 메타: 관리를 위해서 파악해야 하거나 통제해야 할 대상이나 항목으로 데이터 구조, 데이터 표준, 데이터 흐름, 데이터 권한 등에 대한 정보
•데이터셋의 물리/논리명, 항목의 물리/논리명, 데이터형식, 업무규칙, 표준사전, 표준도메인 등
•비스니스 메타: 데이터를 활용하기 위하여 파악해야 할 대상이나 항목으로 데이터를 설명하는 정보로 정보명, 주제영역, 품질수준, 다른 데이터와 연관성 등에 대한 정보
•설명, 생성주기, 출처, 주제영역, 활용영역, 품질수준, 연관정보, 위치정보 등
기준 데이터
(Master data)
•업무 프로세스의 중심이 되는 기준 정보 및 참조 정보(데이터값이 참조하는 코드 정보)
•제품정보, 시설정보, 사업자정보 등
•지역코드, 성별코드, 학력코드 등
로그 데이터
(Log data)
•시스템이 생성한 Log 정보 및 웹 크롤링(crawling) Raw file 형태의 정보
•로그기록, WebLog, 웹 크롤링(crawling) 등 Raw file 정보
거래 데이터
(Transaction data)
•기업 또는 기관의 고유한 업무 및 서비스 활동을 처리하는 정보시스템에 의해 생성, 관리되는 트랜잭션 정보
•신용카드 거래 내역 및 금융 거래 내역, 오픈마켓 구매 내역 등
분석 데이터
(Analytics data)
•집계 또는 통계 및 분석을 통하여 결과로 생성된 정보
•업종별 매출현황, 이동인구, 상권분석 결과 등
•연관규칙, 분류기준, 상관관계, 공간분석 등
GIS 데이터
(GIS data)
•지형지물에 대한 공간적 정보로서 벡터(Vector), 래스터 (Raster) 형태의 공간 정보 및 공간정보의 속성정보, 통상 GIS에 의하여 생성, 관리되는 정보
•행정구역도, 지하매설물도, 수치지형도, 산림도, 정사영상 등
문서 데이터
(Document data)
•문서 작성기로 생성한 문서 정보(hwp, doc, pdf 등 고유의 저장형식으로 생성)
•일반문서, 논문, 보고서 등
미디어 데이터
(Multimedia data)
•다양한 멀티미디어 정보
•사진, 영상, 음성, 엑스레이(x-ray), 초음파, CT, MRI, 위성영상, 항공영상 등
센서 데이터
(Sensor data)
•사물인터넷(IoT), 추적장치(Tracking Device), 공장자동화기기 등 각종 센서를 통하여 생성되는 정보
•위치, 기상, 수질, 대기, IoT, 차량통행, 생산설비센서 등
활동 데이터
(Online behavior data)
•의견정보(Opinion data), 웹 검색(Web search)정보 등을 포함한 온라인상에서 생성된 것으로 분석을 위하여 전처리(정재, 자연어처리 등)를 수행한 정보
•인터넷 검색 및 페이지뷰 정보 (Web-Log) 및 웹게시글, 카카오톡, 트위터 등 공개 게시글

 

구조에 따른 분류

빅데이터의 데이터 저장구조에 따른 분류는 컨텐츠 형식에 따라 “정형”,“반정형”,“비정형”으로 분류되며, 저장유형에 따라“RDBMS”,“No-SQL”,“비구조”로 분류할 수 있으며, 이를 세분화하면 “관계구조, 키-값 구조, 컬럼패밀리구조 등”의 6개 데이터 구조로 분류하여 데이터 구조분류체계로 정의할 수 있다.

빅데이터 분류 (데이터 구조분류)
빅데이터 구조분류
데이터 구조
설명
정형
•간단한 자료구조형식을 갖는 컨텐츠
RDBMS
•RDBMS에서 사용되는 구조
관계구조 (Entity-Relationship)
•객체간의 관계가 정의된 구조
NoSQL
•빅데이터 생태계에서 제공하는 구조
키-값 구조 (Key-Value)
•Key와 Value로 구성된 구조
컬럼 집합 구조 (Column Family)
•하나의 Key에 여러 Column 속성으로 구성된 구조
반정형
•복잡한 자료구조형식을 갖는 컨텐츠
NoSQL
그래프 구조 (Graph)
•정보간의 연결 관계를 가지는 구조
문서 구조 (Document)
•JSON, XML과 같이 값과 구조가 같이 정의된 구조
비정형
•특정한 자료구조형식을 갖추지 않은 컨텐츠
비 구조
•파일 시스템에 직접 저장되는 구조
비 구조 (Non Structure)
•정보가 집합체의 성격을 갖거나 정보를 세분화하여 정형, 반정형 구조에 저장 할 수 없어 파일 시스템에 저장되는 구조

 


참고자료 : 빅데이터의 분류

 

빅데이터 분류 (Big Data classification, IBM, 2013)
IBM Introduction to big data classification and architecture, IBM, 2013

 

빅데이터 분류 (Classification of Types of Big Data developed by UNECE, 2015)
Classification of Types of Big Data developed by 유엔유럽경제위원회(United Nations Economic Commission for Europe, UNECE) (source: De Francisci, 2015, p. 16).

 

빅데이터 분류 (The rise of ‘big data’ on cloud computing-Big Data classification, 2015)
I. A. T. Hashem, I. Yaqoob, N. B. Anuar, S. Mokhtar, A. Gani, and S. U. Khan, “The rise of ‘big data’ on cloud computing: Review and open research issues,” Inf. Syst., vol. 47, pp. 98–115, 2015.

글을 남겨주세요.