(사)정보화사회실천연합

빅데이터 분석에 필요한 데이터 크기

0 248

데이터 분석의 전통적인 학문은 통계학이다. 통계학은 모집단의 성질을 파악하기 위하여 표본을 가지고 분석하여 모집단의 모수를 추정 및 검증하는 분석 기법이다.

통계적 분석은 모집단 전체를 조사하는 비용에 비하여 적은 비용으로 효율적으로 결과를 얻을 수 있는 분석 방법으로서 다양한 분야에서 보편적으로 활용되고 있다.

그러다 빅데이터 시대의 도래로 다양하고 대량의 데이터를 이용하여 그 동안 파악하기 어려웠던 다양한 문제 해결을 위한 통찰력의 발견을 위한 다양한 분석을 수행하고 있다.

 

빅데이터를 분석하는데 반드시 전체 데이터를 사용하여야 하는가?

빅데이터를 활용한 분석은 분석 목적, 분석 기법, 데이터의 성질 등에 따라 다양한 분석 기법들이 존재하고 있다 그 중 일반적인 분석 기법들은 특정 데이터의 빈도, 비율을 기반으로 분석한다.

다양한 분석 기법 중 특히 빈도 및 비율 분석에서 반드시 모집단 전체의 데이터가 반드시 필요하지는 안는다. 빅데이터는 대량의 데이터를 수집하고 있으나 현실에서 수집되는 데이터는 모집단의 전체 데이터가 아닌 부분 집합에 속하는 데이터만 수집되고 있다.

그러므로 분석을 하는데 있어 같은 분석 기법을 사용할 때 수집된 전체 데이터를 이용하여 분석하는 것보다 수집된 데이터의 적당한 크기의 부분 집합의 데이터로 복수로 분석하여 분석의 결과를 비교 분석하여 결론을 도출하는 것이 더 합리적인 결론에 도달이 가능할 것 같다.

빅데이터의 데이터 분석 방법론 (예시)
빅데이터의 데이터 분석 방법론 (예시)

 

어느 정도의 데이터 크기가 대량 데이터

빅데이터에서 대량 데이터의 크기를 수치로 얼마라고 정의하지는 않고 있다. 그럼 백만, 천만, 억, 10억.. 어느 정도의 크기를 대량이라고 할 수 있는가?

대량 데이터의 기준으로 모집단 규모에 따른 표본 크기의 변화 특성을 적용 대량 데이터의 크기를 생각해 본다.

  • 모집단이 일정 규모 이상이 되면 표본의 크기가 거의 증가하지 않는 특성을 보이고 있어 표본의 크기가 거의 변동되지 않는 지점의 데이터 크기를 대량 데이터의 크기로 볼 수 있다.
모집단 규모에 따른 표본크기의 변화
모집단 규모에 따른 표본크기의 변화

 

모집단 규모에 따른 표본크기의 변곡점
모집단 규모에 따른 표본크기의 변곡점

 

모집단 규모별 표본크기
모집단 규모별 표본크기

 

대량 데이터 분석에 필요한 데이터 크기

그럼 대량의 데이터를 분석하는데 필요한 데이터의 크기는 얼마 정도면 적당하다고 볼 수 있는가? 이를 통계적 방법으로 접근하면 수집한 전체 데이터에서 약 96만에서 385만 정도의 데이터를 추출하여 이용하면 대량의 데이터를 분석하는데 충분한 데이터 크기라고 할 수 있다.

신뢰수준과 표본오차에 따른 표본의 크기 (모비율)
신뢰수준과 표본오차에 따른 표본의 크기 (모비율)

이 때 부분 집합 데이터로 생성된 결과의 신뢰도를 향상을 위하여 분석 목적에 부합하는 전체 데이터의 분포 정보가 필요로 하기도 한다.

 

결합한 가명정보의 활용

여러 분야의 가명정보의 결합은 결합항목이 증가하면 재식별화를 통한 개인 사생활의 침해 가능성이 높아지며, 또한 기업들이 결합정보를 악의적인 재식별화를 통한 불법적 이용 가능성이 높아지게 된다

*) 현 제도로는 기업이 내부에서 결합정보의 재식별화 여부를 통제할 수 있는 장치가 없다. .

따라서 개인정보를 가명정보화하여 결합한 데이터의 활용은 국민 프라이버시 보호를 위하여  결합 데이터의 제한적 이용이 필요로 하다.

 

결합 가명정보의 활용 방안

기업이 가명정보의 결합을 요청하면 전문기관은 가명정보를 결합하여 그 중 일부만 제공하는 방안을 제시한다.

위의 모집단 규모에 따른 표본크기에 따라 다음과 같이 결합정보의 부분 제공 방법을 제시한다.

민감도가 높은 정보

  • 모집단이 1천5만 이상 96만 건 또는 1천5만 이하 데이터의 6%

민감도가 낮은 정보

  • 모집단이 3천만 이상 167만 건 또는 3천만 이하 데이터의 5.5%
*) 가명정보의 쪼개기 결합을 방지하기 위하여 위와 같이 데이터의 규모를 제시함

부분 데이터의 제공으로 인한 정제의 제한을 보완하기 위하여 결합정보의 부분 데이터 외에 결합된 정보의 기초 통계를 같이 제공하여야 한다.

 

글을 남겨주세요.