빅데이터의 역설

cisp 2020년 4월 25일

Xiao-Li Meng의 2018년에 발표한 “빅데이터의 통계적 낙원과 역설 (I)”에 관한 논문은 빅데이터 설정의 불확실성을 정량화하는 매력적인 접근법을 제시하고 있다. 다음은 이러한 아이디어 중 일부를 적용한 극단적인 예와 함께 요약한 내용입니다.

편향된 샘플의 데이터는 신뢰하면 안된다! 그러나 현실 세계에서는 공식적인 무작위 표본 추출 계획에 따라 수집된 데이터셋은 거의 다루지 않는다.

때때로 우리는 많은 사람들로부터 수집된 관리 데이터를 가지고 있지만 표본에 스스로 선택한 표본만 가지고 있다. 우리가 적절한 무작위 조사를 하더라도 보통 무시할 수 없는 비 응답이 존재한다.

Meng은 다음과 같은 질문에 답한다. 소규모 무작위 조사가 대규모의 비 무작위 데이터 집합보다 더 나은 추정치를 제공하는 경우는 언제인가?

(1) 한 사람이 반응하는지*와 그들의 반응이 무엇인지* 사이의 상관 관계와 (2) 전체 모집단 크기 N(관측 표본 크기 n만이 아님)의 상관 관계를 강조하는 방식으로 문제를 프레임화한다.

단순 무작위 표본 추출에서 상관 관계는 본질적으로 0이어야 하며, 일반적인 표준 오차 추정치가 적절하다. 그러나 랜덤하지 않은 표본 선택을 할 때, 상관 관계는 모집단이 많고 표본 추출 비율 n/N이 큰 경우 편향은 *실질적으로 악화* 되어 추정치가 편향되는 것으로 이어진다.

Meng은 그 문제를 여러 가지 방법으로 재구성하지만, 내용 중 “유효한 표본 크기” 또는 n_eff에 관한 내용이다, 특정 n, N 및 상관 관계에 대해 추정치의 불확실성을 정량화한 다음, 동일한 수준의 불확실성을 제공하는 단순 랜덤 표본의 표본 크기를 파악하십시오.

2016년 미국 대통령 선거를 전후한 확장된 예로, Meng은 여론조사 응답자와 당신이 지지했던 어떤 후보, 즉 트럼프와 클린턴 사이에 작지만 0이 아닌 상관 관계가 있었다고 제안한다.

이 작은 상관 관계는 투표 결과에 실질적으로 영향을 미치기에 충분했다. 모든 후기 선거 여론조사 표본은 약 200만 명의 응답자를 추가했는데, 처음에는 엄청난 표본 크기인 것처럼 보인다.

신뢰 구간은 오차 범위가 거의 없고 백분율의 1/10도 되지 않을 것이다. 그러나 0.005라는 작은 상관 관계 때문에(트럼프 유권자들은 클린턴 유권자들보다 여론조사에 응답할 가능성이 약간 낮았다) 유효 표본 크기는 n_eff는 약 400여 개로 오차 범위는 5%포인트 정도였다.

다시 한 번 말면 트럼프와 클린턴의 대결로 치러지는 국민투표의 최종 추정치는 200만 명의 응답자에 근거한 것이었다. 그러나 자기 선택 편향 때문에 400명으로부터 100% 응답률을 얻을 수 있다면, 추정치의 품질은 400명을 대상으로 한 단순한 무작위 설문 조사보다 나을 것이 없다.

계속

빅 데이터 빅데이터