빅데이터(BigData)

cisp 2013년 6월 5일

빅 데이터는 통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터를 말한다. 빅 데이터의 사이즈는 단일 데이터 집합의 크기가 수십 테라바이트에서 수 페타바이트에 이르며, 그 크기가 끊임없이 변화하는 것이 특징이다.

메타그룹(현재 가트너)의 애널리스트 더그 레이니(Doug Laney)는 2001년 그의 연구 보고서와 관련 강의에서 데이터의 급성장에 따른 이슈와 기회를 데이터의 양(volume), 데이터 입출력의 속도(velocity), 데이터 종류의 다양성(variety)이라는 세 개의 차원으로 정의하였다.

이 “3V” 모델은 이후 가장 널리 사용되는 빅 데이터의 정의가 되었다. 2012년 가트너는 기존의 정의를 다음과 같이 개정하였다: “빅 데이터는 큰 용량, 빠른 속도, 그리고(또는) 높은 다양성을 갖는 정보 자산으로서 이를 통해 의사 결정 및 통찰 발견, 프로세스 최적화를 향상시키기 위해서는 새로운 형태의 처리 방식이 필요하다.” 이에 더해, IBM은 진실성(Veracity)이라는 요소를 더해 4V를 정의하였고, 브라이언 홉킨스(Brian Hopkins) 등은 가변성(Variability)을 추가하여 4V를 정의하였다.

Volume : 지구상 총 데이터 중 90%는 지난 2년 간 생산

해당 분야에 전문가가 아닌 이상 대부분의 사람들에게 빅데이터는 ‘BIG’이라는 접두어 때문에 대용량의 데이터를 다루는 무언가로 알고 있다. 즉 데이터의 크기가 빅데이터의 정의로 널리 사용되고 있는 것이다. 최근 ‘기가바이트’나 ‘테라바이트’, ‘페타바이트’ 등의 대용량을 나타내는 용어들이 점차 일반화되는 것은 빅데이터 정의에 있어 용량에 주목하고 있다는 것을 잘 나타내고 있다고 볼 수 있다.

현재 지구상에 존재하고 있는 모든 데이터의 90%가 지난 2년간 생성됐고, 앞으로 2020년까지 2년마다 그 데이터량이 두 배씩 커질 것이라는 보고가 있는 것을 보면 데이터량이 더욱 중요해진다는 것은 어렵지 않게 짐작할 수 있다. 미국의 IT 전문기관인 TDWI가 실시한 2012년 설문조사에 의하면 IT 관련 종사자의 많은 부분은 3~10 테라바이트의 데이터를 분석한다는 결과를 보였다.

이렇게 엄청난 데이터는 최근 모바일 기기의 발전과 사물인터넷 등이 급격히 발전하면서 기하급수적으로 늘고 있는 추세다. 따라서 과거에 주로 수집했던 정형데이터는 빅데이터 분석 범주의 일부분으로 밀려나고 있다. 이제는 존재하는 모든 데이터의 약 90% 이상이 소셜미디어나 웹상의 클릭스트림, 센서 등을 통해 수집되는 비가공 데이터, 즉 비정형데이터다.

비정형데이터의 전형적인 예로 SNS 등의 소셜미디어를 들 수 있다. 세계 최대의 가입자를 보유하고 있는 페이스북의 경우 사용자들은 글은 물론, 사진과 음악 등을 페이스북에 업로드 하는데, 그 저장량은 하루에 500 테라바이트에 이른다.

센서 등의 데이터를 분석하여 활용하는 사물인터넷 역시 각광을 받고 있다. 일례로 미국의 경우 비행기 엔진에 센서를 부착해 정보를 받아 분석하여 고장 예측 등으로 활용하고 있는데, 이때 엔진으로부터 만들어지는 데이터는 연 약 25억 테라바이트에 이른다. 또한 자동으로 운전할 수 있는 자동차의 경우 센서를 통해 연 약 2 페타바이트의 데이터가 생산된다.

Variety : 데이터 수집 경로는 네트웨크에 연결된 모든 곳

이렇게 방대한 데이터는 앞서 설명했다시피 너무나 다양한 경로를 통해 수집되고 있다. 2000년대 중반까지만 해도 기업이나 기관에서 의사결정에 활용하기 위해 기업의 경영활동에 발생하는 정형데이터를 수집하여 분석하는 활동을 하였다. 이렇게 분석된 정보는 표나 그래프 등을 통해 보기 좋게 가공되기 때문에 분석이 편한 반면, 정보의 범위가 지극히 제한적이었다.

그러나 2000년대 후반 들어 태블릿 PC와 스마트폰의 급격한 보급, 인터넷 활용성 확장 등은 네트워크상에서 수집할 수 있는 데이터의 경로를 급격히 확장시키는 도구가 되었다. 또한 센서 기술의 발달로 생산자동화설비의 데이터는 물론, 자율자동차, CCTV, 기상정보, 홈네트웨크에 연결된 생활가전 등 센서가 부착된 모든 사물로부터도 데이터 수집이 가능해졌다.

이러한 도구를 통해 수집되는 데이터는 이제 정형데이터를 넘어, 반정형데이터, 비정형데이터로 세분화되어 분석에 활용되기에 이른다. 이 정보는 IBM이 정의했던 바와 같이 기존의 디바이스로는 수집과 분석이 불가능하기 때문에 빅데이터로 정의할 수 있는 것이다.

Velocity : 빅데이터 분석의 성공을 좌우하는 ‘속도’

수집되는 데이터는 다양한 경로로부터 분석을 수행하기 위하여 얼마나 빠르게 전송되는지도 중요하다고 할 수 있다. 예를 들어 얼마 전 발생한 보스톤 마라톤 대회 테러 사건의 범인을 검거를 위해 10 테라바이트의 CCTV 자료 분석이 이뤄졌다. 이 때 만약 그 데이터가 신속하게 전달되지 못했다면 분석 전에 범인은 추적 반경 밖으로 도주했을지도 모른다.

빅데이터를 이러한 속도 측면으로 접근하는 것을 ‘Velocity’라고 한다. 이는 데이터가 생성되고, 저장되며, 시각화되는 과정이 얼마나 빠르게 이뤄져야 하는지에 대한 정의다.

최근 웹과 통신기술의 발달로 데이터의 전송은 급속도로 증가되고있다. 예를 들어 유튜브로 전송되는 동영상은 분당 약 100시간 분량이며. 매 분마다 2억 통의 메일이 보내지고 있으며, 2천만 개의 사진이 포스팅되고있으며, 또한 매 분마다 거의 30만 개의 트위터 메시지가 전송되고 있다. 따라서 빅데이터의 정의에 있어 이러한 실시간 정보를 얼마나 빠르게 분석하여 의사결정을 하는데 제공할 수 있는가는 측면이라 할 수 있다.

빅 데이터에 대한 5가지 오해

솔루션 업체, 애널리스트, IT리더들, 거의 모든 사람들이 빅 데이터에 대해 각자 나름의 정의를 내리고 있으며 그들이 빅 데이터에서 기대하는 바 역시 제각각이다. 하지만 껍데기를 버리고 알맹이만 취하는 것은 중요하다. 그래서 빅 데이터에 대해 무엇이 맞고 무엇이 틀린 지를 알아보자.

빅 데이터는 오해의 소지가 다분한 모든 요소를 가지고 있다. 빅 데이터는 비교적 새롭고, 각각의 분야에서 고유한 성숙곡선을 타면서 성장하는 작은 기술들로 구성된 복잡한 시장이며, 현재 다소 과장돼 있다. 빅 데이터에 대한 오해를 풀고 IT리더와 애널리스트들이 지적한 빅 데이터의 정의, 기대치, 가능성에 대해 소개하고자 한다.

1. 빅 데이터는 비정형 데이터에 관한 것이다

소셜 미디어 사이트에서 비정형 데이터를 분석하는 것만으로 빅 데이터를 설명할 수는 없다. 가트너 연구 담당 선임 애널리스트 시드 데시팬데는 “데이터 용량, 빠른 속도, 다양성으로 어려움을 겪고 있는 기업들은 빅 데이터 문제를 안고 있는 조직이다”라고 지적했다.

인도 회사인 MTS의 CIO 라지브 트라의 예를 들어 보겠다. 개인정보 보호법 때문에 고객의 페이스북 계정으로 접속할 수 없다. 그러나 그의 시스템은 더 나은 고객 서비스를 제공하기 위해 매일 110TB의 정형 데이터에서 정보를 처리하고 있다.

2. 빅 데이터의 가장 큰 장점은 더 나은 고객 서비스다

빅 데이터의 가장 우수한 사례는 고객 서비스를 개선에 이를 활용한 기업들에서 나왔다. 하지만 가트너는 그것이 빅 데이터에서 파생된 가장 큰 장점은 아니라는 사실을 알아냈다.

“기업들에게 빅 데이터를 통해 얻고자 하는 혜택 중 가장 큰 것이 무엇이냐고 물었을 때, 프로세스 효율이 가장 큰 비중을 차지했다. 그 다음으로 보안 위험 영역 파악하기, 고객 만족의 새로운 영역 찾기 등이 지목됐다”라고 데시팬데는 말했다.

3. 빅 데이터는 IT 프로젝트다

물론, 빅 데이터는 결론 도출에 영향을 미치지 못한다. 그러나 빅 데이터는 기업이 성공적인 비즈니스 결과를 도출하기 위해 행동으로 옮겨야 하는 고급 정보를 제공하지 않는다. 때문에 빅 데이터는 IT프로젝트로 여겨질 수 없다. 맥킨지 글로벌 연구소장 마이클 추이는 “빅 데이터를 IT 프로젝트로 취급한다면, 실패할 수밖에 없다”라고 주장했다.

SKS마이크로파이낸스(SKS Microfinance)의 CIO 스리니 페다다도 추이의 의견에 동의했다. 페다다는 “빅 데이터는 베이스 노트다. 회사가 빅 데이터 프로젝트를 대해 당신 편이 아니라면, 그것은 IT 프로젝트가 된다. 그리고 회사 내 모든 빅 데이터는 쇠퇴할 것이다”라고 말했다.

4. 빅 데이터는 크게 시작해야 한다

꼭 그럴 필요는 없다. 디지털 분석 업체 타깃인디아(Target India)의 이사 냇 맬루필레이와 포레스터 인도 지사장 매니시 바흘은 CIO들이 빅 데이터에 갇혀서는 안된다고 말했다. 빅 데이터를 어떻게 도입할 지 잘 모르거나 투자에 회의적인 CIO들은 작게 시작할 수 있다.

“작게 시작하려는 CIO들은 정형 데이터건 비정형 데이터건 10~20% 정도로 작은 세트를 고른 다음 이 데이터를 분석할 수 있는 전문 업체를 활용하는 게 좋다”라고 맬루필레이는 당부했다.

5 . 빅 데이터 모든 분석에 대한 모든 것이다

분석은 빅 데이터의 한 부분으로, 궁극적으로는 최종 목표다. 먼저, 데이터를 저장하고 관리하며 압축하고 검색할 방법부터 파악해야 한다. 하지만 이 모든 과정이 분석의 멋진 태그에 종종 묻힌다. 소량의 데이터에서 가치를 발견하게 되면 그 때부터 데이터 양에 욕심을 부리게 되기 때문에 빅 데이터는 순식간에 겉잡을 수 없이 돼 버릴 수 있다.

빅 데이터는 너무 복잡하고 너무 빨라질 수 있다. 중요한 것은 빅 데이터를 작고 합리적인 수준으로 보관하고, 분석하기 전에 어떻게 빅 데이터를 관리할 지를 파악하는 것이다.

2013.05.31 Debarati Roy | Computerworld

데이터 전문가 네이트 실버가 말하는 데이터에 관한 진실

미국 최고의 통계 전문가 네이트 실버에 따르면, 데이터가 많아지면 그 가운데서 ‘알짜만 골라 가는’ 사람들도 늘어난다고 주장했다.

통계 전문가 네이트 실버는 “빅 데이터로 인해 사용자들의 시야가 넓어졌다고 생각하겠지만, ‘다다익선’이 적용되지 않는 경우도 있다”고 말했다. 실버는 2012년 대통령 선거에서 자신의 블로그 ‘Five Thirty Eight blog’에서 50개 주의 선거 결과를 모두 정확히 예측해 유명세를 얻은 바 있다.

네이트 실버에 따르면, 데이터가 많을 수록 원하는 결과를 보여줄 데이터 포인트(data point)를 고를 수 있는 사람도 늘어난다.

특히 많은 사람이 결과에 관심을 갖는 정치 분야의 경우 너무 많은 데이터가 문제가 되며, 이 외에도 의학 분야, 지진 예측 등 다양한 분야에서 너무 많은 데이터는 오히려 방해가 된다. 대부분 연구원들은 관심있는 결과만 보고 싶어할 뿐 이미 알고 있는 정보까지 같이 보려 하지 않는다.

5월 8일, 미국 보스턴에서 열린 RMS 익시던스 컨퍼런스(RMS Exceedance conference)에서 실버는 빅 데이터가 실용적인 통찰력을 주는 것은 사실이지만 ‘무의미한 데이터의 관계 속에서 쓰레기같은 쓸모 없는 상관 관계’ 역시 생겨난다고 말했다.

이 날 컨퍼런스에서 RMS 사는 새로운 클라우드 기반 RMS 리스크 관리 플랫폼을 발표했다. 뉴욕 타임즈에 기재되는 블로그 외에도, 실버는 <유용한 신호와 의미없는 잡음, 예측의 성패를 좌우하는 요인(The Signal and the Noise: why so many predictions fail — but some don’t)>의 저자이기도 하다.

실버는 컨퍼런스에서 데이터를 좀 더 효과적으로 활용하고 공유하는 방법에 대한 네 가지 팁을 공개했다.

확률적으로 사고해야 한다. 절대적인 확신을 찾지 말고 가능성 위주로 탐구해야 한다.

대부분 여론조사에 오차 범위가 있듯이, 사람에 따라서는 이해 못 할 수도 있지만, 예측에 따르는 불확실성에 대해 과감히 소통해야 한다. 일부에서는 실버가 대통령 선거 결과 예측에서 했듯이 자신의 예측에 자신감을 가져야 한다는 결론을 비판했지만, 그럼에도 불구하고 불확실성을 확실히 전달하는 것은 ‘매우 중요하고 효과적인 방법’이다.

실버는 “오히려, 그렇게 하지 않을 경우 심각한 결과가 초래될 수 있다”고 말했다. 1997년 미국기상청에서 그랜드포크스 레드 강(Red River)에 49피트(14.9m)에 달하는 홍수를 예측한 일이 있었다. 51피트(15.5m) 높이의 홍수까지 견딜 수 있는 둑이 있었으므로 지역 주민들은 안심하고 있었다.

불행히도, 미국기상청에서는 그랜드 포크스 주민들에게 과거 일기예보에 기반한 오차 범위인 ±9피트(2.7m)를 알려 주지 않았다. 그 홍수로 인해 레드 강은 54피트(16.4m)까지 불어났고, 그 지역 일대는 물에 잠기게 되었다.

그 결과 현재 미국기상청은 일기예보의 오차 범위를 정확하게 전달하고 있다고 실버는 말했다. 실버는 허리케인의 예측 진행 경로에 따르는 ‘불확실성의 원추(cone of uncertainty)’를 인용했다. ‘시각적으로’ 불확실성을 보여주면 사람들이 예측된 정보를 받아들이는 데 도움이 된다고.

가능성 예측은 ‘무지와 확신의 중간 지점’이지만, 아직 확실하다고 볼 수 없는 상태다. 실버는 “자신이 어디서 시작했는지 아는 것, 즉 다시 말해 자신의 예측에서 보완할 점이 무엇인지 알고 특정한 결론에 도달하려는 의지가 필요하다. 예측은 그 예측의 가장 불완전한 부분으로 정의된다”고 말했다.

실버는 성에 대한 편견을 주제로 실행한 한 실험을 소개했다. 이 실험에서, 비슷한 경력이 적힌 이력서를 사람들에게 보여주고, 한 이력서에는 여성의 이름이, 다른 이력서에는 남성의 이름이 적혀 있었다.

성에 대한 편견이 전혀 없다고 얘기한 사람들이 실제로는 훨씬 더 여성에 대한 성차별이 심한 것으로 나타났다. 왜일까? 실버는 “자신에게 이런 성향이 있음을 알고 있는 사람들은 표면적으로 그렇게 보이지 않기 위해 노력하기 때문”이라고 설명했다.

데이터를 조사하되, 예측에 확신을 갖기 전에는 오차 범위를 남겨둬야 한다. 다시 말해, 기후가 온화한 샌디에고의 날씨를 정확히 예측하는 것 보다 변덕스러운 버팔로 날씨를 예측하는 것이 훨씬 더 놀라운 일이다.

마찬가지로, 경제 상황의 등락이 심한 때보다 안정적일 때 경제 예측을 하는 것이 더 쉽다. 그렇기 때문에 불경기를 예측하기가 어려운 것이다.

경제 상황을 예측하는 학자들은 1986년에서 2006년 사이의 데이터, 즉 경기 상황이 불안정했을 때의 데이터를 기반으로 경제 모형을 만들었다. 실버는 “어리석은 가정에 기반해 모형을 만들면 분석이 아무리 정교해도 별 효용이 없을 것”이라고 지적했다.

마지막으로, 여러 번의 시도와 실수가 도움이 된다. 실버는 “예측 모형은 많은 피드백을 받으며 천천히 생성될수록 정확해진다. 인생의 많은 것이 그렇듯, 너무 기적 같은 결과에 대해서는 의심해 봐야 한다”고 말했다.

2013.05.14 Sharon Machlis | Computerworld

계속

빅데이터