[빅데이터] 빅데이터가 만드는 세상
『빅 데이터가 만드는 세상(Big Data: A Revolution that will transform how we live, work, and think)』(21세기 북스)을 최근 완독했습니다. 최근 빅 데이터에 대한 관심으로 인해 빌려 읽게 되었죠. 지난 번에 읽은 책이 한권 있는데 그 책은 좀 뭐랄까...그냥 여기저기 나와 있는 빅 데이터에 대한 묘사들을 수집해 놓은 듯한 느낌이었습니다.
그에 반해 이 책은 달랐습니다. 빅 데이터가 등장한 의미를 보다 광범위한 관점에서 설명하고 있습니다. 게다가 새롭게 데이터를 바라볼 것을 요구합니다. 기존의 데이터를 다루던 방식을 스몰 데이터라고 칭하며 이와 다른 빅 데이터의 세상에 적합한 방식으로 데이터를 다뤄야 한다고 주장합니다.
특히나 매우 인상적인 주장을 합니다. 특히 단순히 데이터의 규모가 크기에 빅 데이터라고 명명하는 것은 아니라고 합니다. 점차 디지털화된 데이터 환경 속에서 우리는 전체 모수에 가까운 규모의 데이터를 수집, 분석할 수 있다는 점에서 '빅'이란 용어에 의미를 두고 있습니다. 또한 기존에 우리가 당연시하던 인과관계 중심의 분석은, 어쩌면 틀린 것일지 모른다. 우리가 데이터에서 읽어야 하는 것은 상관관계이다. 예측을 위해서는 원인을 파악하기 보다는 그와 병행하는, 혹은 그에 수반하는 다른 증상을 읽어야 한다는 것입니다.
빅 데이터에 대한 기술적 정의가 아닌 철학적 정의
지난 번 '빅 데이터' 관련 글에서 기존에 제시되었던 빅 데이터에 대한 세 가지 요소를 소개한 적 있습니다. 소위 말하는 3V(Volume, Variety, Velocity)죠. 그런데 이것은 매우 기술적인 관점입니다. 사실 저 역시 이 세 가지 요소를 접하면서 도대체 이 세 가지가 어떻다는 것인지 명확히 이해하기 어려웠습니다. 하지만 『빅 데이터가 만드는 세상』은 이를 매우 간단하게 설명하고 있습니다. 'N1=1all'이 바로 그것입니다. 이 용어는 모수가 모든 변수를 포함하는 전체집합임을 의미합니다. 즉, 통계학이나 기존 자연과학이 꿈에 그리던 이상적 환경이죠. 빅 데이터의 가장 중요한 개념은 여기에 있는 것 같습니다. 바로 무작위 표본추출이 필요없는 데이터 환경.
사실 기존 자연과학은 측정 가능한 가설 수립 후 엄격한 실험 통제 환경을 조성하고 무작위 표본추출을 통해 모집단에 대한 대표성을 획득한 후 실험 결과를 도출하여 가설을 입증해왔습니다. 하지만 여기엔 세 가지 오류 가능성이 있습니다. 첫 번째는 가설의 오류, 두 번째는 실험 통제의 오류, 세 번째는 표본 대표성의 오류가 그것입니다.
가설의 오류에 관한 대표적 사례는 1920년대까지 횡횡했던 정신과 치료법이죠. 간질환자에 대한 치료법으로 전두엽 절개술이 존재했습니다. 인과관계에 집착하는 가설 수립에 있어 그 가설 자체가 잘못될 경우 돌이킬 수 없는 결론을 내릴 수 있습니다. 실험 통제의 오류도 매우 빈번하죠. 하지만 이 책에서 가장 심각하게 거론하는 오류는 앞서 언급한대로 표본 대표성의 오류입니다.
대표적인 경우가 중요한 선거 결과에 대한 출구 조사입니다. 많은 방송사들과 여론조사기관들이 투표소 밖에서 투표를 마치고 나오는 유권자들 중 일부에게 투표 유무와 투표 대상자에 대해 조사하여 미리 선거 결과를 예측하는 것입니다. 그런데 이 결과가 최근 들어서 매우 틀리다는 것입니다. 그 원인은 바로 일부를 추출하는 표본조사 방식에 있다는 것이죠.
빅 데이터는 말 그대로 '빅' 데이터이다
빅 데이터의 중요성은 이 표본 추출에서 가장 큰 차이를 보입니다. 이 책에서 처음 소개된 '페어캐스트(Farecast)' 사례는 이를 명료하게 보여줍니다. 컴퓨터 프로그래머인 오렌 에치오니가 설립한 페어캐스트는 초기에는 여행 웹사이트에서 수집한 가격 정보를 취합해 예측치를 보여주었고 나중에는 ITTA 데이터를 수집하게 됨으로써 거의 모든 항공사들의 항공권 요금정보를 입수, 분석하여 그 가격의 흐름을 예측해주었다. 책에 소개된 '가격 변동의 이유에 관해서는 전혀 알려주지 못했다. 그저 결론이 무엇인지를 알려주었을 뿐'이라는 글은 가장 핵심적인 내용이다.
기술적 변화, 예컨대 고성능 CPU에 의한 처리속도 증가, 스토리지 용량의 증가, 인터넷과 같은 네트워크 등은 빅 데이터에 대한 기술적 묘사 대상일 뿐입니다. 정작 중요한 것은 이런 인프라가 사용자에게 앞서 언급한 것처럼 원하는 데이터의 표본추출이 아닌 전체 집합을 제시해준다는 것입니다. 아마도 이런 의미에서 '빅'이란 용어를 정의하는 것이 적합하다는 저자의 생각에 동의합니다. 즉, '빅'이란 상대적인 개념이죠. 원하는 데이터에 따라 그 범위는 수 백 개에서 수십 억 개로 달라질 수 있을 것입니다. 중요한 것은 규모가 아니라 모수, 전체 집단과의 근사치 정도라는 점이죠.
Black Box 내부가 아니라 외부를 보라
또 하나 주목할 내용은 인관관계가 아닌 상관관계에 주목하라는 점입니다. 사실 그 동안 많은 통계 모델들, 특히 브랜드 자산 진단 모델들은 마케팅 활동과 브랜드 자산간의 인과관계를 규명하려고 노력해왔습니다. 하지만 이러한 시도들은 그리 성공적이지 못했죠. 사실 마케팅 활동과 판매 결과 혹은 브랜드 자산 간에는 무수히 많은 변수들이 존재하기 때문에 환경을 통제한다는 것이 불가능합니다.
이런 측면에서 이 책의 저자가 말하는 상관관계로의 전환은 매우 주목할만한 내용입니다. 브랜드 자산의 증감과 함께 나타나는 증상은 무엇인지를 밝혀내는 작업이 더 중요할지 모릅니다. 왜 그렇지? 라는 질문은 잠시 옆으로 밀어두고 브랜드의 건강함을 예측해줄 수 있는 다른 징후는 무엇이지? 라는 질문에 초점을 맞춰보면 어떨까요? 가설적 모형이 아닌 실제 현상을 다루게 될 수 있을 것입니다.
예를 들어 온라인 쇼핑몰 댓글 데이터를 수집해 분석하다 보면 판매량 혹은 브랜드 선호도의 증감과 온라인 쇼핑몰 댓글량의 증감이 상관관계를 나타낼 수도 있을 것입니다. 다른 현상들과의 관계가 도출될 수도 있겠죠. 이런 상관관계 규명 후 그 요인들을 투입변수로 한 여러 확률 모델을 적용한다면 상당히 설명력 높은 예측 모델을 만들어낼 수 있을 것입니다.
점차 빅 데이터가 스스로 모습을 드러내고 있습니다. 거품은 걷히고 소문은 사실로 굳어질 것입니다. 더 많은 사례가 소개되고 성공과 실패의 기준점이 보일 것입니다. 너무 서두르지 말고 하지만 또 너무 뒤지지 않게 나아가야 합니다. 빅 데이터의 유용성 범위 내에서.
Copyrights ⓒ 2014 녹차화분 All rights reserved.