티스토리 뷰
지난 번 글(빅데이터가 만드는 세상)에서 밝혔던 것과 같이 <빅데이터>에서 중요한 개념은 인과관계가 아니라 상관관계입니다. 기존 마케팅적 접근들이 특정한 인간행동의 인과모형에 근거하여 원인→결과 혹은 자극→행동에 기반하여 그 원인이나 자극을 제공하는 것이었다면, 빅데이터는 특정 행동과 특별한 관계에 있는 다른 요인을 찾아내어 그 요인의 변화에 따른 특정행동(예컨데 구매)을 예측하는 방식이었습니다. 대표적인 예가 타겟 사례에서 나오듯이 개인의 결혼이나 연령, 라이프스테이지 정보 없이 타겟 홈페이지에서 아동용품이나 출산용품을 검색한 데이터만으로 그 검색 이용자에게 출산/아동용품 쿠폰을 발행해주는 것이 되겠죠.
빅데이터의 현실적 장벽: 특별한 관계의 발견
그런데 여기서 문제가 하나 있습니다. "특정 행동과 특별한 관계"를 밝혀내는 것입니다. 사실 상관관계는 세상에 엄청나게 많이 존재한다는 것입니다. 예를 들면 다음과 같습니다.
위의 그래프는 통계학에서 매우 유명한 사례를 임의적으로 그래프화한 것입니다. Y축은 익사사고 건수, X축은 아이스크림 판매량을 나태닙니다. 보기에도 두 요인간에는 매우 높은 상관관계를 나타내는 것으로 보입니다. 상관계수값 역시 매우 높은 0.948을 나태내고 있습니다.
하지만 대부분 상식적인 수준에서 생각해본다면 위의 두 요소간 관계는 잘못된 관계임이 금방 드러납니다. 아이스크림이 많이 팔린다고 익사사고가 증가하거나 그 반대가 성립하지는 않습니다. 이 두 요소가 어떤 관계로 나타나는 것이 아니라 이 요소들 사이에는 기온이라는 중요한 요인이 개입되어 있죠. 즉, 기온의 상승/하락과 아이스크림 판매량 증가/감소 혹은 익사사고의 증가/감소가 직접적으로 관계가 있을 뿐입니다.
해변에서 바늘 찾기
이러한 특별한 관계의 발견은 대부분 인간행동에 대한 가설적 모형, 즉 인과관계에 기반한 이론에 근거할 때가 많습니다. 위의 사례처럼 아이스크림 판매와 익사사고간에는 통계학적으로 유의미한 상관값이 나온다 하더라도 이론적으로 혹은 상식적으로 둘 간의 관계가 의미 없다는 것은 우리가 인간의 행동에 대한 이론, 기온이 높아지면 더위를 피하기 위해 아이스크림을 먹거나 물놀이를 간다는 상식을 알고 있기 때문에 판단이 가능합니다.
하지만 현실은 이처럼 간단하지는 않죠. 복잡다단한 사건들 속에서 특별한 관계를 찾는 것은 해변 모래사장에서 바늘 찾기 만큼 어려울 때가 많습니다. 유통회사에서 흔히 벌어지는 일 중에 할인쿠폰을 많이 발행해야 판매가 증가한다는 주장이 있습니다. 이를 증명하는 자료도 상당히 많습니다. 쿠폰발행비용 증가에 따라 유통회사 판매량이 증가하는 그래프 등이 그것이죠. 하지만 실제로 쿠폰회수율을 보면 반드시 그렇지 않은 경우도 있습니다. 사실 상관관계가 더 명확하게 드러난 경우는 신학기, 결혼, 명절, 크리스마스/연말 등의 계절적 요인에 의해 판매량이 증가하는 관계가 더 설득적입니다. 게절적 요인과 판매량은 쿠폰발행과 상관 없이 명확히 증명되는 것이기도 하고요. 그래서 실제로 자료를 보다 심층적으로 분석해보면 쿠폰발행량은 위에 언급된 시기에 더 많이 발행되는 경향이 있습니다.
<빅데이터> 프로젝트의 난제는 여기에 있습니다. 기업이 보유한, 혹은 확보하게 될 엄청난 데이터 속에서 유의미한 상관관계 발굴은 데이터 자체만으로는 해소되지 않습니다. 오히려 기계적인 상관관계 도출은 오히려 기업을 더 혼란스럽게 만들 수 있습니다. 이런 이유로 빅데이터 프로젝트에는 상당한 시간이 소요됩니다. 분석하고자 하는 데이터들의 목록들을 면밀히 분류하고 체계화하면서 여러 가지 인간 행동에 대한 이론을 세워보고 그에 따른 분석을 체계적으로 진행하면서 유의미한 관계가 있을 법한 요인들로 좁혀나가는 가설-검증의 과정이 반복적으로 이루어져야 하기 때문입니다. 게다가 유의미한 관계를 발견했다고 하더라도 그것을 모형화하여 미래 예측력을 테스트해보는 실행 가능성 검증 또한 이루어져야 하기 때문입니다.
결국 <빅데이터>라는 혁신 역시 단순히 유행으로 그치지 않기 위해서는 조급함을 버리고 초기 프로젝트 시작부터 위와 같은 면밀한 검토부터 이루어져야 할 것입니다. 아무런 여과 없이 소개되는 성공사례만 바라보고, 마치 빅데이터만 하면 무언가 데이터 속에서 보석을 발견할 것처럼 여기지는 말아야 합니다. 위에 소개된 과정 외에도 프로젝트 진행 상에서 부딫히게 될 여러 가지 다양한 장애요인들을 하나씩 해소해가면서 차근차근 접근할 때 진정한 빅데이터의 가치가 발현될 것이라 생각됩니다.
Copyrightⓒ2015. Hybrid Lab. All rights reserved.
- Total
- Today
- Yesterday
- 트렌드
- 마케팅전략
- 코카콜라
- 포지셔닝
- 가치
- 스마트폰
- 마케팅
- 행동경제학
- 쇼핑
- 브랜드
- 태그를 입력해 주세요.
- 라이프스타일
- 맥주
- 경영
- 증강현실
- 애플
- 역사
- 마케팅의 역사
- 세대갈등
- 펩시
- 브랜딩
- 세대전쟁
- SNS
- 자동차
- 수요음악산책
- 트렌드모니터
- 브랜드전략
- 빅데이터
- 혁신
- 광고
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |