Google, Facebook, Netflix, 그리고 빅데이터 <모두 거짓말을 한다>
모두 거짓말을 한다 - Seth Stephens-Davidowitz.
'언제까지 구글에 이용만 당할 것인가?'
거대한 파도가 되어 덮친 제3의 물결
모두 거짓말을 한다 - Seth Stephens-Davidowitz '정보화의 잔잔한 물결이 거대한 파도가 됐고, 현재 데이터 홍수 속을 헤엄치며 살아가고 있다.' 나는 불과 10여 년 전만 해도 카카오톡이 등장해 문자를 대체할..
storyofbo.tistory.com
앞서 우리가 사는 세상과 빅데이터가 만들어진 배경에 대해서 짚어보았다. 이제 빅데이터가 힘을 가지는 이유에 대해 더 깊게 알아보고, 사용 설명서를 들여다볼 차례다.
'빅데이터의 힘, 솔직한 의견'
과거에는 없던 거대한 데이터의 힘을 심리학자 프로이트가 본다면 과연 기뻐할까? 누구도 알 수 없지만 분명한 것이 하나 있다. 그의 주장 중 옳고 그른 것을 증명할 수 있게 되는 순간을 맞이할 것이다. 인간의 억눌린 성적 욕구를 거대한 포르노 사이트의 데이터가 진실되게 밝혀주기 때문이다. 혼자 있는 방 안에서 남 눈치를 신경 쓰며 거짓 검색을 할 이유는 없다.
'데이터는 자백약이다.'
인터넷의 익명성은 사람들로 하여금 쉽게 진실을 말할 수 있도록 도와준다. 구글 검색의 자동완성 기능만 보더라도 사람들의 생각을 엿볼 수 있다. 사람들은 오프라인에서는 할 수 없던 마음속 깊은 곳의 질문을 온라인에 던지고 해답을 찾는다.
페이스북의 시작도 데이터의 자백약 기능이 없었다면 힘들었을지 모른다. 마크 저커버그는 페이스북 오픈 당시 많은 비난과 질타를 받고도 의지를 굽히지 않았다. 이유는 간단하다. 데이터가 괜찮다고 말했기 때문이다. 그는 질타 속 가능성을 봤다. 비난의 반대편에 페이지 방문자수와 참여율도 오른 데이터가 존재했다. 이게 바로 데이터가 주는 사람들의 솔직한 의견이다. 그리고 그는 초기의 비난과 달리 현재 꽤나 큰 성공을 거뒀다.
'빅데이터의 힘, 특정 집단 클로즈업'
우리에게 거대한 데이터가 있기 때문에 원하는 특정 대상을 클로즈업해서 분석하고, 나아가 다른 대상과 비교도 가능하다. 빅데이터를 이용해 같은 나라 안에 유명인이 더 많이 배출되는 지역과 아닌 지역의 차이를 분석해본 결과는 이렇다.
거주지역이 대학촌 주변일 때, 혁신에 대한 조기 노출이 가능한 지역일 때, 그리고 지역 안에 대도시의 유무가 유명인 배출양을 결정한다 (환경의 중요성을 적나라게 보여주는 사례다). 이렇게 특정 대상에 대한 데이터들을 클로즈업해 비교 분석이 가능한 시대가 온 것이다.
'사진을 확대해 디테일을 보려면 화소가 높아야 한다. 데이터도 그러하다.'
넷플릭스도 데이터의 도움이 없었다면 존재하지 않을 것이다. 그들은 데이터 속 사람들의 양면적인 모습에 주목했다. 사람들이 시청을 원하는 목록과 실제 시청하는 목록 사이에는 큰 괴리가 있었고 이를 데이터가 잡아낸 것이다. 기회를 놓칠세라 넷플릭스는 특정 집단을 확대해 비슷한 집단을 찾아내고, 빅데이터를 분석해 비슷한 사용자가 원하는 컨텐츠를 추천하고 제공했다. 마치 도플갱어를 찾아 매칭을 시켜주는 것처럼.
'빅데이터의 힘, 극도로 효율적인 인과실험'
A/B 테스트(무작위 비교연구)는 인과관계를 밝혀주는 가장 유용한 도구 중 하나이다. 하지만 과거 데이터가 충분치 않은 시절에는 아무나 쉽게 A/B 테스트를 할 수 없었다. 직접 실험단을 모집해 연구 후 시간이 걸리는 분석 결과를 거치는 수고스럽고 비용이 드는 과정이 필요했다.
그러나 고도로 정보화된 2020년은 완전 다른 세상이다. 극도로 효율적인 온라인 테스트법이 우릴 반겨준다. 빠르고 즉각적인 결과와 피드백을 얻을 수 있으며, 무엇보다 비용이 매우 적은 A/B 테스트가 가능하다. 그리고 테스트를 통해 데이터를 수집한다, 거대하고 유의미한 데이터를.
2014년 조사 결과 페이스북은 하루에 1000번의 실험을 실시한다. 실험대상은 바로 페이스북을 사용하는 '우리'다. 온라인상에서 A/B 테스트를 실시하는 곳이 페이스북뿐만은 아니다. 구글을 비롯해 수도 없이 많은 페이지에서 실시하고 있다.
'우리는 인터넷 속에 들어가 하루에서 수십수천 번 실험쥐를 자처하는 셈이다, 우리도 모르는 사이에.'
'빅데이터의 힘, 새로운 유형의 정보'
빅데이터는 검색과 클릭에만 국한되는 작은 개념이 아니다. 때로는 전에 없던 완전히 새로운 유형의 정보를 제공한다. 그에 따라 다양한 쓰임을 갖는다.
빅데이터는 인공위성의 야간 조명 사진으로 GDP를 추정 가능 캐 해 준다. 또한 데이트시 오가는 단어들을 분석해 애프터 성공 가능성을 알려준다. 그리고 통계적인 데이터로 어떤 망아지가 잘 뛰는 말이 될지 알려주기도 한다.
특정 데이터는 특정 상황을 예측 가능하게 도와준다. 예를 들어 특정 질병의 증상을 검색하는 사람이 많아진다면 그 시기 질병 환자수가 늘어난다. 이 외에도 다양한 예측을 돕는 도구로써의 기능은 충실히 이행할 수 있다. 그러나 기억해야 할 중요한 사실 하나가 있다, 데이터가 전적으로 결과를 예측하는 건 불가능하다.
인간의 판단이 필요하기 때문이다.
'빅데이터의 한계와 금기'
모든게 가능할 것만 같은 빅데이터로도 불가능이 존재한다. 뉴턴의 말을 빌리자면, "천체의 움직임은 계산할 수 있어도 사람의 광기는 도저히 측정할 수가 없었다." 맞다, 주식시장 예측이 불가능한 예중 하나이다. 저자가 몸소 실천하고 보여준 결과, 그 누구도 주식시장을 완벽하게 예측하는 건 불가능하다.
빅데이터로 불가능한 것도 있지만 하지 말아야 할 것들도 존재한다. 어릴 적 만화에서 봐왔듯이 악당의 손에 강력한 힘이 들어가면 무시무시한 흉기가 되어 돌아온다. 카지노, 대부업, 보험회사 등이 만약 데이터를 전적으로 이윤추구 목적으로 사용하게 된다면 피해는 우리의 몫이다. 그들은 빅데이터를 활용하여 이윤을 최대화하는 동시에 우리의 고통도 최대화할 수 있기 때문이다. 빅데이터가 마른오징어를 비틀어 짜 물이 나오는 장면을 보여줄지도 모른다.
'빅데이터는 강력한 양날의 무기다.'
º
서평을 쓰다 문득 플로피 디스크를 사용하던 초등학생 때가 생각났다. 디스크에 옮기고 싶던 파일의 크기가 너무 커 바로가기를 만들고 그걸 넣으며 뿌듯해하던 순수한 내 모습. 얼마 지나지 않아 좌절을 맛보며 왜 이 정도도 안 들어갈까 하며 상심하던 어린 내 모습. 하지만 15년이 채 지나지 않아 테라 단위의 외장 메모리에 백업하는 걸 보니 세상도 많이 바뀌었다 또 한 번 느낀다. 하지만 마냥 좋아졌다고만 할 수는 없다.
빅데이터의 중요성이 부각되며 굴지의 기업들이 자신들만의 플랫폼을 이용하게 만들어 폐쇄적으로 데이터를 수집하려 하는 모습들이 보인다. 정보의 부익부 빈익빈 현상이 더욱 가속화될 것이고 80/20 법칙이 99/1에 점점 가까워지는 게 아닌가 우려가 된다.
걱정은 잠시 접어두고 일단 내가 살면서 쌓는 데이터 그리고 내 수준에서 얻을 수 있는 데이터라도 이용할 줄 아는 게 우선이 돼야 할 것 같다. 아무리 큰 데이터도 다듬고 이용하지 못하면 덩어리 일 뿐이다. 같은 데이터라도 사용하는 사람에 따라 옥석이 가려진다.
데이터를 대하는 돈으로 살 수 없는 내 능력을 키워야 할 시기이다.
한 가지 더 주목한 점은, 심리학과 통계학을 배워 빅데이터에 접목시키면 어마어마한 시너지를 낼 수 있을 거라는 것이다. 개방적이고 유연하게 빅데이터를 풀어나가기에 큰 도움이 될 거라 생각한다.
화질 좋은 사진은 돈으로 살 수 있다. 아예 화소 높은 비싼 카메라를 살 수도 있다. 하지만 필요한 사진을 찍는 법을 모른다면 무슨 소용일까? 구도를 맞추고 상황에 따라 원하는 사진을 찍을 줄 알고 싶다. 사진에서 필요한 부분을 담고 불필요한 부분을 쳐내는 능력은 경험과 배움에서 오는 돈 주고 살 수 없는 능력이다. 스스로 대상을 정해 핵심을 포착할 수 있는 날이 올 것이라 믿어 의심치 않는다.
책 속 빅데이터 사용법은 신선한 충격을 주었고, 그 결과 다소 도발적인 소제목을 택했다. 저자의 구글 이용법은 기발했다. 검색 분야의 90%를 점유한 구글의 '사용자'는 전세계에 수도 없이 많다. 하지만 제대로 이용하는 구글의 '이용자'는 소수인 것처럼 보인다.
범람한 데이터 속 진주를 찾아 헤매는 데이터 과학자 중 한 사람인 저자에게 감사를 표한다.
21세기 구글 넷플릭스 페이스북 정보화 구글 검색 모두 거짓말을 한다 빅데이터 빅데이터 사용법 빅데이터 이용 4차 산업혁명 세스 스티븐스 다비도위츠 21세기 구글 넷플릭스 페이스북 정보화 구글 검색 모두 거짓말을 한다 빅데이터 빅데이터 사용법 빅데이터 이용 4차 산업혁명 세스 스티븐스 다비도위츠 21세기 구글 넷플릭스 페이스북 정보화 구글 검색 모두 거짓말을 한다 빅데이터 빅데이터 사용법 빅데이터 이용 4차 산업혁명 세스 스티븐스 다비도위츠