위키백과는 거의 모든 미래의 먹거리와 연결되는 빅데이터와 그것이 사용된 예를 다음과 같이 들고 있습니다. 필자가 정보통신사업을 할 때 꿈꿨던 것이 빅데이터를 이용한 맞춤형 서비스와 행동예측시스템을 구축하는 것이었습니다. 빅데이터를 이용한 인공지능이 발전해도 그것을 각각의 소비자에게 전달할 수 있는 방법은 메일과 문자서비스(MMS와 영상을 보내는 것도 동일한 방식이다)일 것이기 때문에 이런 꿈을 꿀 수 있었습니다. 

 

 

빅데이터는 통상적으로 사용되는 데이터 수집 및 관리, 처리 소프트웨어의 수용 한계를 넘어서는 크기의 데이터를 말한다. 2008년 미국 대통령 선거에서 오바마 캠프는 '다양한 형태의 유권자 데이터베이스를 확보해 이를 분석함으로써 '유권자 맞춤형 선거 전략'을 펼칠 수 있었다. 그 결과 오바마는 최초의 흑인 대통령에 오를 수 있었다. 

 

 

이 덕분에 미국은 부시 행정부의 막가파식 국제 경영에 반발해 폭발 직전에 이른 반미감정을 누그려뜨릴 수 있었습니다. 비록 부시 행정부 시절 국가 업무의 무차별적인 민영화와 외주화 때문에 껍데기만 남은 연방정부를 물려받았고, 아프카니스탄과 이라크에서 벌어진 양대 전쟁비용 때문에 연방정부 재정이 고갈된 상태라 오바마는 할 수 있는 일이 거의 없었지만, 부시 행정부의 노선을 일부 수정함에 따라 노벨 평화상은 탈 수 있었습니다.

 

 

《검은 피부, 하얀 가면》의 저자 프랑츠 파농 식으로 말하면 '오바마는 백인이 지배하는 워싱턴 정가에서 그들이 정해놓은 방식대로 성공한 검은 피부의 백인 대통령'에 불과합니다. 오바마가 대통령에 오른 이후 한 일이라곤 누더기 전락한 '오바마케어'를 통과시킨 것과 2008년 금융위기를 극복하기 위해 무차별적인 양적완화로서 주식시장을 원상태로 회복시킨 것이었습니다(나오미 클라인이 《No Logo》와 지그문트 바우만의 《고독을 잃어버린 시간》을 참조할 것).

 

 

아무튼 오바마는 빅데이터를 활용한 방법에는 탁월했지만 그 다음의 통치에서는 평균 정도에 그친 것 같습니다. 위키백과는 오바마 캠프가 빅데이터를 활용해 대통령 선거에서 승리한 방법에 대해 다음과 같이 설명을 이어갔습니다.

   


당시 오바마 캠프는 유권자를 '인종, 종교, 나이, 가구형태, 소비수준과 같은 기본 인적 사항으로 유권자를 분류하는 것을 넘어서서 과거 투표 여부, 구독하는 잡지와 신문, 마시는 음료 등 유권자 성향까지 전화나 개별 방문을 또는 소셜 미디어를 통해 유권자 정보를 수집했습니다. 이렇게 수집된 데이터를 온라인으로 통합관리하는 데이터베이스인 바터필드 시스템에 저장했습니다. 이후 데이터 분석을 통해 유권자 성향 분석, 미결정 유권자 선별, 유권자에 대한 예측을 할 수 있었고, 이를 바탕으로 '유권자 지도'를 작성한 뒤 '유권자 맞춤형 선거 전략'을 전개할 수 있었습니다(위키백과에서 인용) 

                                                              

 


사실 빅데이터는 모든 분야의 마케팅 담당자들이 가장 원했던 것입니다. 보험회사가 각종 통계자료를 축적해서 보험상품에 대한 가격과 수익율을 계산했듯이, 새로운 제품과 서비스를 출시하는 기업들은 타겟 마케팅을 할 수 있는 소비자들에 대한 정보가 절실히 필요합니다. TV광고는 단가도 높지만 불특정 다수를 대상으로 하는 관계로 광고 대비 매출을 정확히 파악할 수 없었습니다. 

 

 

하지만 컴퓨터의 성능을 결정하는 반도체의 비약적인 발전으로 기업이 원하는 빅데이터 구축이 가능해지자, 기업가들은 광고 효과를 극대화할 수 있는 방법에 다가갈 수 있었고, 마침내 구글이라는 기업도 출현이 가능해졌습니다. 필자가 이통사들과 함께 수많은 프랜차이즈 고객들을 상대로 빅데이터를 구축해 각각의 업체마다 최적의 맞춤형 서비스를 할 수 있도록 시도한 것도 이 때문입니다. 

 

 

이런 방식은 교회와 학원, 병원 등에도 적용이 가능하고, 스타들의 팬관리에도 적용이 가능했습니다. 보험사와 카드사 은행과 증권사 등도 확대적용이 가능할 것이었습니다. 운송업체와 대리운전 전문업체, 유통업체 등에도 적용이 가능하며, 최종적으로는 여론회사와 리서치 회사들을 대체할 수 있을 것이라 생각했습니다. 필자가 망한 후에 실제로 이런 일들이 일사천리로 진행됐습니다.






비슷한 방식으로 빅데이터는 인공지능의 발전에도 절대적으로 필요합니다. 아직까지 생각하는 컴퓨터가 가능하도록 만드는 획기적인 이론이 나오지 않았지만, 데이터의 양이 쌓이고 축적될수록 인간의 뇌에 근접한 인공지능이 나올 수 있습니다. 정보의 축적이 무한대로 늘어나면, 그러면서도 경제성이 있다면 인간의 뇌에 근접한 인공지능의 출현도 불가능한 것만은 아닐 수도 있습니다(리처드 도킨스의 《눈먼 시계공》을 참조할 것). 

 

 

예를 들면 제가 정보통신사업을 할 때 유행했던 음성인식기술을 들 수 있습니다. 말로써 모든 전자제품을 사용할 수 있는 꿈의 시대로 접어들려면 음성인식기술이 상용화돼야 하는데 이것에도 빅데이터는 필수적입니다. 보통 음성인식율을 높이려면 일상생활에서 쓰는 단어들을 선정(많을수록 좋다)해서 수많은 사람들로 하여금 읽도록 만듭니다. 발음이 좋은 사람부터 알아듣기 힘들 만큼 발음이 나쁜 사람까지 똑 같은 단어를 읽게 만들어 그것들을 서버에 축적한 다음에 수없이 되풀이해서 똑 같은 단어를 발성한 다종다양한 음성과 해당 단어의 매치율을 최대화합니다. 



이런 과정을 많이 하면 할수록 데이터 마이닝된 단어들이 늘어나 음성인식율이 계속해서 올라갑니다. 아직도 노이즈 제거라는 핵심사항이 남아 있지만 음성인식율이 높아지면 노이즈 문제도 어느 정도 극복할 수 있습니다. 이런 방식이 빅데이트를 활용하는 방식 중 하나에 속합니다. 구글이 이용자의 수많은 검색기록과 서핑기록, 사용기록 등을 축적해 빅데이터를 구축하는 이유도 사용자의 행태를 확률적 계산에 따라 유추해내기 위해서입니다. 





물론 음성인식에 있어 가장 힘든 일이 사용자의 음성과 섞이기 마련인 노이즈 제거이기 때문에, 잡음이 없는 조용한 공간에서 사용하면 인식율은 높아집니다. 문제는 이 정도 수준의 인식율이면 개발비와 투자비를 회수할 방법이 없습니다. 한 때 음성으로 전화를 거는 휴대폰이 유행이었던 적이 있었지만, 인식율이 떨어져 곧바로 사라졌습니다. 1980년대 미국에서 선풍적인 인기를 끌었다가 곧바로 시들어버린 것과 동일한 과정을 밟은 것이지요. 

 

 

특히 한글의 경우에는 구조적인 문제 때문에 영어에 비해 인식율이 많이 떨어집니다. 보통 음성인식이 제품으로서의 경쟁력을 지니려면 인식율이 98~99%에 이르러야 합니다. 고도의 정확성이 요구되는 원자력 같은 경우에는 99.99%의 인식율도 턱없이 부족합니다. 필자가 사업하던 당시에는 한글의 인식율이 50% 수준에서 나아지지 않았습니다. 심지어 음성인식의 최하의 단계인 TTS(텍스트를 음성으로 전환하는 것)도 상용화되기에는 인식율이 많이 떨어졌습니다.


 


대부분의 빅 데이터 분석 기술과 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝기계 학습자연 언어 처리패턴 인식 등이 해당된다. 특히 최근 소셜 미디어등 비정형 데이터의 증가로 인해 분석기법들 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜네트워크 분석, 군집분석 등이 주목을 받고 있다.

                                                                       

텍스트 마이닝: 비/반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반하여 유용한 정보를 추출, 가공

오피니언 마이닝: 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별

소셜 네트워크 분석: 소셜 네트워크의 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정

군집 분석: 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 발굴

                                                    


오랜 기간 동안 쌓인 데이터를 마이닝하고 분석한 결과, A라는 사람이 매월 3주차의 비 오는 수요일 오후 8시 경에 홈쇼핑에 접속해 특정 제품군을 많이 사는 경향이 있다면, 같은 조건이 날이 돌아오면 오후 8시 직전에 A의 휴대폰에 특별할인쿠폰을 발행해서 구입 확률을 높일 수 있습니다. 이런 과정이 되풀이되면 소비자가 구입 확률이 가장 높은 때가 언제인지 파악할 수 있습니다.  

 

  

이처럼 빅데이터가 맞춤형 광고나 서비스가 가능하게 만들어 주지만, 인간의 행동을 유도할 수 있어 점에서 무서운 기술이기도 합니다. 그렇다면 인공지능의 성능은 어떻게 올릴 수 있을까요? 특히 인간처럼 생각하고 추론하는 수준에 이를 수 있게 하려면 어떻게 해야 할까요? 인공지능의 알고리즘을 어떻게 구성하면 이것이 가능해질까요? 구글도 자신의 알고리즘에 대해서는 철저히 함구하는 까닭에 최상의 알고리즘을 추측할 수 없지만 빅데이터의 양이 커지면 커질수록 인간보다 똑똑한 인공지능의 출현도 불가능한 것만은 아닐 것입니다.

 

 

물론 지금까지 나온 인공지능에 관한 이론은 이 정도 수준에 이르지 못합니다. 세계적인 물리학자와 수학자들이 인공지능이 인류를 공멸로 이끌 최악의 위험이라고 했지만, 구글 등이 이를 인정할 리 없습니다. 현재의 포털이라는 것도 인공지능형 검색에서 출발한 것입니다. 주어진 키워드에 가장 적합한 것부터 최대한도로 순식간에 끌어오는 검색엔진이 인공지능의 알고리즘을 가지고 있기 때문입니다.

 

 

이로써 빅데이터에 대한 아주 조그만 인식이 생겼으니 다음 글에서는 구글이 가장 앞선 상태인 인공지능의 메커니즘에 대해 다루겠습니다. 그 다음에는 빅데이터가 왜 감시사회라는 빅브라더의 출현으로 이어지는지 구체적으로 다루어 보겠습니다. 세계 최정상의 이세돌 9단이 구글의 인공지능인 알파고와의 1국에서 졌기 때문에 인공지능의 메커니즘에 대한 최소한의 이해라도 생길 수 있을 것입니다.   




  1. 2014.07.11 08:27

    비밀댓글입니다

  2. 솔숲향기 2014.07.19 07:49

    인공지능 컴퓨터가 나오면 지배 하는자 지배 당하는자,
    이런 사회가 더 뚜렷해질 것 같네요.

+ Recent posts