빅데이터의 개념 이해
빅데이터는 재료이고 인공지능은 요리법으로 비유할 수 있습니다. 식재료가 없으면 요리가 안 되듯이 인공지능을 구현하려면 데이터가 필수적이죠. 그리고 그 데이터는 바로 우리 스스로 계속 생산하고 있습니다. 출근길에 스마트폰 내비게이션을 쓸 때마다 위치와 속도 데이터가 생성되고, 통화와 카카오톡 사용 내역, 주식 매매나 뱅킹앱을 통한 입출금 모두가 데이터화됩니다. 여러분이 구글이나 네이버에서 무엇을 검색했는지 페이스북에 어떤 사진을 올리고 어떤 콘텐츠에 좋아요를 누르는지는 광고에 활용되고 있습니다. 이 밖에 인터넷에 남기는 댓글, 쇼핑몰의 상품 후기, 회사에서 보내는 이메일, 병원 진료 기록, 온라인 쇼핑이나 교통카드 사용 내역 모두가 의미 있는 데이터가 됩니다.
그런데 데이터가 아무리 많더라도 서로 연결되지 않으면 가치가 떨어집니다. 예를 들어 마트에서 물건을 현금으로 구매할 때는 구매 내역과 사용자를 연결할 수 없습니다. 물론 신용카드로 사면 구매 내역과 사용자를 쉽게 연결할 수 있지요. 그래서 마트에서는 개인 전화번호를 입력해서 포인트를 적립하라고 유도합니다. 푼돈에 불과한 포인트를 받기 위해 전화번호를 입력하는 순간, 우리의 구매 내역과 개인 정보는 연결되어, 시스템에 기록되고 분석됩니다. 이렇게 저장된 데이터는 빅데이터 분석을 통해 인사이트(insight)로 바뀌고, 인사이트는 액션(action)을 통해 가치(value)를 창출하게 됩니다. 즉 데이터는 인공지능 알고리즘 등의 분석 재료로 사용되고 그 분석의 결과를 의사결정자가 행동으로 옮김으로써 가치가 창출되는 것으로 이해하시면 되겠습니다.
모든 것이 데이터에 의해 분석되고 또 그 모든 과정이 자동화된다면 과연 우리는 행복해질까요? 그리고 그 자동화된 시대에 인간의 가치는 어디에서 찾을 수 있을까요? 아무리 데이터 과학이 발전하고 인공지능 알고리즘이 발전해도 컴퓨터가 할 수 없는 것이 있습니다. 바로 기획과 설득입니다. 기획은 문제를 정의하는 것이죠. 기획이란 우리가 어떤 사회적인 문제를 해결할 것인지, 그리고 우리가 어떤 가치를 만들어 낼 것인지를 정하는 것입니다. 문제와 가치가 제대로 정의된 후에 데이터를 수집, 분석하는 단계를 밟아야 좋은 인사이트를 기대할 수 있습니다. 그리고 데이터 분석을 통해 훌륭한 인사이트를 도출했다고 하더라도 그것을 기반으로 액션을 실행해야만 가치가 생긴다는 점을 기억해야 합니다. 어렵게 구한 데이터로 복잡한 모델링을 거쳐 인사이트를 도출하더라도 의사결정에 사용되지 않는다면 무슨 소용이 있을까요? 따라서 가장 중요한 것은 데이터 분석을 통한 인사이트를 의사결정자가 실행하도록 설득하는 일이며 이것은 사람만이 할 수 있다는 점을 기억하시기 바랍니다.
성공적인 데이터 분석의 핵심 요소는 데이터에서 이야기를 발견하는 능력이며, 데이터 분석의 결과를 활용해서 동료와 상사들이 이해하고 믿도록 설득해야 하는 것입니다. 최초의 글자가 기원전 3,200년경 메소포타미아 지역에서 만들어진 이후 지난 2003년까지 약 5천 년 동안 만들어진 데이터의 양은 모두 합해 약 5EB Exabyte(2의 60승 바이트)로 추정된다고 합니다. 그런데 2013년 이후에는 이 정도의 데이터가 하루 만에 생성되고 있다고 하죠. 그야말로 데이터가 자동차의 배기가스처럼 "방출"되는 상황입니다. 일반적으로 데이터 과학은 데이터의 양이 매우 많아서 인간이 수동으로 패턴을 발견하기 너무 복잡할 때 유용합니다. 그러나 데이터 과학이 모든 문제를 해결해주리라고 기대하는 것은 착각에 불과합니다. 문제를 잘못 정의하거나 엉뚱한 데이터를 쓰거나, 잘못된 가정 아래 분석 기술을 적용하면 데이터 분석은 잘못된 결과를 만들어낼테니 말입니다. 데이터는 누군가의 결정과 선택의 결과이므로 결코 세상에 대한 객관적인 표현물이 아니며, 오히려 부분적이고 편향된 것입니다. 그러므로 데이터 과학을 성공적으로 수행하려면 데이터를 어떻게 만들어 내는지를 알아내기 위해 노력해야 하며, 컴퓨터가 데이터에서 패턴을 찾아내더라도 그것이 진짜 인사이트가 아닐 수 있다는 점을 이해해야 합니다.
데이터 과학은 데이터 과학자와 컴퓨터의 파트너십(partnership)이라는 견해도 있습니다. 데이터 과학자는 문제를 정의하고 데이터 세트를 설계하고, 어떤 데이터 분석을 적용할지 결정하며 데이터 분석의 결과를 해석하지요. 그리고 컴퓨터는 데이터를 분석하고 그 안에서 패턴을 찾아내는 역할을 담당합니다. 여기서 신경망 모델과 같이 복잡한 컴퓨터 알고리즘이 내린 의사결정에 대해서 사람이 이해할 수 있어야 합니다. 특히 개인과 관련된 의사결정을 할 때는 사람이 이해할 수 없는 복잡한 알고리즘보다는 투명하고 설명이 쉬운 모델을 사용하는 것이 더 적절합니다. 데이터 과학은 미래가 과거와 같을 것이라는 가정에서 출발합니다. 즉 머신러닝(machine learning) 알고리즘은 미래에도 일반화해서 적용할 수 있을지 모르는 어떤 패턴을 과거의 데이터에서 찾는 도구라고 할 수 있습니다. 세상은 계속 변하지만, 데이터 모델은 그렇지 않기 때문에 시대에 뒤떨어진 모델은 다시 훈련받고 학습되어야 합니다. 그리고 모델의 재훈련과 재학습은 자동화될 수 없으며 이런 결정에는 인간의 통찰력과 지식이 필요합니다.
빅데이터는 인터넷과 스마트폰에 이어 우리를 완전히 다른 세상으로 인도할 겁니다. 인공지능이 사람의 일자리를 빼앗을 것이라는 걱정스러운 신문기사가 매일 우리를 위협하고 있지만 우리가 주목해야 할 것은 인공지능이 빼앗는 일자리나 인공지능으로 인해 없어지는 제품이나 서비스가 아니라, 빅데이터와 인공지능에 의해 새로 생겨날 일자리와, 인공지능이 바꿔나갈 사회의 모습 어떨까에 대한 것입니다. 빅데이터와 인공지능 시대에 우리 아이들의 교육을 어떻게 바꿀 것인지, 빠르게 변화하는 기술로부터 소외되는 계층을 어떻게 보호할 것인지, 로봇이 산업 현장에서 창출하는 부를 어떻게 분배할 것인지, 인공지능은 과연 윤리적이고 공정한 것인지 생각해보는 것이 더 중요하다는 의미입니다.
"빅데이터는 10대의 섹스와 같다. 모두가 얘기하지만 아무도 제대로 모른다." 라는 말이 있습니다. 그것이 무엇인지 제대로 몰라도 너무 궁금하지 않은가요? 수학과 프로그래밍 지식이 없어도 빅데이터와 인공지능에 관해 궁금해지기 시작했다면 여러분은 데이터 시대를 살아가기 위한 최소한의 준비가 된 상태입니다. 게다가 알고 보면 별거 아니에요. 데이터 과학이라는 것은 결국 통계와 확률의 원리에 의해 세상을 조금 더 객관적으로 이해하고자 하는 노력의 산물일 뿐이니 말이죠. 지금 우리가 데이터를 이해하기 위해 노력하지 않는다면 앞으로 우리는 데이터에 의해 통제되는 세상에 살 수밖에 없습니다. 이제 데이터 시대로의 이행은 거스를 수 없는 대세로 자리 잡았습니다. 단순히 데이터를 생산하며 분석대상이 되는 사람이 될지 아니면 데이터를 적극적으로 활용하여 공동의 문제를 해결하는 사람이 될지는 우리의 선택에 달려 있습니다.