전 세계적으로 매일 2.5 엑사바이트(EB)의 데이터가 생성되는 등 그야말로 빅데이터 시대를 살고 있다. 올 한해 2.8 제타바이트(ZB)의 정보가 생산될 것으로 추정되며 2020년에는 연간 생성되는 데이터가 35 제타바이트로 늘어날 전망이다. 이처럼 급격히 늘어나는 데이터 속에서 의미 있는 정보를 가려내기란 쉽지 않다. 실제로 전 세계적으로 생성되는 빅데이터 가운데 분석에 사용되는 양은 0.5%에 불과하다는 연구 보고서도 있다. 유미 있는 정보를 찾아내기 위한 방안 마련이 시급하다.
오바마 대통령이 재선에 성공할 수 있었던 데에는 “빅데이터 분석”이 결정적 역할을 했다는 뒷얘기가 있다. 2012년 미국 대선에서 오바마 대통령과 롬니 후보는 모바일 애플리케이션을 이용해 대량의 데이터를 수집하고 선거 활동에 활용했다. 이것은 정치 분야뿐 아니라 사회 모든 분야가 빅데이터 분석의 세계로 진입하고 있음을 보여준 단적인 예다.
빅데이터(Big Data)는 2012년 한해 IT 업계의 최대 이슈 중 하나였다. 세계경제포럼(World Economic Forum, WEF)은 2012년 떠오르는 10대 기술 중 첫 번째로 빅데이터를 선정했다. 정부(지식경제부 R&D전략기획단)도 IT 10대 핵심기술 중 하나로 빅데이터를 선정했다.
빅데이터는 말 그대로 대량의 데이터를 생성, 그것을 분석하고 활용하는 시대를 가리킨다. IBM에 따르면, 매일 생성되는 데이터 양은 전 세계적으로 2.5 엑사바이트(exabyte, 1 EB는 10억 기가바이트)를 넘어섰다. 놀라운 것은 지금까지 인류가 생성해 온 데이터의 90%가 최근 2년 내에 생성된 것이라는 사실이다. 이러한 데이터는 IC 태그 등의 센서, 소셜 미디어에 게재된 글, 인터넷에 저장된 디지털 사진, 비디오, 온라인 구매 기록, 휴대전화의 GPS 신호 등 다양한 소스에서 생성되고 있다. 현재 기업의 빅데이터 활용은 웹 서비스 사업자가 주도하고 있다. 소위 ‘IT업계의 4대 갱(Gang of four)’이라고 부르는 애플, 구글, 아마존, 페이스북이 빅데이터 활용을 강하게 견인하고 있다.
80%가 비정형 데이터
빅데이터는 기존 데이터베이스 관리도구의 데이터 수집·저장·관리·분석을 넘어서 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다. 현재 구조화되지 않은 데이터가 생성된 데이터의 약 80%를 차지한다. 이러한 비정형 데이터는 앞으로도 폭발적으로 증가해 향후 5년간 800% 이상 증가할 것으로 전망되고 있다. IBM에 따르면, 2020년에는 연간 35 제타바이트(zettabyte, 1 ZB는 약 1조 기가바이트)의 데이터가 생성될 전망이다. 이것은 현재의 약 44배에 해당하는 엄청난 데이터 양이다. 문제는 현재의 IT 시스템이 빅데이터에 대응할 수 없다는 사실이다.
빅데이터 시대의 IT 시스템은 대량의 비정형 데이터를 수집하고 분석할 수 있어야 한다. 또한 다른 여러 데이터끼리 묶어 새로운 가치를 창출하는 것도 빅데이터 시대에 요구되는 요소이다. 때문에 빅데이터는 대량의 데이터가 생성되는 시대일 뿐만 아니라, IT 시스템의 구조 자체가 쇄신되는 시대를 의미한다.
빅데이타는 IT 업계에 국한된 이야기만은 아니다. 우리의 일상을 크게 변화시킬 수 있는 요소를 내포하고 있기 때문이다. 빅데이터에 의해 일상이 어떻게 바뀔 지 상상해 보자.
도로를 달리는 자동차에는 각종 교통정보를 수집하는 센서가 부착돼 있다. 이 센서에서 발생하는 대량의 데이터를 수집, 분석함으로써 어느 도로에서 극심한 정체를 빚고 있는지 실시간으로 파악할 수 있다. 이 정보를 바탕으로 운전자는 우회 도로를 안내받게 된다. 또한 이 정보에 시내에서 열리는 대규모 행사 정보가 추가되면 행사시간과 종료시간에 맞춰 행사장 주변의 교통상황을 예측하여 그 도로를 우회하도록 유도할 수 있다. 여기에 기상정보와 도로공사 상황, 대중교통 정보, 주차 정보 등이 더해지면 어떨까? 이를 바탕으로 정체가 예상되는 도로의 차선을 유연하게 운영할 수 있다. 일부 운전자는 추천 아내에 따라 가까운 주차장에 차를 세워 두고 대중교통을 이용해서 목적지를 찾아갈 것이다. 대중교통을 이용한 운전자는 행사장에서 제공하는 할인 쿠폰까지 받는 행운을 잡는다. 반면, 자가용을 이용해서 행사장에 도착한 사람에게는 일정 금액의 과태료가 부가된다. 그리고 트위터나 페이스북 등 소셜 미디어의 발신 정보가 특정 지역에 집중된 경우 뭔가 상황이 벌어지고 있다는 판단에 근거하여 자동차의 주행 경로를 우회하도록 지시할 수도 있다. 이와 같이 교통정체 완화 측면에서 많은 변화를 예상할 수 있다. 또한 도시의 전력 사용량 데이터를 연동시켜 전력 사용 피크타임이 되는 시간대에는 집 안에 있는 사람의 외출을 유도하기 위해 마트의 시간제한 할인 쿠폰을 발행하는 것도 가능할 것이다.
이처럼 대량의 데이터를 수집하고 그 데이터를 분석함으로써 사전에 다양한 대책을 강구할 수 있고 사회적 기회비용을 크게 감소시킬 수 있다. 업계에서는 빅데이터를 새로운 가치를 창출할 수 있는 핵심 키워드로 바라보고 있다. 이미 미국과 영국, 일본 등의 주요 선진국에서는 분석에 필요한 모든 정보 데이터를 공개하고 있다.
또 다른 경쟁력
빅데이터의 특징은 다변화된 현대 사회를 정확하게 예측해서 맞춤형 정보를 제공·관리·분석한다는 것이다. 또한 과거 불가능했던 기술을 실현시키기도 한다. 따라서 빅데이터는 새로운 자원으로 분류되기도 한다.
과거 CCTV 영상 데이터는 사고발생 시 확인을 목적으로 저장해 놓았지만, 이제는 범죄의 징후를 발견해낼 수 있는 기기로 탈바꿈했다. 생산라인 작업자의 작은 움직임을 포착하는 센서는 공정 개선의 가능성과 방법을 찾아낸다. 또한 의료장비의 신호와 환자의 치료이력 데이터를 모아 최적의 치료법을 찾아내거나 예방법을 제시하기도 한다.
빅데이터는 대용량 데이터를 효과적으로 분석하는 병렬처리(Massively Parallel Processing, MPP) 기술로 더욱 빠르게 보급되고 있다. 분석 기술의 발전은 기업의 경쟁력을 높이고 새로운 비즈니스를 창출할 수 있는 기회를 제공한다. 아마존의 경우 고객이 구매한 내역을 데이터베이스에 기록/분석하여 소비 패턴과 관심사를 반영했다. 예를 들어 고객의 취미와 독서 경향을 찾아서 그와 일치한 상품을 이메일이나 홈페이지에서 중점적으로 제공하는 것이다. 이 같은 방식은 구글이나 페이스북에서도 이용자의 검색 조건, 사진, 동영상 같은 비정형 데이터를 즉각 처리해 고객에게 맞춤형 광고를 제공하는 등 빅데이터 활용을 증대시키고 있다.
IBM은 어떤 비즈니스 유형의 문제도 빅데이터로 해결할 수 있다고 주장한다. 기업이 미처 대응하지 못했던 기회를 빅데이터 볼륨을 분석해 더욱 정확한 해결안을 내놓을 수 있다는 것이다. IBM은 자사의 빅데이터 솔루션을 활용함으로써 헬스케어 사업자는 환자 데이터를 분석해 사망률을 20% 감소시켰고 통신사업자는 네트워킹 및 전화 데이터를 분석해 처리 시간을 98% 감소시켰다고 주장했다.
빅데이터의 3대 요소
데이터 용량(Volume)
데이터는 물리적인 크기보다 산업별, 시장별 구분에 따라 다르게 적용된다. 웹 로그 데이터나 G-mail 등의 이메일 데이터는 수 PB(페타바이트) 이상이지만 트위터 네트워크 데이터는 수십 GB 미만이다. 앞의 데이터는 안정화된 저장이 가장 큰 해결과제이지만 네트워크 데이터는 분석 및 처리가 가장 큰 이슈다. 따라서 단순한 물리적인 크기가 아닌 데이터의 속성에 따라 중요성을 판단하고 처리하는 데 어려움이 따른다. 이것은 빅데이터의 가장 기본적인 특징이다.
데이터 속도(Velocity)
빅데이터는 데이터의 실시간 처리 및 장기적 접근을 요구한다. 데이터 생산 및 유통, 수집 및 분석 속도의 증가와 이에 대한 실시간 처리 및 장기간에 걸쳐 데이터를 수집·분석하는 장기적 접근이 빅데이터의 속도적 특성이다.
데이터 다양성(Variety)
전통적인 기업의 데이터 분석은 기업 내부에서 발생하는 운영 데이터인 ERP(전사적 자원 관리), SCM(공급망 관리), MES(Manufacturing execu-
tion system), CRM(고객 관계 관리) 등의 시스템에 저장된 RDBMS(관계형 데이터베이스) 기반의 정형 데이터이다. 이러한 정형 데이터는 잘 정제돼 있고 의미도 정확하다. 그리고 스키마를 포함하는 XML, HTML 등의 반정형 데이터도 있다. 하지만 최근에는 이런 데이터뿐만 아니라 기업 외부에서 발생하는 SNS, 블로그, 뉴스, 게시판 등의 데이터나 사용자가 업로드한 파일, 콜 센터의 고객 상담 내용 등의 비정형 데이터도 처리해야 한다.
여기에 한 가지 요소를 더 든다면 정확도(Veracity)를 추가할 수 있다. 데이터의 불일치, 모호성으로 인한 불확실성, 근사 값들의 부정확함 등을 배제하고 진짜 신뢰할 수 있는 데이터에 의한 의사결정이 대단히 중요하다.
빅데이터 분석 기술
빅데이터를 분석하는 기술과 방법은 기존 통계학과 전산학에서 사용하던 데이터 마이닝, 기계학습, 자연언어 처리, 패턴 인식 등이 해당한다. 특히 최근 소셜 미디어 등과 같은 비정형 데이터 증가로 텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석, 군집 분석 등이 주목받고 있다.
텍스트 마이닝(text mining): 텍스트 마이닝은 비/반정형 텍스트 데이터에서 자연언어 처리 기술에 기반해 유용한 정보를 추출, 가공하는 것을 목적으로 한다.
평판 분석(opinion mining): 오피니언 마이닝은 소셜 미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별하는 기술이다.
소셜 네트워크 분석(social network analysis): 소셜 네트워크 분석은 소셜 네트워크 연결구조 및 연결강도 등을 바탕으로 사용자의 명성 및 영향력을 측정하는 기술이다.
군집 분석(cluster analysis): 군집 분석은 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군을 발굴하는 데 사용된다.
대규모의 정형/비정형 데이터를 처리하는 데 가장 기본적인 분석 인프라로 하둡이 있으며, 데이터를 유연하고 더욱 빠르게 처리하기 위해 NoSQL 기술이 활용되기도 한다.
다양한 분야에 접목
2011년 2월 IBM의 슈퍼컴퓨터 왓슨은 미국 ABC 방송의 인기 퀴즈쇼 ‘제퍼디!(Jeopardy!)’에 출연해 퀴즈 영웅인 켄 제닝스, 브래드 루터를 꺾고 우승했다. 냉장고 5개 크기의 왓슨은 퀴즈 문제를 일상 언어 문장으로 받아들이고 자신의 인공지능을 바탕으로 고도의 지능적인 문제를 분석해 답을 찾아낸다. IT 전문가는 왓슨의 이번 승리를 인공지능 개발사의 큰 성취로 평가하고 있다. 또한 애플은 아이폰4s에 탑재한 시리(Siri)에 인공지능을 강화한 서비스로 빅데이터 기술을 적용했고, 한국전자통신연구원(ETRI)은 빅데이터를 이용해 사람의 미래를 보여주는 스마트 안경 개발에 착수했다.
이 기술은 사람이 어디를 집중해서 보는지 시선의 패턴 분석과, 무엇을 관심 있게 보는지 뇌파의 신호 분석을 통한 모델링으로 내가 원하는 미래의 정보를 제공하는 기술이다. 형태는 안경에 사용자의 눈과 밖을 보는 두 대의 카메라, 그리고 뇌파 수신 장치가 내장됐고 정보는 증강현실을 통해 제공한다. 이 기술이 상용화되기 위해서는 개인별 빅데이터가 있어야 한다.
ETRI는 오는 2019년까지 사람의 생활 패턴을 수집하고 분석해 알고리즘을 완성시킬 계획이다. 이 기술이 완성되면 사용자의 과거 이동 패턴을 고려해 미래 어느 시점에 있을지 예측이 가능하고, 구매 패턴을 고려하면 미래에 무엇을 구매할지 예측이 가능해진다. 이밖에 국내에서는 삼성SDS, LG CNS, SK C&C 등이 빅데이터 분야 사업을 추진하고 있다. ES
<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>