빅데이터 시장동향과 분석기법
  • 2015-08-03
  • 김언한 기자, unhankim@elec4.co.kr



글로벌 컨설팅 그룹 맥킨지&컴퍼니 산하 경제연구소 맥킨지 글로벌 인스티튜트는 빅데이터 기술을 빅데이터 분석을 위한 ‘분석기법’과 데이터를 분석하기 위한 ‘처리기술’로 구분했다. 이 글에선 최근 빅데이터 시장과 글로벌 기업 동향, 더불어 빅데이터 분석기법과 처리기술에 대해 알아본다.

“데이터는 21세기의 오일이며 이를 분석하는 것은 연소 엔진에 해당한다.”
글로벌 시장조사기관 가트너(Gartner)의 수석부사장 피터 손더가드(Peter Sondergaard)는 데이터가 미래 산업의 경쟁 우위를 좌우하게 될 것을 예상하며 이같이 말했다.

빅데이터 2.0시대가 도래함에 따라 전 세계 기업들이 빅데이터 관리시스템 도입을 서두르고 있다. 기업이 관리해야할 데이터의 양이 이전과 비교해 폭발적으로 늘어났기 때문이다.

몇 년 전까지 ‘빅데이터 관리시스템’은 일부 글로벌 IT 기업들의 전유물로 인식돼왔다. 하지만 최근엔 일반 기업의 영역으로까지 확장되는 추세다. 본격적인 IoT 시대가 개막하게 되면 각 기업들이 처리해야 할 정보가 급격히 늘어나 데이터 분석에 우위를 점하는 기업이 곧 경쟁에서 유리한 고지를 선점하게 된다.

시장조사기관 맥킨지(McKensey) 역시 최근 빅데이터 보고서에서 “빅데이터는 국가 경제에 경제적 이익을 제공하는데 핵심적 역할을 할 것”이라며 주요 산업에 대한 기대 효과를 제시한 바 있다. 특히, 빅데이터 활용을 통한 소매 부문 운영 마진 증가율은 60% 이상이 될 것으로 전망했다.

시장조사기관 IDC는 세계 빅데이터 시장을 기반시설(Infrastructure), 소프트웨어(SW), 서비스(Services)로 구분하고 전체 시장 규모가 2016년 238억 달러에 이를 것으로 예측했다. 이 중 SW 부문만 60억 달러 규모에 이를 것으로 추산된다.



글로벌 IT 기업, 인수합병 서둘러
 
많은 기업들이 데이터 분석 중심으로 조직을 개편하기 위해 공격적인 인수합병을 추진하고 있다. 이를 통해 일부 기업이 가까운 미래 빅데이터 업무를 독점할 것이라는 견해가 설득력을 얻고 있다.

작년 말, 빅데이터 분석 관련 미국 기업 테라데이타(Teradata)는 하둡 기반의 온라인 빅데이터 전문기업 레인스토어(RainStor)를 인수했다. 인수에는 레인스토어의 지적 재산을 비롯해 기존 테라데이타와 레인스토어간 파트너십도 포함됐다.

올해 마이크로소프트(Microsoft) 역시 모바일 비즈니스 인텔전스 업체인 데이터젠소프트웨어(Datazen Software)를 인수했으며, HP 역시 2011년 3월 버티카(Vertica) 인수를 시작으로 같은 해 10월 오토노미(Autonomy)를 인수했다. 버티카는 독립적인 차세대 DW(Data Warehouse) 벤더로서 인수되기 전까지 많은 매출을 기록한 업체 중 하나였다.


IBM, 5년간 30여 곳 인수

세계 하둡 프로젝트 시장의 주요 업체 IBM의 경우엔 지난 5년간 160억 달러 이상을 투자해 빅데이터 분석과 관련된 기업을 무려 30여 곳 인수했다. 인수한 업체는 매출성과분석의 배리센트(Varicent), 스마트 상거래분석의 티리프 테크놀로지(TeaLeaf Technology) 등 모두 특정 영역의 전문분석기업이었다.

이를 통해 IBM은 엔터프라이즈 클래스의 빅데이터 플랫폼 제공을 위한 전략을 추구하며 하둡 기반 대용량 데이터 처리 솔루션인 ‘인포스피어 빅인사이트(InfoSphere BigInsights)’, 스트리밍 데이터 분석 플랫폼 ‘인포스피어 스트림즈(InfoSphere Streams)’ 등의 제품군을 보유, 관련 분야에 역량을 확대해나가고 있다.



오라클, 비즈니스 위해 빅데이터 활용
 
비즈니스 소프트웨어 및 하드웨어 전문 기업 오라클(Oracle)은 기존의 전통적인 엔터프라이즈 데이터 아키텍처에 빅데이터 툴을 통합함으로 비즈니스를 위한 제품 포트폴리오 구성에 주력하고 있다.

대표적인 제품 오라클 빅데이터 어플라이언스(Oracle Big Data Appliance)는 이러한 전략을 기반으로 오라클에서 개발한 소프트웨어 제품군과 하드웨어를 결합한 어플라이언스 제품이다. 클라우데라(Cloudera)의 하둡 Distribution과 오픈소스 Rdistribution을 포함하고 있다.
빅데이터 분석기법
글로벌 컨설팅 그룹 맥킨지&컴퍼니 산하 경제연구소인 맥킨지 글로벌 인스티튜트는 빅데이터 기술을 빅데이터 분석을 위한 ‘분석기법’과 데이터를 수집, 조작, 관리, 분석하기 위한 ‘처리기술’로 구분했다. 분석기법에서 대표적인 방법은 마이닝이다.

광산에서 광물을 캐낸다는 의미를 가진 마이닝(Mining) 기법은 다량의 데이터에 숨겨진 패턴과 관계 등을 파악해 미래를 전망할 수 있는 정보를 추출해낸다. 현재 기업의 의사결정, 마케팅, 고객관리에 적용될 뿐 아니라 금융이나 교육 등 다양한 영역으로 활용되는 중이다.

최근엔 그림이나 영상, 문서처럼 형태와 구조가 복잡해 정형화되지 않은 데이터인 ‘비정형 데이터’ 증가로 인해 다양한 분석기법이 주목받고 있다.


텍스트 마이닝
 
텍스트 마이닝(text mining)이란 대규모의 문서(text)에서 의미있는 정보를 추출하는 것을 말한다. 분석대상이 비구조적인 문서정보라는 점에서 데이터 마이닝과 차이가 있다. 텍스트 마이닝은 텍스트 분석(text analytics), 텍스트 데이터베이스로부터 지식 발견, 문서 마이닝(document Mining) 등으로 불리기도 한다.

텍스트 마이닝은 정보 검색, 데이터 마이닝, 기계 학습(machine learning), 통계학, 컴퓨터 언어학 등이 결합된 학제적 분야다. 분석 대상이 형태가 일정하지 않고 다루기 힘든 비정형 데이터이므로 인간의 언어를 컴퓨터가 인식해 처리하는 자연어 처리(NLP) 방법과 관련이 깊다.

대용량의 텍스트 데이터에서 의미 있는 정보를 추출하고, 해당 정보와 연계된 정보를 파악하는 등 텍스트가 가진 단순한 정보 이상의 의미 있는 결과를 얻어 낼 수 있다는 장점을 가지고 있다.


오피니언 마이닝

오피니언 마이닝(opinion mining)은 인물, 이슈 등에 대한 대중들의 의견이나 평가, 감정 등을 분석하는 기법을 뜻한다. 이를 통해 신상품 시장 규모를 예측하거나 소비자 반응에 대해 사전 파악이 가능하다. 소셜 미디어에 게재된 정형·비정형 텍스트가 전달하려는 의도가 긍정적인지 부정적인지 판별할 수 있기 때문이다. 사실과 의견을 구분해 의견을 추출, 긍정과 부정으로 나누고 그 강도까지 측정한다.

주로 블로그, 쇼핑몰과 같은 대규모 웹 문서이기 때문에 자동화된 분석방법을 사용한다. 분석 대상이 텍스트이므로 텍스트 마이닝에서 활용하는 자연어 처리(NLP) 방법, 컴퓨터 언어학 등을 활용한다. 소셜미디어 시대의 중요한 기술로 자리매김하고 있다.
웹 마이닝
웹 마이닝(web mining)은 인터넷을 이용하는 과정에서 생성되는 웹 로그(web log) 정보나 검색어로부터 유용한 정보를 추출하는 웹 대상의 데이터 마이닝이다.

웹 마이닝에선 웹 데이터의 속성이 반정형 혹은 비정형이고, 링크 구조를 형성하고 있기 때문에 별도의 분석기법이 필요하다.

웹 마이닝은 분석 대상에 따라 웹 구조 마이닝(web structure mining)과 웹 유시지 마이닝(web usage mining), 그리고 웹 콘텐츠 마이닝(web contents mining)으로 구분된다. 이 중 웹 콘텐츠 마이닝은 웹 페이지에 저장된 콘텐츠로부터 웹 사용자가 원하는 정보를 빠르게 찾는 기법으로 검색엔진에 많이 사용된다.




빅데이터의 처리 기술

빅데이터 시대를 맞이하면서 데이터의 폭발적 증가와 비정형 데이터 증가로 데이터의 저장 및 처리에 어려움이 발생하고 있다.

대응을 위해선 스토리지 장비를 추가하는 것이 가장 쉬운 해결책이지만, 엄청난 속도로 증가하는 데이터 양을 따라잡기에는 비용 면에서 한계가 있다. 이에 대안으로 현재 대기업에서 사용하는 MPP(massive parallel processing) 방식 역시 고비용 구조이기에 한계 상황에 거의 다다랐다. MPP란 고도병렬처리로 프로그램을 여러 부분으로 나눠 여러 프로세서가 각 부분을 동시 수행하는 것을 말한다.

이런 시장 흐름에 따라 새로운 데이터 처리 기술에 대한 수요가 증가하고 있다. DBMS 시장에서도 빅데이터를 위한 프로그램들이 개발되고 있는 상황이다.
하둡
빅데이터 처리 기술을 이야기할 때 빠지지 않고 등장하는 것은 바로 ‘하둡(Hadoop)’이다.

저가 서버와 하드디스크를 이용해 빅데이터를 상대적으로 쉽게 활용해 처리할 수 있는 분산파일 시스템 하둡은 야후의 지원으로 개발됐다. 현재는 아파치 소프트웨어의 프로젝트로 관리되고 있다.

하둡은 빅데이터 활용을 가능하게 만든 빅데이터 플랫폼의 핵심기술이자 사실상의 표준이다. 하둡은 빅데이터를 저장하는 분산파일 시스템(Hadoop Distributed File System, HDFS)과 분산 병렬 처리하는 맵리듀스(MapReduce)로 구성돼있다. 저가 장비 및 스토리지 활용으로 저비용으로 방대한 양의 데이터 저장 및 처리가 가능하다.

HDFS을 통해 다양한 형태의 초대용량 데이터를 분산 저장하며 맵리듀스로 빅데이터를 초고속으로 처리할 수 있다.
하둡은 크게 네 가지 용도를 가지고 있다. 첫째는 검색엔진 색인저장소(Indexing), 둘째는 데이터 분석 또는 통계분석, 셋째는 데이터의 전처리(Table Precomputaion and Rollup), 마지막은 정형 데이터의 저장소(Structured Data Storage) 로서의 용도다.
R
오픈 소스 프로젝트 ‘R’은 통계 계산 및 시각화를 위한 언어 및 개발환경을 제공한다. 또 R 언어와 개발환경을 통해 기본적인 통계 기법부터 모델링, 최신 데이터 마이닝 기법까지 구현하며 개선이 가능하다. 이렇게 구현한 결과는 그래프 등으로 시각화할 수 있으며, Java나 C, Python 등의 다른 프로그래밍 언어와 연결도 용이하다. Mac OS, 리눅스/유닉스, 윈도우 등의 대부분의 컴퓨팅 환경을 지원하는 것도 장점이다.

위의 장점들로 인하여 R은 통계 분석 분야에서 인지도를 높여왔으며, 하둡 환경 상에서 분산처리를 지원하는 라이브러리 덕분에 구글, 페이스북, 아마존 등의 빅데이터 분석이 필요한 기업에서 대용량 데이터 통계분석 및 데이터 마이닝을 위해 널리 사용되고 있다.

NoSQL
NoSQL은 Not-Only SQL, 혹은 No SQL을 의미하며, 전통적인 관계형 데이터베이스 RDBMS와 다르게 설계된 비관계형 데이터베이스를 의미한다.
대표적인 NoSQL 솔루션으로는 Cassandra, Hbase, MongDB 등이 존재한다. NoSQL은 테이블 스키마(Table Schema)가 고정되지 않고, 테이블 간 조인(Join) 연산을 지원하지 않으며, 수평적 확장(Horizontal Scalability)이 용이하다는 특징을 가진다. 

<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>


#빅데이터  

  • 100자평 쓰기
  • 로그인

세미나/교육/전시
TOP