[스타트업] 유펜솔루션 "웹 크롤링으로 데이터 수집과 활용의 대중화를 실현"
  • 2021-01-05
  • 신윤오 기자, yoshin@elec4.co.kr

스파이더킴, 숨겨진 자료를 찾아내는 노하우가 차별점이자 경쟁력

유펜솔루션(대표 김재훈)은 범람하는 정보의 홍수 속에서 보석을 찾아내는 웹 크롤링 및 데이터 전문 기업이다.
 
                                                                   김재훈 대표, 유펜솔루션

일반적으로 사업이나 프로젝트를 구상하고 기획하는 첫 번째 단계는 정보 수집이다. 웹 상에서 의미 있는 정보만을 수집하는 일은 광활한 사막에서 특정한 형태의 모래알만 골라 담는 것 만큼 오래 걸리고 까다로운 작업이다.

끊임없이 검색엔진을 드나들며 복사와 붙여 넣기를 반복하는 단순노동은 지금도 사무실 어딘가에서 오랜 시간 이어지고 있다. 유펜솔루션은 이처럼 비효율적인 정보 수집을 ‘웹 크롤링’을 통해 대신 처리해 준다.

정보 수집해 가치를 창출

유펜솔루션의 김재훈 대표는 대학시절의 경험에서 창업 아이디어를 얻었다. 경제학부 연구실에서 웹 데이터를 수집할 일이 있었는데, 당시에 좀 더 효율적인 방법을 찾다가 웹 크롤링을 알게 되었다. 일상에서 반복되는 작업을 자동화하는 작업이 시장에서 필요하겠다고 느낀 것이다. 졸업 후 입사한 컨설팅 회사에서도 같은 일을 반복하는 동료들을 보며 확신을 얻었다고 한다.

그는 결국 2년 후 회사를 나와 창업을 준비했고 유펜솔루션이 탄생했다. 김 대표는 “웹 크롤링은 거미줄처럼 얽혀 있는 정보망(Web)을 종횡무진 기어 다니며(Crawling) 정보를 수집하는 기술”이라며, 유펜솔루션의 웹사이트인 ‘스파이더킴(SpiderKim)’은 여기에서 착안한 이름이라고 설명한다.



웹 크롤링은 지속적인 시장조사가 필요한 기업은 물론 논문 등 자료 수집이 일상화된 학계에서도 광범위하게 사용되는 기술이다. 2018년 6월에 창립한 유펜솔루션이 1년도 채 지나지 않은 2019년에 IBK창공(創工) 마포 2기, 신용보증기금 스타트업 네스트 5기, 우리금융그룹 디노랩 창업기업에 선발되고, 2020년 초에 “사스(SaaS) 기반의 웹 크롤링 시스템”으로 기술 특허를 취득한 것은 이 분야의 성장 가능성을 인정받은 결과다.

물론 웹 크롤링이 새로운 기술은 아니다. 김 대표는 “상대방 서버에 부담을 주지 않으면서도 숨겨진 자료들을 찾아내는 노하우가 유펜솔루션의 차별점이다”고 설명한다. 접속하는 서버가 과부하를 일으키지 않도록 시간차를 두고 자료를 수집하고, 반복 접속으로 접근이 차단되었을 때는 자동으로 우회해 접근한다. 정보를 ‘수확’할 수 있는 통로를 적절히 관리하며 지속 가능성을 확보하는 셈이다.

웹 크롤링 프로세스

4단계로 이뤄지는 웹 크롤링 프로세스도 이들의 강점이다.

1단계에서 자동화된 프로그램을 통해 필요한 정보를 대량으로 수집하고, 2단계에서 더욱 연관성 높은 정보만을 정제한다. 3단계에서는 정보의 상관관계를 분석해 더욱 의미 있는 자료로 발전시키고, 마지막 단계에서는 그래프 등을 통해 시각화한다.

유펜솔루션은 맞춤 의뢰에 의해서만 진행해 온 웹 크롤링을 모든 소비자가 사용할 수 있도록 웹 기반 웹크롤링 솔루션 ‘스파이더킴’을 개발하고 있다. 2021년 초에는 우선 사용자가 설정한 조건에 따라 자동으로 정보를 수집하는 기능을 담아 출시한다. 향후 2~3년에 걸쳐 정제, 분석, 시각화 기능을 차례로 탑재할 계획이다.

Q . 어떤 계기로 창업을 하게 되었나요.

2010년대에 미국에서 컴퓨터 과학을 전공하며, 대학 구성원들이 웹 크롤링 기술로 많은 양의 웹 데이터를 수집하고 활용하는 광경을 목격했습니다. 졸업 후 컨설팅 회사에서 프로젝트를 수행할 때도 기초 데이터를 수집하기 위해서는 웹 크롤링이 필수적이었으며, 크롤링의 기술성과 데이터의 사업성에 대해 확신을 갖게 되었습니다. 대학의 연구자, 일반 개인, 기업과 공공기관 등 모든 주체가 마치 편의점에서 필요한 물건을 구매하듯 쉽게 데이터를 수집하고 활용하는 데이터 대중화 시대를 열기 위해 SaaS 기반의 웹 크롤링 서비스 스파이더킴(SpiderKim)을 기획하였고, 이를 개발하고 서비스하는 유펜솔루션이라는 회사를 창업했습니다.

Q . 크롤링 기술과 데이터의 활용에 대해 간단히 설명해 주세요.

크롤링이라는 것은 수집을 원하는 웹 사이트에 크롤링 봇을 접속시켜 해당 웹 페이지에 존재하는 여러가지 정보 항목들을 추출해 오도록 하는 기술입니다. 말이 조금 어렵지요? 쉽게 말하면 웹 페이지에 있는 여러 항목들, 예를 들면 아마존 같은 온라인 쇼핑몰에서 상품 이름이라든가, 가격, 판매자 등등의 정보를 자동으로 추출하여 엑셀이나 csv, DB처럼 오(row)와 열(column)이 정돈된 결과물로 저장하는 것입니다.

Q . 그렇다면 크롤링의 기술력과 데이터의 시장성은 현재 어떤 수준인가요

스파이더킴의 크롤링 기술은 데이터를 수집해 오는 속도, 안정성, 정확도, 성공률, 차단 회피, 타겟 사이트에 부하를 주지 않는 정도 등의 성과 지표에서 글로벌 최고 수준에 근접해 있습니다. 크롤링 기술이 발전하고 데이터 활용에 대한 사회적 인식이 증가하면서, 저희 스파이더킴에 데이터 수집 프로젝트를 의뢰하시는 개인, 기업, 공공기관 고객들이 급속도로 증가하고 있습니다. 웹 크롤링 국내 시장은 2025년까지 8,600억 원 수준으로 성장할 것으로 전망하고 있으며, 스파이더킴은 이의 10% 수준인 870억 원 매출을 목표로 하고 있습니다.

Q . 유펜솔루션의 비전을 말씀해 주신다면.

스파이더킴은 수집에 그치지 않고, 정제, 분석, 시각화까지 원스톱으로 처리되는 빅데이터 플랫폼으로 성장할 것입니다. 영문 서비스를 출시하고 북미 사용자를 타깃으로 한 차별화된 마케팅을 수행하여 글로벌 시장에서 승리하는 기업이 되겠습니다. 많은 인재를 채용하고, 글로벌 시장으로 뻗어나갈 유펜솔루션에 많은 관심과 응원을 부탁드리겠습니다.

<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>

본 기사의 전문은 PDF문서로 제공합니다. (로그인필요)
다운로드한 PDF문서를 웹사이트, 카페, 블로그등을 통해 재배포하는 것을 금합니다. (비상업적 용도 포함)
 PDF 원문보기


  • 100자평 쓰기
  • 로그인

태그 검색
본문 검색
TOP