한국연구재단, 슈퍼컴퓨터로 하던 빅데이터 분석, 컴퓨터 한 대로 처리
인간 두뇌 신경망 1/400 크기 빅데이터 처리 기술 개발, 인공지능 등 적용 기대
  • 2016-07-11
  • 편집부

 

한국연구재단은 미래창조과학부 기초연구사업(개인연구)의 지원을 받은 김민수 교수(대구경북과학기술원) 연구팀이 “슈퍼컴퓨터로도 처리하기 어려운 인간 두뇌 신경망의 1/400 크기에 해당되는 대용량 그래프 데이터를 컴퓨터 한 대로 처리할 수 있는 GStream 2.01) 기술을 개발했다“고 밝혔다. 

1) GStream 2.0: GPU를 이용해 그래프(Graph) 데이터를 스트리밍(Stream) 방식으로 처리하는 김민수 교수 연구팀의 독자적인 기술의 명칭

연구팀이 개발한 GStream 2.0은 뇌과학, 인공지능, IoT(사물인터넷), 웹, 소셜 네트워크 등 다양한 분야에서 사용하는 그래프 형태의 빅데이터를 두 개의 GPU2)와 두 개의 PCI-e SSD3)가 장착된 컴퓨터 한 대로 초당 최대 20억 개의 처리속도(2 GTEPS4))로 2,560억 개의 간선5)들을 처리할 수 있는 세계 최고 수준의 성능과 속도를 나타낸다. 

2) GPU: Graphics Processing Unit의 약자로서 원래는 화면 출력을 위해 사용하는 프로세서이지만 최근의 GPU는 일반적인 계산을 위해서도 사용할 수 있다. 이론적인 계산 성능이 CPU보다 훨씬 높아 많은 양의 계산이 필요한 응용들에 대해 CPU 대신 사용하는 경우가 점점 증가하고 있다.
3) PCI-e SSD: SSD는 HDD를 대체할 수 있는 고속의 보조기억장치로서 자기디스크 회전을 통해 정보를 기억하는 HDD와 달리 반도체를 이용해 데이터를 저장한다. PCI-e SSD(PCI 익스프레스 솔리드스테이트디스크)는 SSD의 속도를 보다 빠르게 개선한 SSD이다. 
4) GTEPS: Giga(Billion) Traversed Edges Per Second의 약자. 그래프 데이터에 대한 처리 성능을 나타내기 위해 사용하는 기준으로서 초당 처리할 수 있는 십억 단위의 간선들의 개수를 의미한다. 
5) 간선(edge): 그래프 형태의 데이터는 여러 개의 정점(node)들과 그 정점들을 연결하는 간선들로 이루어져 있다.

인간의 뇌 신경망은 시냅스라 불리는 약 100조 개의 간선들로 구성돼 있다. 이 가운데 2,560억 개의 간선들을 처리할 수 있는 GStream 2.0은 인간의 뇌 400분 1 크기에 해당하는 신경망 데이터를 처리할 수 있는 기술이다.

인간 두뇌의 신경망은 정점들 간의 연결이 복잡한 구조의 특성상 여러 대의 컴퓨터에 나눠 저장할수록 일반적으로 통신비용과 메모리 사용량이 기하급수적으로 증가해 슈퍼컴퓨터를 사용하더라도 인간 두뇌의 1,000분의 1 크기의 신경망조차 처리하는데 어려움을 겪어왔다.

연구팀은 대용량 그래프 데이터를 여러 대의 컴퓨터 메모리에 나눠 저장하는 방식에서 벗어나 컴퓨터 한 대의 PCI-e SSD에 저장하고, SSD로부터 GPU 메모리에 비동기적 방식6)으로 스트리밍하면서 동시에 GPU의 수천 개 계산 코어7)들을 이용해 데이터를 분석하는 새로운 접근 방법을 시도하여 기존의 통신 비용 및 메모리 사용량 문제점들을 해결했다. 

7) 비동기적 방식: 어떤 작업을 요청했을 때 그 작업이 종료될 때 까지 기다리지 않고 다른 작업을 하고 있다가, 요청했던 작업이 종료되면 그에 대한 추가 작업을 수행하는 방식을 의미한다. 반면, 동기적 방식은 어떤 작업을 요청했을 때 그 작업이 종료될 때까지 기다린 후에 다음 작업을 수행하는 방식을 의미한다.
8) 계산 코어: 계산을 수행할 수 있는 물리적 프로세싱 단위를 의미한다. 오늘날의 계산 프로세서(예: CPU, GPU)는 하나의 코어(core)로 구성되어 있는 것이 아니라 일반적으로 여러 개의 코어들로 구성되어 있어서 동시에 여러 작업을 수행할 수 있다.

그 결과, GStream 2.0 기술은 두 개의 GPU와 두 개의 PCI-e SSD를 장착한 컴퓨터 한 대만으로 320억 개 간선 규모의 데이터를 500초 만에 처리했으며 최대 2,560억 개 간선 규모의 대용량 데이터를 처리했다.

이는 슈퍼컴퓨터를 이용한 기술보다 GStream 2.0 기술이 그래프 데이터의 처리 용량 및 속도가 월등하다는 것을 시사하며, 기존의 통신비용 및 메모리 사용량 등의 문제점들을 극복하고 대규모 그래프 데이터를 고속으로 처리할 수 있는 기술임을 의미한다.

김민수 교수는 “이번 연구성과는 신경망 형태의 빅데이터를 GPU와 SSD 기반으로 고속 처리할 수 있는 소프트웨어 기술을 확보했다”며 “뇌과학 및 인공지능 분야에서 사용되는 신경망 형태의 데이터 처리, 사물인터넷(IoT) 데이터 기반의 사이버보안 등에 널리 활용할 수 있으며, 특히 초대규모 심층 인공신경망을 구현할 수 있는 기반 기술로 사용될 수 있을 것이다”라고 연구의 의의를 설명했다.

이번 연구 성과는 지난 6월 28일 미국 샌프란시스코에서 열린 데이터베이스 분야 세계적 학술대회인 2016 ACM 시그모드(SIGMOD)에서 발표됐다. 

<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>


#인공지능   #개발   #빅데이터   #슈퍼컴퓨터  

  • 100자평 쓰기
  • 로그인

세미나/교육/전시
TOP