차세대 아키텍처를 위한 차세대 아키텍처 ‘UltraScale™’(상)
  • 2013-09-02
  • 김창수 기자, cskim@elec4.co.kr
  • 글 | 스티브 레이브손(Steve Leibson), 닉 메타(Nick Mehta), 자일링스


자일링스® UltraScale™ 아키텍처는 가장 까다로운 애플리케이션을 위한 ASIC 클래스 시스템 레벨 성능과 함께 전례 없는 통합 수준과 성능을 달성했다.

크고 많을수록 좋다

모든 기기가 디지털화함에 따라 시장 전반에 걸쳐 디지털 시스템의 필수적인 핵심 경향은 ‘크고 많을수록 좋은 것’으로 인식되고 있다. 이러한 기대는 보다 높은 해상도와 대역폭, 더 큰 저장 능력을 필요로 하는 시스템에 대한 기본적인 요구가 되고 있다. 또한 이러한 ‘크고, 많은’ 것에 대한 생각은 몇 가지 당연한 결론에 도달한다.

▷ 더 많은 디바이스들이 더 많은 데이터를 생성하고 있다.
▷ 더 많은 데이터는 보다 빠르게 데이터를 이동시켜야 함을 의미한다.
▷ 보다 빠르게 이동하는 데이터는 더 많은 연산 성능을 요구한다.
▷ 더 많은 애플리케이션들은 더 많은 데이터에 보다 빠르게 액세스해야 한다.
▷ 데이터양이 증가하고 데이터 전송 속도가 증가함에 따라 더 많은 데이터 무결성이 요구된다.

이러한 데이터 생성 및 데이터 전송 속도의 빠른 상승은 거의 모든 시장에서 발생하고 있으며, 이와 연관된 도전과제를 해결하기 위해서 새로운 디바이스 아키텍처의 요구가 증폭되고 있다:

▷ 방대한 데이터 플로 및 ASIC 클러킹과 같은 라우팅
▷ 방대한 I/O 및 메모리 대역폭
▷ 보다 빠른 DSP 및 패킷 프로세싱
▷ 전력관리
▷ 다중-레벨의 보안



차세대 올 프로그래머블 아키텍처

풀 라인 속도에서 스마트 프로세싱으로 테라비트 및 테라플롭까지 확장이 가능한 초당 수백 기가비트 범위의 시스템 성능을 처리하기 위해서는 새로운 아키텍처 차원의 접근이 필요하다. 이러한 과제는 각 트랜지스터나 시스템 블록의 성능을 향상시키거나 혹은 시스템 블록 수를 확장하는 것처럼 간단한 것이 아니다. 오히려 이 아이디어는 방대한 데이터 플로와 실시간 패킷 및 이미지 프로세싱을 처리할 수 있도록 통신 및 클록, 중요한 경로, 인터커넥트를 근본적으로 개선해야 한다.
UltraScale™ 아키텍처는 ASIC 수준의 탁월한 통합 및 기능 레벨을 달성하는 것은 물론, 방대한 I/O 및 메모리 대역폭, 방대한 데이터 플로, 최상의 DSP 및 패킷 프로세싱 성능을 요구하는 가장 까다로운 애플리케이션을 위한 시스템 레벨의 성능을 제공한다.
UltraScale™ 아키텍처는 올 프로그래머블 아키텍처에 최신 ASIC 기법을 적용하여 이러한 문제들을 해결했다. UltraScale™ 아키텍처는 총 시스템 처리량과 레이턴시의 확장에 가해지는 한계들을 처리할 뿐만 아니라, 첨단 노드에서의 시스템 성능에서 가장 중요한 병목현상인 인터커넥트도 처리하고 있다.
UltraScale 아키텍처는 차세대 시스템과 관련한 차세대 시스템 성능 요건을 충족하기 위해 디자인됐다(그림 1).
UltraScale™ 아키텍처는 수 백 가지의 디자인 개선을 이루어냈다. 이러한 개선은 디자인 팀이 이전보다 더 많은 기능, 더 빠른 실행, 와트당 더 높은 성능을 제공하는 시스템을 제작할 수 있도록 조합돼 있다(그림 2).
UltraScale™ 아키텍처는 비바도™ 디자인 수트와 더불어 다음과 같은 차세대 시스템 레벨의 역량을 제공한다:

▷ 멀티 테라비트 처리량을 지원하는 와이드 버스에 최적화된 방대한 데이터 흐름 제어
▷ 고도로 최적화된 중요한 경로와 내장 고속 메모리, DSP 및 패킷 프로세싱에서 병목현상을 없애는 캐스케이드(cascade)
▷ 27×18 bit 멀티플라이어와 듀얼 가산기를 구현하여 고정소수점에서의 획기적 성능 증대와 IEEE Std 754 부동소수점 연산 성능 및 효율을 가능하게 해주는 강화된 DSP 슬라이스
▷ 2세대 3D IC 시스템 통합을 위한 인터 다이(inter-die) 대역폭에서의 획기적 성능 향상 및 최신 3D IC 와이드 메모리 최적화 인터페이스
▷ 초저 클록 스큐(skew)와 고성능 확장성으로 저전력 클록 네트워크를 이끌어내는 멀티 영역 ASIC과 유사한 클로킹
▷ 방대한 I/O 메모리 대역폭, 획기적인 레이턴시 감소와 ASIC 클래스 100G 이더넷, 인터라켄(Interlaken), PCIe짋와 같이 최적화된 다수의 강화된 IP 코어를 통한 차세대 메모리 인터페이스 지원
▷ 모든 구성요소에 대한 정적 및 동적 전력 게이팅을 통한 현저한 소모 전력 감소
▷ AES 비트스트림 해독과 인증, 키 난독화(key-obfuscation), 보안 장치 프로그래밍에 첨단 접근방식을 제공하는 차세대 보안
▷ 비바도 툴과의 상호최적화를 이용한 라우팅 정체 제거로 성능 저하나 레이턴시 없이 90% 이상의 디바이스 활용률 달성
시스템 디자이너들은 여러 문제들을 해결할 수 있도록 다중 결합 방식으로 이러한 시스템 레벨 성능을 얻을 수 있다. 그림 3에는 일반화한 방대한 데이터 경로 디자인 블록 다이어그램을 나타냈다.
여기에서 데이터 스트림은 초당 테라비트에 해당하는 데이터 전송 속도로 좌우측으로 들어오고 나간다. 이 시스템은 좌우측 I/O 포트 간에 이러한 스트림을 전송할 수 있어야 하며, 필요한 프로세싱을 수행해야 한다. I/O 전송은 고속 시리얼 트랜시버를 통해 이뤄지며, 멀티-Gbps 수준으로 동작한다. 멀티-Gbps 시리얼 스트림이 디바이스에 들어오자마자, 데이터 플로 및 라우팅, 온칩 리소스의 프로세싱 성능에 맞춰 팬아웃 되어야 한다.



테라비트 시스템 디자인의 해결과제: 클록 스큐 및 방대한 데이터 플로
실례를 들기 위해, 좌우 I/O 포트의 포트 대역폭을 100 Gbps로 가정해 보자. 이는 온칩 리소스가 최소한 100 Gbps 트래픽을 처리해야 함을 의미한다. 디자이너는 일반적으로 이러한 데이터 처리량을 처리하기 위해 512 bit에서 1,024 bit 이내의 크기를 갖는 와이드 버스나 데이터 경로를 사용하며, 온칩 리소스의 성능에 부합하는 시스템 클록을 산출한다. 400 Gbps로 확장되는 보다 높은 라인 속도에서도 1,024 bit에서 2,048 bit 이내의 크기를 갖는 버스 폭이 필요하다.
이제 이러한 종류의 버스를 위한 클러킹 요건을 살펴보자. UltraScale 아키텍처가 도입되기 이전에는 하이엔드 시스템 클록 주파수에서의 동작은 이러한 방대한 데이터 경로에서 최악의 클록 스큐를 유발했으며, 이때 클록 스큐는 전체 시스템 클록 주기의 최고 50%에 이른다. 클록 스큐에 의해 클록 주기의 거의 절반이 소모되는 디자인은 목표 시스템 성능을 달성할 수 있다 하더라도 방대한 파이프라인에 의존해야 한다. 연산을 위해 클록 주기의 남은 50%만을 이용하는 경우, 이 솔루션이 성공할 가능성은 낮다. 또한 방대한 파이프라인은 대규모의 레지스터 리소스를 소모하는 것은 물론, 전반적인 시스템 지연에도 상당한 영향을 미치기 때문에 이는 오늘날의 고성능 시스템에서는 수용하기 어렵다.

UltraScale 아키텍처의 ASIC과 유사한 클러킹 구조
UltraScale 아키텍처는 멀티 영역 ASIC 유사 클러킹 기능을 제공해 가장 최적의 장소, 즉 사실상 다이 어느 곳에든 시스템 레벨 클록을 배치하여 시스템 레벨 클록 스큐를 최대 50%까지 줄일 수 있다. 클록 드라이빙 노드를 기능 블록의 기하학적 중심에 두고 리프 클록 셀(leaf clock cell)에서 클록 스큐의 균형을 맞추면, 멀티 기가비트 시스템 레벨 성능을 저해하는 병목현상 중 하나가 깨진다. UltraScale 아키텍처의 ASIC 유사 클러킹 기능은 클록 배치를 둘러싼 한계를 제거하고, 많은 수의 독립적인 고성능의 저 스큐 클록 소스들을 시스템 디자인에 구현할 수 있게 해준다. 이것은 차세대 디자인에 꼭 필요한 조건으로, 이전 세대의 PLD에 채택된 클러킹 설계와 근본적으로 다를 뿐만 아니라 엄청나게 개선된 것이다.
전반적인 시스템 클록 스큐를 줄이는 것은 이에 수반되는 방대한 파이프라인과 관련 지연을 없애는 것과 같다. UltraScale 아키텍처의 ASIC과 같은 클러킹은 클록 배치와 관련된 어떠한 제한도 없으며, 수많은 독립적이면서도 고성능의 낮은 스큐의 클록 소스를 시스템 디자인 상에 구현할 수 있도록 해준다. 이는 기존 세대의 PLD에서 찾아볼 수 있는 클러킹 구조를 근본적이면서도 강력하게 개선시켜 준다. 시스템 디자이너의 관점에서 보면, 이 솔루션은 문제가 되는 클록 스큐를 간단히 제거할 수 있다.

방대한 데이터 플로의 도전과제 해결
전통적으로 매우 높은 성능의 애플리케이션은 데이터 플로 라우팅을 온칩 리소스의 프로세싱 성능과 맞추기 위해 와이드 버스나 와이드 데이터 경로를 이용한다. 하지만 와이드 버스로 성능을 확장하는 것은 클록 스큐를 간단히 해결하는 것 이상의 특정 문제를 수반한다. 경쟁사의 아키텍처는 고성능 디자인에 적합한 라우팅 리소스의 양이나 유연성이 상당히 부족하다는 것이 이미 입증된바 있다. 낮은 성능의 인터커넥트 아키텍처 기반의 FPGA를 이용해 100 Gbps 속도의 애플리케이션을 처리하는 것은 1,536에서 2,048 bit에 이르는 데이터 버스를 필요로 할 수 있다.
와이드 버스 구현방식은 낮은 시스템 클록 주파수를 필요로 하는 반면, 이를 지원하기 위해서 요구되는 라우팅 리소스의 부족으로 상당한 타이밍-클로저 문제가 야기될 수 있다. 이러한 상황은 일부 FPGA 벤더들이 혼잡도나 총 와이어 길이와 같은 글로벌 디자인 요소에 판단을 어렵게 하는 시뮬레이션 어닐링(Simulated Annealing)에 기반한 오래된 P&R(Place and Route) 알고리즘을 사용하고 있다는 점에서 보다 심각해진다. 따라서 디자이너는 시스템 성능을 낮춰야 하거나(일반적인 옵션이 아님), 지연을 감수해야 하는 방대한 파이프라인, 이용 가능한 디바이스 리소스의 총체적인 활용도에 대한 트레이드-오프를 고려해야만 한다. 더욱 중요한 점은 100 Gbps 정도를 처리할 수 있었던 기존의 FPGA로는 차세대 멀티-테라비트 애플리케이션을 해결할 가능성이 거의 없거나, 매우 낮은 디바이스 활용 및 큰 지연을 감수해야 한다.
보다 복잡한 문제는, 대규모 와이드 데이터 버스를 통한 성능 확장은 이러한 와이드 버스 구현을 지원하는 오버헤드 로직 회로가 상당히 증가함에 따라 부담이 가중되고 달성하고자 하는 타이밍 클로저를 해결하기가 보다 어려워진다는 것이다.
이더넷 패킷 사이즈에 기반한 사례를 통해 이 상황을 가장 잘 나타낼 수 있는데, 이더넷은 최소 패킷 사이즈가 64 byte(512 bit)이다. 2,048 bit 와이드 버스가 400G 시스템을 구현하는데 사용되었다고 가정하면, 최대 4개의 패킷을 이 버스 안에 적용할 수 있다.
4개의 완벽한 패킷이나 하나 혹은 두 개, 세 개의 가능한 최대 조합의 부분적인 패킷처럼 여러 다양한 패킷 시나리오 및 조합을 처리하는데 대량의 로직이 요구되며, 2,048 bit 와이드 버스 전반에 걸쳐 존재한다. 이러한 가능한 조합을 처리하기 위해 대량의 복잡한 복제 로직(replicated logic)이 소모된다. 또한 버스가 4개의 패킷을 동시에 처리하거나 메모리에 적어야 하는 경우, 이를 처리하기 위해 일부 로직 영역의 속도를 높일(혹은 성능 확장) 필요가 있다. 다중 패킷을 처리하기 위해 로직의 속도를 높이거나 4개의 독립적인 중복 메모리 컨트롤러를 이용할 수 있도록 고려된 디자인은 라우팅 리소스에 압박을 가할 수 있으며, 심지어 상당한 수준의 고성능 및 로우-스큐 리소스를 갖춘 아키텍처가 필요하게 될 수도 있다(그림 4 참조).



인터커넥트 기술에 영향을 미치는 반도체 공정 확장
반도체 산업이 20 nm 미만의 공정기술로 이동함에 따라 구리 배선과 관련된 RC 지연과 같은 새로운 과제가 야기되고 있으며, 이는 차세대 노드로 마이그레이션함으로써 달성할 수 있는 성능 확장을 제약하고 있다. 이러한 트랜지스터 인터커넥트 지연의 증가는 달성 가능한 전반적인 시스템 성능에 직접적인 영향을 미치고, 차세대 애플리케이션에서 요구되는 성능 레벨을 달성할 수 있는 라우팅 아키텍처에 대한 필요성을 강화시키고 있다. UltraScale 라우팅 아키텍처는 이러한 차세대 공정 기술에 대한 완벽한 이해를 기반으로 개발됐으며 적절히 처리되지 않을 경우 시스템 성능의 병목현상이 될 수 있는 구리선 인터커넥트에 대한 영향을 최소화하도록 특별히 설계됐다.

UltraScale 인터커넥트 아키텍처: 방대한 데이터 플로에 최적화
UltraScale 차세대 인터커넥트 아키텍처는 프로그래머블-로직 라우팅 분야의 혁신을 이루었다. 자일링스는 멀티-기가비트 스마트 패킷 프로세싱 애플리케이션에서 멀티-테라비트 데이터 경로 애플리케이션 분야에 이르기까지 방대한 데이터 플로를 지원해야 하는 차세대 애플리케이션을 해결하는데 중점을 두었다. 역사적으로 라우팅이나 인터커넥트 정체는 512 bit 및 1,024 bit 이상으로 버스 폭을 확장하여 와이드 로직 블록을 구현할 때의 결과 품질이나 타이밍 클로저를 달성하는데 있어서 상당한 제한요소였다. 정체가 심한 로직 디자인은 초기의 디바이스 아키텍처에서는 라우팅이 불가능한 경우가 많았으며, 툴을 이용해 정체된 디자인의 라우팅을 관리하면 요구되는 클록 속도보다 보통 낮은 속도로 디자인이 구동된다. UltraScale 라우팅 아키텍처는 본질적으로 라우팅 정체를 완벽하게 제거한다. 그 결과는 간단하다. 디자인이 피팅 가능하면 라우팅은 가능하다.
이를 다음과 같이 비유해 보자. 도심의 교통량이 많은 교차로를 떠올려 보자. 차량들이 북쪽에서 남쪽으로, 남쪽에서 북쪽으로, 동쪽에서 서쪽으로, 서쪽에서 동쪽으로 이동하고 있고, 일부 차량은 방향을 전환하려 하고 있다. 이러한 차량 모두 동시에 움직이고자 하기 때문에 일반적으로 교통정체가 유발된다. 이제 최신의 잘 설계된 고속도로나 아우토반에서의 동일한 형태의 교차로를 살펴보자. 도로 설계자는 주 고속도로 교차로의 일부분에서 다른 쪽으로 원활하게 차량을 이동시키는 급행 차선과 같은 전용 램프를 만든다. 차량은 고속도로에서 다른 곳으로 빠르게 이동하게 되며, 교통정체는 발생하지 않는다.
자일링스는 UltraScale 아키텍처에 이러한 유형의 급주로를 추가했다. 이러한 부가적인 급행 차선은 필연적으로 인접해 있지는 않지만 여전히 특정 디자인과 논리적으로 연결되어 있는 인접한 LE(Logic Element) 간에 데이터를 이동시킨다. 그 결과 그림 5에 나타낸 것처럼 UltraScale 아키텍처가 관리할 수 있는 데이터의 양을 기하급수적으로 증대시킨다.

UltraScale 아키텍처 적층형 실리콘 인터커넥트 기술로 총체적 향상 실현
자일링스의 7시리즈 올 프로그래머블 디바이스에 기반한 1세대 3D IC에서 이미 입증된 SSI(Stacked Silicon Technology) 기술의 통합처럼, 약간의 기술적인 개발은 디바이스의 기능 및 성능에 엄청난 영향을 미친다. SSI 기술 통합은 업계의 벤치마크보다 한 세대 앞선 공정으로 보다 큰 디바이스를 구현하는 것을 가능하게 했다. 이는 자일링스의 2세대 UltraScale 아키텍처 기반의 3D IC의 경우에도 계속된다.
3D IC의 실리콘 다이는 다이가 개별적으로 패키징되었을 때보다 더 빠르고 밀도있게 배치된 커넥션을 통해 다른 다이와 통신할 수 있기 때문에 이러한 인터-다이 통신은 전력소모가 더 적다.(이 다이는 다이-투-패키지 및 보드-레벨 인터커넥션을 위해 추가 임피던스로 드라이브할 필요가 없음) 따라서 SSI 기술 통합은 기능 및 성능을 크게 확장하면서도 개별적으로 패키지된 다이와 비교해 전력소모를 줄일 수 있게 된다. 또한 다이-투-다이 통신은 보드 레벨에서 쉽게 액세스할 수 없기 때문에 시스템 보안이 향상된다.
버텍스(Virtex짋) UltraScale 및 킨텍스(Kintex짋) UltraScale 제품군은 이 2세대 3D IC 아키텍처에서 커넥티비티 리소스 수와 이와 관련된 인터-다이 대역폭 이 모두 획기적으로 향상 되었다. 라우팅 리소스와 인터-다이 대역폭이 크게 증가하면서 차세대 애플리케이션은 타깃 성능을 달성하고, 최대한의 활용도로 타이밍 클로저를 실현할 수 있다.

 

UltraScale 아키텍처는 20나노 플래너에서 16나노 FinFET 기술 이후까지, 그리고 모놀리식부터 3D IC까지 확장될 수 있도록 올 프로그래머블 아키텍처에 최신 ASIC 아키텍처 개선사항을 적용했다. 비바도(Vivado®) 디자인 툴과 상호 최적화되어 방대한 라우팅 역량을 제공하는 UltraScale 아키텍처는 성능 저하 없이 90% 이상의 활용 수준을 보여준다.

- ASIC 시스템처럼 클록을 (다이 상의 거의 모든 곳에) 전략적으로 배치 가능, 클록스큐를 50%까지 감소
- 대규모 병렬 버스 아키텍처를 가진 시스템에서는 지연을 유발하는 파이프라인이 거의 필요하지 않아 시스템 속도 및 성능 증대
- 90% 이상의 리소스 사용이 필요한 시스템에서도 잠재적인 타이밍-클로저 문제 및 인터커넥트 병목현상을 제거
- 3D IC 통합으로 현 산업 표준보다 한 세대 앞선 공정으로 보다 큰 디바이스 구현 가능
- 멀티-기가비트 시리얼 트랜시버 및 I/O, 메모리 대역폭을 비롯해 대폭 향상된 시스템 성능을 보다 적은 시스템 전력 예산 내에서 구현 가능
- DSP 및 패킷 처리 성능의 대폭 개선


 

온세미컨덕터, 글로벌 세일즈&마케팅 담당 ‘폴 롤스’ 신임 수석부사장 취임

온세미컨덕터는 글로벌 세일즈&마케팅 담당 수석부사장에 폴 롤스(Paul Rolls) 씨가 선임됐다고 밝혔다.
새 로 취임한 롤스 수석부사장은 이 회사의 세일즈, 채널 세일즈, 기업 마케팅, 가격, 고객 서비스 조직 등을 이끌게 된다. 회사 측은 롤스 수석부사장이 자사의 솔루션 엔지니어링 콘텐츠(SEC)와 필드 애플리케이션 팀(FAE)을 활용해 더욱 진보적인 공급망 프로그램에 투자함으로써 회사의 입지를 더욱 강화할 것으로 기대하고 있다.
롤스 수석부사장은 “향후 지속적으로 상호협력적인 설계 환경 조성을 지속함으로써 고객사들의 번영에 이바지할 혁신적인 전자 제품의 개발을 통해 온세미컨덕터의 세일즈와 디자인 윈에 대한 원동력을 가속화시키겠다”고 밝혔다. 이어 그는 “하나의 목표로 똘똘 뭉친 팀 구성원을 통해 글로벌 반도체 공급업체로서의 성과를 바탕으로 상위 10위의 업계 리더가 되기 위해 한층 더 노력을 아끼지 않을 것”이라고 말했다.
롤스 수석부사장은 25년 이상 기술 세일즈, 세일즈 관리, 경영 분야에 몸담아 왔으며, 특히 17년 이상 반도체 산업에서 세일즈와 세일즈 관리 경력을 쌓았다. 그는 2012년 10월 온세미컨덕터에 합류한 이후 일본지사 세일즈와 마케팅 선임부사장이자 글로벌 세일즈 운영 선임 부사장으로 재직해왔다.
온세미컨덕터에 합류하기 이전에는 2010년 1월부터 2012년 4월까지 IDT의 글로벌 세일즈와 마케팅 선임부사장으로 일했다. 1996년 8월부터 2009년 12월까지 그는 IR의 복합 세일즈 담당을 역임했으며 컴팩 컴퓨터에서 경영관리를 맡은 바도 있다.


 

<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>



  •  홈페이지 보기
  •  트위터 보기
  •  페이스북 보기
  •  유투브 보기
  • 100자평 쓰기
  • 로그인

세미나/교육/전시
TOP