조직에 데이터 센터가 있다면 조만간 데이터 센터에 AI 기술이 도입될 가능성이 높습니다. AI 시스템이 채팅 봇이 되든, 여러 시스템에서 프로세스를 자동화하든, 대규모 데이터 세트의 분석을 가능하게 하든 관계없이, 이 새로운 기술은 많은 기업의 비즈니스 방식을 가속화하고 개선할 수 있을 것으로 기대됩니다. 하지만 AI는 종종 혼란스럽고 오해를 불러일으키는 개념일 수 있습니다. 이 글에서는 AI 네트워킹의 작동 방식과 이 기술이 직면한 고유한 과제에 대해 알아야 할 5가지 기본 사항을 살펴봅니다.
리나스 다우크사(Linas Dauksa)
제품 마케팅 관리자 ㅣ 키사이트 기술
1. GPU는 AI 컴퓨터의 두뇌입니다
간단히 말해, AI 컴퓨터의 두뇌는 그래픽 처리 장치(GPU)입니다. 지금까지 컴퓨터의 두뇌는 중앙 처리 장치(CPU)라고 들어보셨을 것입니다. GPU의 장점은 수학 계산을 잘 수행하는 CPU라는 점입니다. AI 컴퓨터나 딥 러닝 모델을 구축하려면 수십억 개의 매개변수가 포함된 수학 행렬을 풀어야 하는 '훈련'이 필요합니다.
이 연산을 가장 빠르게 수행하는 가장 좋은 방법은 GPU 그룹이 동일한 워크로드를 처리하는 것이지만, AI 모델을 학습시키는 데 몇 주 또는 몇 달이 걸릴 수 있습니다. AI 모델이 구축된 후에는 프런트엔드 컴퓨터 시스템으로 옮겨져 사용자가 모델에 질문을 할 수 있는데, 이를 추론이라고 합니다.
2. AI 컴퓨터에는 많은 GPU가 포함되어 있습니다
AI 워크로드를 해결하는 가장 효율적인 아키텍처는 랙에 여러 개의 GPU 를 배치하고, 이들을 랙의 상단에 있는 스위치에 연결하는 방식 것입니다. 추가적인 랙에 있는 GPU 들이 네트워킹 계층 구조으로 연결될 수도 있습니다. 해결해야 하는 문제의 복잡성이 증가할수록 GPU의 수요도 커지며, 일부 구현에서는 수천 개의 GPU 클러스터가 포함될 가능성도 있습니다. 컴퓨팅 랙이 줄줄이 늘어선 데이터 센터의 일반적인 이미지를 상상해 보세요.
3. AI 클러스터는 미니 네트워크입니다
AI 클러스터를 구축할 때는 GPU를 연결하여 함께 작동할 수 있도록 해야 합니다. 이러한 연결은 GPU가 서로 데이터를 주고받을 수 있는 미니어처 컴퓨터 네트워크를 생성하여 이루어집니다.
그림 1. AI 클러스터
그림 1은 AI 클러스터를 보여주는데, 맨 아래 원은 GPU에서 실행되는 워크플로를 나타냅니다. GPUS는 ToR(Top-of-Rack) 스위치에 연결됩니다. 또한 ToR 스위치는 다이어그램 상단의 네트워크 스파인 스위치에 연결되어 많은 GPU가 관련되어 있을 때 필요한 명확한 네트워크 계층 구조를 보여줍니다.
4. AI 배포의 병목 현상인 네트워크
지난 가을, 참가자들이 차세대 AI 인프라를 개발하는 오픈 컴퓨트 프로젝트(OCP) 글로벌 서밋에서 마벨 테크놀로지의 로이 응우옌(Loi Nguyen)은 "네트워크가 새로운 병목 현상"이라는 핵심 이슈를 명확하게 지적했습니다.
GPU는 수학 문제나 워크로드를 해결하는 데 매우 효과적입니다. 이러한 시스템이 작업을 수행하는 가장 빠른 방법은 GPU가 모두 동일한 워크로드에서 병렬로 협업하는 것입니다. 이를 위해서는 GPU가 작업할 정보가 필요하며 서로 통신해야 합니다. 한 GPU에 필요한 정보가 없거나 결과를 작성하는 데 시간이 오래 걸리는 경우 다른 모든 GPU는 공동 작업이 완료될 때까지 기다려야 합니다.
기술적인 측면에서 보면, 네트워크 혼잡으로 인해 패킷 지연 시간이 길어지거나 패킷 손실이 발생하면 패킷 재전송이 발생하고 작업 완료 시간(JCT)이 크게 늘어날 수 있습니다. 이는 수백만 또는 수천만 달러의 GPU가 유휴 상태로 방치되어 수익에 영향을 미치고 AI를 통해 기회를 창출하려는 기업의 시장 출시 기간에 영향을 미칠 수 있다는 의미입니다.
5. 성공적인 AI 네트워크 운영을 위해서는 테스트가 필수입니다
효율적인 AI 클러스터를 운영하려면 GPU를 최대한 활용하여 학습 모델 학습을 조기에 완료하고 이를 활용하여 투자 수익을 극대화할 수 있도록 해야 합니다. 이를 위해서는 AI 클러스터의 성능을 테스트하고 벤치마킹해야 합니다(그림 2). 그러나 워크로드에 따라 아키텍처적으로 서로 보완해야 하는 GPU와 네트워크 패브릭 간에는 많은 설정과 상호 관계가 있기 때문에 이는 쉬운 작업이 아닙니다.
그림 2. AI 데이터 센터 테스트 플랫폼과 AI 데이터 센터 클러스터를 테스트하는 방법.
이로 인해 AI 네트워크를 테스트하는 데 많은 어려움이 있습니다:
- 비용, 장비 가용성, 숙련된 네트워크 AI 엔지니어의 시간, 공간, 전력, 발열 등의 이유로 전체 프로덕션 네트워크를 실험실에서 재현하기는 어렵습니다.
- 프로덕션 시스템에서 테스트하면 프로덕션 시스템의 가용 처리 능력이 감소합니다.
- 워크로드 유형과 데이터 세트의 크기와 범위가 매우 다를 수 있어 문제를 재현하기 어려울 수 있습니다.
- GPU 간에 발생하는 집단적 커뮤니케이션에 대한 인사이트를 얻는 것도 어려울 수 있습니다.
이러한 과제를 해결하기 위한 한 가지 방법은 실험실 환경에서 제안된 설정의 하위 집합을 테스트하여 JCT, AI 집단이 달성할 수 있는 대역폭, 패브릭 사용률 및 버퍼 소비와 비교하는 방법과 같은 주요 매개변수를 벤치마킹하는 것입니다. 이 벤치마킹은 GPU/워크로드 배치와 네트워크 설계/설정 간의 균형을 찾는 데 도움이 됩니다. 컴퓨팅 아키텍트와 네트워크 엔지니어가 결과에 충분히 만족한다면 설정을 프로덕션에 적용하고 새로운 결과를 측정할 수 있습니다.
결론
AI를 활용하려면 AI 네트워크의 디바이스와 인프라를 최적화해야 합니다. 기업 연구실과 학계에서는 모범 사례가 지속적으로 발전함에 따라 대규모 네트워크 작업의 어려움을 해결하기 위해 효과적인 AI 네트워크 구축 및 운영의 모든 측면을 분석하기 위해 노력하고 있으며, 특히 모범 사례가 지속적으로 진화하고 있습니다. 이러한 반복적이고 협력적인 접근 방식을 통해서만 업계는 AI의 기반이 되는 네트워크를 최적화하는 데 기초가 되는 '가정' 시나리오를 반복적으로 테스트하고 민첩하게 실험할 수 있습니다.
저자 소개
Linas는 수십 년간 기업 및 서비스 제공업체 네트워킹 업계의 일원으로 활동해 왔습니다. 그는 엔지니어링, 엔지니어링 관리, 제품 관리 및 제품 마케팅 분야에서 다양한 직책을 맡았습니다. 2020년에는 키사이트테크놀로지스에 포트폴리오 마케팅 그룹의 일원으로 합류했습니다. 현재 그는 네트워크 에뮬레이터 제품(이전 명칭: IXIA)을 담당하고 있습니다. 리나스는 토론토 대학교에서 전기 공학 학위를 받았습니다.
<저작권자©스마트앤컴퍼니. 무단전재-재배포금지>