레드햇, 하드웨어 인지 최적화로 네트워크 복원력 확보해

2026-03-10 김미혜 기자, elecnews@elec4.co.kr

소프트뱅크 AI-RAN 오케스트레이터에 ‘llm-d’ 통합… AI-RAN 워크로드 분산 및 성능 극대화

레드햇(Red Hat)이 소프트뱅크와 협력해 ‘llm-d’를 소프트뱅크의 AI-RAN 오케스트레이터 아이트라스(AITRAS)에 통합했다고 발표했다. llm-d는 레드햇을 비롯한 여러 업계 주요 기업들이 공동 설립한 오픈소스 프레임워크로 무선접속망(RAN) 환경에서 대규모 언어 모델(LLM) 추론을 동적·지능적으로 분산 처리해 성능과 효율성을 높이도록 설계됐다.

통신 사업자 엣지 환경에서 AI와 RAN 워크로드의 통합 필요성

AI-RAN의 기술적 구현이 현실화되면서 통신 사업자들은 AI와 RAN을 동일한 하드웨어에서 실행하는 것뿐 아니라, 이를 어떻게 효율적으로 관리하고 확장할 것인지에 주목하고 있다. 최근 생성형 AI와 트랜스포머 기반 언어 모델의 확산으로 엣지 환경에서도 새로운 형태의 컴퓨팅과 인사이트 도출이 가능해졌다. 이에 따라 기존 RAN 외에도 엣지에서의 런타임과 추론 엔드포인트를 필요로 하는 AI 기반 RAN 애플리케이션 및 에이전트가 등장하고 있다.

이러한 변화 속에서 통신 사업자에게 중요한 과제는 기존 RAN과 새로운 언어 모델 및 에이전트를 동일한 RAN 환경에서 효과적으로 공존하도록 하는 것이다고 업체 측은 밝혔다. 이를 통해 새로운 사용 사례를 창출하고 가치를 생성하며 수익화를 실현할 수 있다는 설명이다. 이러한 통합은 운영 비용(OpEx)을 절감하고 신규 수익 창출형 엣지 서비스의 시장 출시 기간을 단축하는 데 필수적이다.

AI-RAN을 상용화하기 위해서는 통신 사업자가 AI 워크로드를 클라우드 네이티브 네트워크 기능(CNF) 및 애플리케이션과 동일한 수준의 유연성으로 운영할 수 있어야 한다. 이를 위해 레드햇과 소프트뱅크는 llm-d와 vLLM을 활용한 AI-RAN 협력을 추진하고 있다.

llm-d, 추론과 오케스트레이터를 연결하다

vLLM은 단일 GPU 노드에서 고성능 모델 배포를 지원하며 AI 추론 분야의 오픈소스 리더로 자리매김했다. 그러나 복잡한 멀티 노드 환경에서의 모델 배포 관리에는 한계가 있으며, llm-d는 바로 이 문제를 해결하기 위해 개발됐다. llm-d는 쿠버네티스를 활용해 여러 노드에 걸쳐 vLLM을 오케스트레이션함으로써 vLLM의 효율성을 분산 환경으로 확장하고 운영 수준의 AI 추론을 구현한다. 업체 측에 따르면, llm-d를 소프트뱅크 아이트라스 오케스트레이터에 통합함으로써 통신 사업자는 다음과 같은 주요 기술적 성과를 구현할 수 있다.

lAI와 RAN 워크로드 통합: 아이트라스는 여러 GPU 클러스터에 걸쳐 RAN 워크로드와 LLM 요청을 오케스트레이션하고 최적화하며, llm-d와 vLLM은 추론 요청을 지능적으로 라우팅하여 GPU 자원의 원활한 관리와 오토스케일링을 지원한다.

하드웨어 인지 최적화: LLM 추론은 연산 집약적인 프롬프트 처리 단계인 프리필(prefill)과 메모리 대역폭에 의존하는 토큰 생성 단계인 디코드(decode)로 나뉜다. llm-d는 이 두 단계를 분리해 각각에 최적화된 GPU 자원을 동적으로 할당하는 프리필과 디코드 분리(disaggregation) 방식을 지원한다. 이를 통해 다양한 하드웨어 환경에서 자원 활용도를 극대화할 수 있다. 또한 쿠버네티스 기반 자원 관리 기능과 결합해 AI 워크로드가 동일한 하드웨어에서 실행되는 핵심 RAN 기능을 저해하지 않도록 보호한다. 이는 네트워크 복원력과 서비스 품질(QoS)을 유지하는 데 필수 요소이다.

수요 변화에 대응하는 자동 확장: LLM 서비스에 대한 사용자 요청은 변동성이 매우 크다. 아이트라스는 llm-d를 사용하여 워크로드 특성에 따라 프리필 및 디코드 작업자 역할을 자동으로 할당하고 확장할 수 있다. 이러한 최적화는 사용자 지연 시간을 줄이고 전력 소비를 크게 개선하여, 총 소유 비용(TCO) 절감과 통신 사업자의 지속 가능성 목표 달성을 지원한다.

5G 및 6G 시대를 위한 AI-RAN의 기반

아이트라스와 llm-d의 통합은 엣지 환경에서 AI를 위한 운영체제를 제공한다. 이를 통해 소프트뱅크는 암(Arm) 기반 시스템을 포함한 전력 효율적인 아키텍처에서 고성능 추론과 RAN 워크로드를 실행할 수 있게 됐다. 이는 AI-RAN이 차세대 모바일 네트워크에 필요한 확장성과 유연성을 구현할 수 있음을 보여준다. 또한 통신 사업자는 수동 설정 방식에서 벗어나 llm-d 기반의 자동화된 배포 모델로 전환함으로써 엣지 AI 운영의 복잡성을 크게 줄일 수 있다고 업체 측은 전했다.

100자평 쓰기