AI/ML News & Innovations Hub

기사를 읽어드립니다.

최근 국내 AI 시장에서 안정적이고 효율적인 GPU 공급을 내세운 서비스가 급증하고 있다. GPU 가격 상승과 추론 수요 확대로 기업들의 AI 인프라 복잡성이 커진 데다, 저전력 NPU 등 하드웨어 선택지도 다양해졌기 때문이다.

이러한 상황 속에서 2015년 설립 이후 ‘GPU 가상화’ 시장을 개척해 온 래블업(대표 신정규)이 기존 '모델 개발 및 사전 훈련' 중심에서 최근 수요가 급증한 '추론과 에이전트' 영역으로 비즈니스를 본격 확장하고 나섰다.

그 중심에는 래블업의 ‘백엔드닷에이아이(Backend.AI)’가 있다. 이종 GPU·NPU 클러스터를 하이퍼스케일 멀티테넌시 환경에서 통합 오케스트레이션하는 소프트웨어 정의 AI 인프라 플랫폼이다. 학습, 추론, 에이전트, 로컬 환경을 아우르는 풀스택 전략을 통해 기업이 AI를 안정적이고 빠르게 사용할 수 있도록 지원하는 것이 핵심이다.

김준기 래블업 최고 기술책임자(CTO)는 “이전에는 AI 모델 학습 이후에나 추론 기능을 추가하곤 했지만, 이제는 처음부터 추론과 서비스 운영에 초점을 맞춘 기업이 대다수”라며 “백엔드닷에이아이는 특정 모델에 종속되지 않고 여러 모델과 설정을 쉽게 전환하며 테스트할 수 있어 시장의 긍정적인 평가를 받고 있다”라고 설명했다.

■ 추론 시대의 필수 조건, '모델 라우팅'과 '내결함성'

클라우드 API 의존도가 높아질수록 네트워크 장애나 서비스 중단에 대응할 수 있는 시스템은 필수적이다. 래블업이 선보인 '백엔드닷에이아이 컨티넘'은 클라우드 장애 발생 시 자동으로 로컬 자원으로 전환해 API 처리를 끊김 없이 유지하는 솔루션이다.

특히 핵심 기능인 '컨티넘 라우터'는 물리적인 추론 속도 가속보다는 외부 API, 로컬 LLM, 내부 모델 간의 동적 전환을 통해 성능을 안정화하고 비용을 절감하는 데 초점이 맞춰져 있다. 입력값과 출력값을 실시간으로 확인하며 캐시 레이어로 활용할 수 있어, 반복 요청에 따른 인프라 부하를 크게 줄여준다.

김 CTO는 “GPU 기반 추론 환경은 대용량 에너지를 끌어다 쓰는 하드웨어 특성상 늘 불안정성이 존재한다”라며 “따라서 상황에 따라 로컬 LLM과 외부 API를 동적으로 라우팅하는 구조가 비용과 안정성 측면에서 매우 중요하다”라고 강조했다.

■ 인프라 병목의 진화... '스토리지'와 'CPU'의 재발견

래블업은 과기정통부 주관 ‘독자 AI 파운데이션 모델 개발 프로젝트’에 업스테이지 컨소시엄사로 참여하며 대규모 인프라 운영 노하우를 축적했다. 이 과정에서 대규모 인프라 운영 시 발생하는 가장 큰 성능 저하 원인이 GPU가 아닌 '스토리지 입출력(I/O) 속도'에 있음을 확인했다. 현재 래블업은 GPU가 CPU를 거치지 않고 스토리지를 바로 호출하는 'GPU 다이렉트 스토리지 가상화' 기술을 통해 이 병목 현상을 해결하고 있다.

동시에 AI 에이전트 시대가 열리며 CPU의 가치도 재조명받고 있다. AI 모델 자체는 GPU에서 구동되지만, 에이전트가 수행하는 코드 수정, 파일 조작 등 실제 '손과 발' 역할을 하는 도구들은 CPU 자원을 소모하기 때문이다.

김 CTO는 “에이전트 시대에는 GPU뿐만 아니라 CPU도 새로운 병목이 된다”라며 “에이전트는 항상 GPU를 100% 점유하지 않고 API 호출, 대기, 도구 실행 시간이 혼재하기 때문에, GPU를 효율적으로 공유하고 유휴 시간을 줄이는 오케스트레이션 기술이 핵심 경쟁력이 될 것”이라고 짚었다.

국내 전시회에 소개된 백엔드닷에이아이 (사진=래블업)

■ 네오클라우드와는 '상생'을, 온디바이스는 '연결'을

최근 주목받는 네오클라우드 및 GPU 구독 사업자와의 관계에 대해 경쟁이 아닌 '상생 관계'라고 밝혔다.

그는 “GPU 구독 사업자는 하드웨어를 좋은 가격에 대량 공급하는 데 초점을 맞추지만, 실제 서비스 운영을 위해서는 그 위에 환경을 세팅하고 워크로드를 관리하는 소프트웨어가 필수적”이라며 “단순 대여로 해결되지 않는 이 운영 영역을 래블업이 담당하기 때문에 최근 네오클라우드 사업자들의 협력 제안이 늘고 있다”고 밝혔다.

온디바이스 AI 시장에 대한 대응도 구체화하고 있다. 래블업은 최근 애플 맥북 특화 추론 엔진인 ‘MLXcel’을 오픈소스로 공개했다. 기존 C++ 및 파이썬 기반 구조를 러스트(Rust) 언어로 재작성해 성능을 극대화한 버전이다.

래블업은 인터넷 연결 없이 데스크톱에서 소형언어모델(sLM)을 구동하는 ‘백엔드닷에이아이 고(Go)’와 서버용 제품군을 유기적으로 연결할 계획이다. 여기에 점차 비중이 늘어나는 NPU 오케스트레이션 전략까지 더해 하드웨어와 환경을 가리지 않는 완벽한 '풀스택 AI 인프라'를 완성하겠다는 계획이다.

김준기 CTO는 “AI 에이전트 시대로 접어들며 단순 GPU 공급을 넘어 워크로드 관리, 스토리지, 라우팅, 장애 대응까지 지원하는 풀스택 인프라의 가치가 커지고 있다”라며 “인프라 병목을 입체적으로 해결하며 래블업의 시장 경쟁력을 증명해 나갈 것”이라고 강조했다.

장세민 기자 semim99@aitimes.com

김준기 래블업 CTO “풀스택 AI 인프라로 GPU 한계 넘는다”