기사를 읽어드립니다.
장시간에 걸친 실제 컴퓨터 업무 수행 능력을 평가하는 새로운 벤치마크가 공개됐다. 기존의 한계를 넘어 실제 전문가 수준의 업무 환경을 반영한 평가 도구다.
AI 연구소인 X랭(XLANG)은 26일(현지시간) 장기 컴퓨터 사용(Long-horizon Computer Use) 능력을 평가하기 위해 'OS월드(OSWorld) 2.0'을 공개했다.
기존 벤치마크가 수십 단계 안에 끝나는 단순 작업을 평가했다면, OS월드 2.0은 숙련된 사람이 평균 1.6시간이 걸리는 실제 업무를 기반으로 AI 에이전트의 장기 작업 수행 능력을 측정하도록 설계됐다.
실제 전문가들이 수행하는 장시간 업무를 반영했다. 총 108개 과제는 연구, 콘텐츠 제작, 소프트웨어 개발, 개인 서비스, 비즈니스·금융, 행정·규정 준수, 의료 등 7개 전문 분야와 21개 세부 분야를 아우른다.
평가에는 31개의 자체 구축(Self-hosted) 웹 환경과 전문 데스크톱 애플리케이션이 활용됐으며, 과제마다 평균 27.25개의 체크포인트를 통해 부분 점수도 함께 산정한다.
각 과제는 숙련된 사용자가 완료하는 데 평균 1.6시간이 소요되는 실제 업무를 기반으로 제작됐다. '클로드 오퍼스 4.7'은 최대 추론(maximum thinking) 설정에서 과제 하나를 수행하는 데 평균 318회의 도구 호출(tool call)이 필요했으며, 이는 기존 'OS월드 1.0'의 약 30회보다 10배 이상 많은 수준이다.
OS월드 2.0은 실제 업무에서 자주 발생하지만 기존 벤치마크에서는 충분히 다루지 못했던 다양한 난제를 포함했다. 실시간으로 정보가 계속 바뀌는 동적 환경과 스트리밍 상호작용, 여러 정보원을 종합해 판단하는 교차 출처 추론(cross-source reasoning), 명시되지 않은 상태를 추론하는 암묵적 상태 추론(implicit-state inference), 높은 수준의 시각·공간 정밀도 등이 대표적이다.
또 실제 사용자 데이터와 입력 문서를 기반으로 과제를 구성했으며, 안전이 중요한 작업에 대해서는 별도의 안전성 검토도 수행했다.
평가 결과, 현재 최고 성능 모델도 실제 업무를 완전히 수행하는 데는 한계를 드러냈다. 500단계의 작업 예산 기준에서 '클로드 오퍼스 4.8'이 20.6%의 과제를 완수(Binary score)해 가장 높은 성능을 기록했으며, 부분 수행 점수(Partial score)는 54.8%였다. 평가된 대부분의 모델은 부분 점수 20~55% 구간에 분포해 상당한 진척은 보였지만 과제를 끝까지 완료하는 경우는 드물었다.
'GPT-5.5'는 완료율이 약 13%에 머물렀지만, 추론에 사용하는 토큰 수는 다른 모델보다 훨씬 적어 높은 토큰 효율성을 보였다. 연구진은 비용 측면에서는 장점이 있지만 복잡한 장기 업무를 완수하는 능력은 아직 제한적이라고 분석했다.
또 연구진은 현재 AI 에이전트의 한계가 단순한 GUI 조작이나 프로그래밍 능력 부족에 있는 것은 아니라고 설명했다.
오히려 장시간 작업을 수행하면서 제약 조건을 잊거나 작업 중간에 새롭게 등장한 정보를 놓치고, 사용자에게 확인해야 할 내용을 스스로 추측하거나 최종 결과를 충분히 검증하지 않는 문제가 자주 나타났다. 특히 숨겨진 상태 정보를 스스로 찾아 복원해야 하는 과제에서 가장 큰 어려움을 겪는 것으로 분석됐다.
X랭은 OS월드 2.0 평가 프레임워크를 깃허브를 통해 오픈소스로 공개했다.
박찬 기자 cpark@aitimes.com