AI/ML News & Innovations Hub

기사를 읽어드립니다.

에포크 AI가 AI 모델의 장기간 소프트웨어 개발 능력을 평가하는 새로운 벤치마크 '미러코드(MirrorCode)'를 공개했다. 기존 소프트웨어 엔지니어링 벤치마크가 버그 수정이나 단일 기능 구현 등 단기 작업에 초점을 맞췄다면, 미러코드는 인터넷이나 원본 소스코드 없이 프로그램 전체를 처음부터 다시 구현하도록 요구해 AI의 실제 소프트웨어 개발 역량을 측정하도록 설계됐다.

에포크 AI는 26일(현지시간) AI 안전성 연구기관 METR와 공동으로 미러코드를 개발했다고 밝혔다.

AI가 기존 프로그램의 소스코드를 보지 않은 상태에서 프로그램 전체를 처음부터 다시 구현하도록 하는 장기 소프트웨어 개발(Long-horizon Software Engineering) 벤치마크다. AI가 작성한 프로그램은 원본 프로그램과 동일한 결과를 출력해야 하며, 개발 과정에서 공개되지 않은 테스트까지 모두 통과해야 정답으로 인정된다.

평가 대상은 총 25개 프로그램으로 구성됐다. 유닉스(Unix) 유틸리티, 데이터 직렬화 및 질의 도구, 생물정보학, 인터프리터, 정적 분석, 암호화, 압축 등 다양한 분야를 포함해 실제 소프트웨어 개발 환경을 폭넓게 반영했다.

에포크 AI는 기존 벤치마크와 달리 충분한 추론 예산(inference budget)을 제공하는 것도 특징이라고 설명했다. 대부분의 소프트웨어 엔지니어링 벤치마크는 AI 모델의 추론 비용을 1~10달러 수준으로 제한하지만, 미러코드는 실제 장기 개발 작업을 수행할 수 있도록 훨씬 큰 예산을 허용한다. 가장 큰 과제는 AI가 사람의 개입 없이 19일 동안 작업을 수행했으며, 한 번 실행하는 데 2600달러의 추론 비용이 사용됐다.

연구진은 프로그램 전체를 다시 구현하는 작업은 숙련된 소프트웨어 엔지니어에게도 매우 어려운 과제라고 설명했다. 가장 복잡한 미러코드 과제는 AI의 도움 없이 사람이 수행할 경우 수개월이 걸릴 것으로 추정되지만, 필요한 정보는 모두 제공돼 공정하게 해결할 수 있도록 설계됐다고 밝혔다.

평가 과정에서는 AI가 인터넷에 접속하거나 원본 코드 저장소를 참조할 수 없도록 샌드박스 환경을 구축했다. 또 개발 과정에서는 볼 수 없는 비공개 종단간(end-to-end) 테스트를 포함해 단순히 정답을 암기하거나 출력값을 저장하는 방식으로는 문제를 해결할 수 없도록 했다.

미러코드 전체 평가 프로그램에서 100% 정답을 달성한 평균 비율. AI가 각 미러코드 프로그램을 완전히 재구현해 모든 테스트를 통과한 비율을 나타낸다. (사진=에포크 AI)

평가 결과 최신 AI 모델은 이미 일부 장기 소프트웨어 개발 과제를 성공적으로 수행하는 것으로 나타났다. '클로드 오퍼스 4.7'은 1만6000줄의 고(Go) 코드와 40개 이상의 명령어로 구성된 생물정보학 도구 고트리(gotree)를 원본 코드 없이 재구현하는 데 성공했다.

연구진은 사람이 같은 작업을 수행할 때 2~17주가 걸릴 것으로 예상했지만, 클로드 오퍼스 4.7은 14시간, 251달러(약 38만6000원)의 추론 비용으로 이를 완료했다.

모델별·과제별 성공률. 프로그램을 완벽하게 재구현한 경우(모든 테스트 100% 통과)와 거의 완벽하게 재구현한 경우(모든 테스트의 99% 통과)를 기준으로 비교한 결과. 대규모 과제를 완벽하게 재구현한 모델은 클로드 오퍼스 4.7이 유일했다. (사진=에포크 AI)

다만 테스트에 활용한 모델 중 미러코드 25개 과제를 모두 해결한 모델은 없다. 클로드 오퍼스 4.7의 성공률도 56%에 그쳤다.

다만, 실패한 때도 대부분 테스트의 90% 이상을 통과하는 등 상당한 수준까지 프로그램을 구현하는 모습을 보였다. 연구진은 지난해 최고 수준의 모델이 약 30% 수준의 성능에 머물렀던 것과 비교하면 AI의 장기 소프트웨어 개발 능력이 빠르게 향상되고 있다고 평가했다.

비용 측면에서는 모델별 차이도 확인됐다. 'GPT-5.5'는 동일한 작업을 수행하는 데 'GPT-5'보다 3배 많은 비용이 들었으며, 반대로 클로드 오퍼스 4.7은 '클로드 오퍼스 4.1'보다 3배 저렴한 비용으로 과제를 해결했다.

연구진은 오픈소스 프로젝트를 기반으로 벤치마크를 구성한 만큼 AI가 사전 학습 과정에서 원본 코드를 접했을 가능성이 있다는 점도 인정했다.

하지만 AI가 학습 데이터로 본 적이 없는 프로그램은 성공적으로 구현됐지만, 암기 가능성이 높은 일부 프로그램은 오히려 재구현에 실패한 사례도 확인됐다. 이에 따라 단순한 암기만으로 성능이 결정된 것은 아니며, 실제 개발 능력이 상당 부분 반영된 결과라고 분석했다.

에포크 AI는 미러코드의 확산을 위해 평가 프레임워크와 25개 과제 가운데 22개 프로그램(6개 프로그래밍 언어, 총 132개 과제)을 깃허브를 통해 오픈소스로 공개했다.

나머지 3개 프로그램은 앞으로 모델 성능을 객관적으로 평가하기 위한 비공개 테스트 세트로 유지할 계획이라고 밝혔다.

박찬 기자 cpark@aitimes.com

에포크 AI, '장기 개발 능력' 벤치마크 공개...“코드 암기론 통과 못해”