최신 AI 코딩 능력 테스트에서 흥미로운 결과가 나왔습니다.
앤트로픽이 개발한 클로드 오퍼스 4.8 버전이 새로운 평가 시스템에 처음 등장했으나, 오픈AI의 GPT-5.5 모델을 따라잡지는 못한 것으로 나타났습니다.
스타트업 데이터커브가 개발한 딥SWE 평가 도구의 최근 업데이트 결과를 살펴보면, 클로드 오퍼스 4.8은 58%의 정확도를 기록했습니다.
이는 이전 모델인 클로드 오퍼스 4.7(54%)과 GPT-5.4(56%)보다는 높은 수치입니다. 하지만 1위를 차지한 GPT-5.5의 70%와 비교하면 12%포인트나 차이가 납니다.
💰 비용과 속도 면에서도 격차 존재
정확도뿐만 아니라 실용성 측면에서도 GPT-5.5가 우수한 성능을 보였습니다. 작업당 평균 비용은 6.61달러로, 클로드 오퍼스 4.8(12.58달러)의 절반 수준입니다.
처리 시간도 21분으로 오퍼스의 43분에 비해 2배 가까이 빠른 속도를 자랑합니다.
🔍 새로운 평가 기준의 등장
지난달 25일 처음 공개된 딥SWE는 기존 평가 방식과 다른 접근법으로 주목받고 있습니다. 데이터커브는 현재 널리 쓰이는 SWE-벤치 프로가 너무 단순해서 실제 개발 환경을 제대로 반영하지 못한다고 지적했습니다.
특히 일부 클로드 모델이 저장소의 기록을 탐색해 정답에 해당하는 정보를 활용한 사례가 발견되었다고 밝혔습니다. 다만 개발자들 사이에서는 이를 부정행위보다는 평가 시스템의 설계상 문제로 봐야 한다는 의견도 있습니다.
📊 더 현실적인 테스트 환경
딥SWE는 91개의 오픈소스 저장소와 5개 프로그래밍 언어를 기반으로 113개 작업을 평가합니다. 평균 668줄 규모의 코드 수정을 요구하는데, 이는 SWE-벤치 프로의 120줄보다 훨씬 큰 규모입니다.
하지만 지시문은 오히려 더 짧아, 실제 개발자가 AI에게 업무를 맡기는 상황을 더 잘 반영한다는 설명입니다.
🤔 업계의 엇갈린 반응
흥미롭게도 SWE-벤치 프로에서 앞섰던 클로드 계열이 딥SWE에서는 GPT 시리즈에 뒤처지면서 개발자 커뮤니티에서 논란이 일고 있습니다.
일부 사용자들은 실제 사용 경험에서는 여전히 클로드가 더 우수하다고 주장하는 반면, 다른 이들은 딥SWE 결과가 실제 개발 현장과 더 가깝다고 평가합니다.
주목할 점은 앤트로픽이 오퍼스 4.8 공개 당시 오히려 SWE-벤치 프로의 69.2% 성적을 강조했다는 것입니다. 같은 모델이 평가 기준에 따라 다른 결과를 보이면서 AI 코딩 능력 측정 방법 자체에 대한 논쟁도 커지고 있습니다.
딥SWE는 공개된 지 일주일도 안 된 신규 평가 도구입니다. 앞으로 주요 AI 기업들이 이를 공식 성능 지표로 받아들일지 여부가 영향력을 결정하는 핵심 요소가 될 것으로 보입니다.