Cardnews Brief

DeepSWE는 GPT가 잘한다고 말하고, 개발자들은 코덱스가 느리다고 말한다

2026-05-27 수요일 16:51:43DeepSWE코덱스AI 코딩벤치마크

AI 코딩 모델을 평가할 때 가장 자주 언급되던 벤치마크 중 하나가 SWE-bench였습니다. 실제 GitHub 이슈와 풀 리퀘스트를 바탕으로 모델이 버그를 고치거나 기능을 구현할 수 있는지 보는 방식이었고, 한동안 코딩 모델의 실전 능력을 비교하는 대표 지표처럼 쓰였습니다.

문제는 SWE-bench가 너무 유명해졌다는 데 있습니다. 공개 저장소의 이슈와 PR을 바탕으로 만든 과제라면, 프론티어 모델이 학습 과정에서 문제나 정답의 흔적을 이미 봤을 가능성을 완전히 배제하기 어렵습니다. 일부 평가에서는 모델이 실제로 문제를 푼 것이 아니라, 공개된 맥락이나 커밋 히스토리, 익숙한 패턴을 이용했을 수 있다는 의심도 나왔습니다. 코딩 AI가 좋아진 것은 맞지만, 그 점수가 실전 능력을 얼마나 잘 보여주는지는 다시 따져볼 필요가 생겼습니다.

이런 배경에서 새로 주목받는 벤치마크가 DeepSWE입니다. DeepSWE는 기존 공개 이슈나 PR을 가져오는 대신 과제를 새로 작성했다고 설명합니다. 91개 저장소와 5개 언어를 대상으로 하고, 문제 설명은 SWE-bench Pro보다 짧지만 실제 해결에는 더 많은 코드 수정과 더 긴 작업이 필요하도록 설계됐다고 합니다. 검증도 구현 방식이 아니라 소프트웨어의 실제 동작을 보도록 손으로 만든 테스트를 사용한다고 밝히고 있습니다.

DeepSWE 리더보드에서는 GPT-5.5가 70%로 가장 높은 점수를 기록했습니다. GPT-5.4는 56%, Claude Opus 4.7은 54%였습니다. 숫자만 보면 GPT-5.5가 꽤 앞섭니다. 개발자들 사이에서도 GPT가 잘한다는 의견이 많습니다. 특히 여러 파일을 고치고, 코드베이스를 읽고, 긴 작업을 이어가는 쪽에서는 GPT 계열이 강하다는 평가가 자주 나옵니다.

SWE-bench가 오염 가능성 때문에 의심받았다면, DeepSWE도 다른 방식의 편향을 가질 수 있습니다. 과제가 새로 만들어졌다고 해서 완벽한 평가는 아닙니다. 어떤 저장소를 골랐는지, 어떤 언어와 프레임워크가 많은지, 검증 테스트가 어떤 스타일의 해법을 선호하는지에 따라 결과는 달라질 수 있습니다. 주인장은 DeepSWE도 너무 한쪽으로 치우친 벤치면 어쩌나 하는 생각이 듭니다. 벤치마크를 검증할 더 좋은 방법이 있으면 좋겠습니다.

새 벤치마크 이야기가 나오는 동안, 실제 사용자 쪽에서는 코덱스 속도 이야기가 많이 나왔습니다. 최근 개발자 커뮤니티에서는 코덱스가 느려졌다는 글이 반복됐습니다. 응답 속도가 느려졌고, 컨텍스트 압축이 오래 걸리고, 한도 소진이 빨라졌다는 반응도 있었습니다. 미국 VPN을 쓰면 괜찮아진다는 이야기도 나옵니다. 이게 정말 지역 라우팅 문제인지는 확인되지 않았지만, 미국 쪽으로 붙이면 빠르다더라는 말은 꽤 보입니다.

코덱스가 느려진 이유를 두고 GPT-5.6 준비 때문 아니냐는 추측도 있습니다. 이전 신모델 출시 속도를 보면 6월 중순쯤 GPT-5.6이 나올 것 같다는 이야기도 나옵니다. 공식 일정은 아니지만, 개발자 커뮤니티에서는 이미 다음 구도를 이야기합니다. OpenAI 쪽에서는 GPT-5.6, Anthropic 쪽에서는 Mythos 계열이나 Opus의 다음 버전이 코딩과 추론에서 다시 비교될 수 있다는 식입니다. 최근 Mythos가 에르되시 문제 관련 실험에서 언급된 것도 이런 기대를 키웠습니다.

오늘 주인장도 코덱스 생태계 쪽에서 작은 사건을 겪었습니다. Hermes에서 OpenAI 계열 두뇌를 사용할 때 NoneType 에러가 발생했고, 곧바로 GitHub에 관련 이슈와 PR들이 올라오는 모습을 봤습니다. 같은 문제를 겪은 사용자들이 이슈를 열고, 수정 PR을 만들고, 중복 패치가 생기고, 논의가 이어졌습니다. 주인장은 별도 PR을 올리지는 않았지만, 로컬에서는 Codex를 이용해 핫픽스를 적용했습니다.

이 장면은 코딩 AI 생태계가 어떻게 굴러가는지 보여줬습니다. 모델이 아무리 좋아도, 실제 도구로 쓰이다 보면 오류가 납니다. 그때 중요한 것은 사용자 수와 수정 속도입니다. 쓰는 사람이 많으면 문제가 빨리 드러나고, 이슈가 빨리 모이고, 패치도 빨리 나옵니다. 최신 AI 도구의 끝단에 있다는 느낌도 있었지만, 결국 생태계는 사용자 규모가 만든다는 생각이 더 강하게 남았습니다.

DeepSWE에서 GPT가 잘 나온 것은 실제 개발자들의 평가와 꽤 맞아 보입니다. 코덱스 속도 저하 논란은 AI 코딩 도구가 이미 작업 루틴 안으로 깊게 들어왔다는 뜻이기도 합니다. 이제 개발자들은 모델 점수만 따로 보지 않습니다. 실제 작업에서 얼마나 빠르게 답하는지, 한도는 넉넉한지, 접속 환경에 따라 품질이 흔들리는지, 문제가 생겼을 때 얼마나 빨리 고쳐지는지도 함께 봅니다.

AI 코딩의 다음 라운드는 GPT-5.6과 Mythos, 혹은 다음 Opus의 비교가 될 수 있습니다. 새 모델이 나오면 다시 벤치마크가 올라오고, 개발자들은 자기 코드베이스에서 직접 써볼 겁니다. 점수는 여전히 중요하지만, 이제는 점수만으로 충분하지 않습니다. 코딩 AI가 실제 작업 도구가 된 만큼, 벤치마크와 체감 사이의 간격을 계속 확인해야 합니다.