클로드맥스 20X 사용자로서 약 4개월간 1,500회가 넘는 커밋으로 달려왔음(오퍼스 기반 멀티에이전트 오케스트레이션 개발환경)
여느때 처럼 새벽 세션을 진행하던 중 클로드코드 데스크탑에 알림 "OPUS 4.7 RELEASE! Try it~"
어? 4.6릴리즈도 겨우 2개월 밖에 안되었고 심지어 1M 컨텍스트 윈도우 초기 불안정성도 겨우 진정되어 가는데 갑자기 4.7??
그래도 그동안 앤스로픽의 패턴상 모델의 문제성을 빠르게 보완하니 뭔가 이유가 있겠지.. 바로 적용..
불과 15분쯤?? 그동안의 오퍼스와는 전혀 다른 감각.. 일단 말이 많아졌다. 나의 첫 피드백 " 너 제미나이 냄새가 난다?"
본인의 피드백은 구글의 제미나이를 폄하하려는 의도없슴. 다만 상대적으로 클로드 에이전트들은 구글의 제미나이에 비해 간결, 요약적으로 답변 태도가 일관적인 컨셉(상대적 개념). 단지 답변 패턴이 좀 달라졌나? 컨텍스트 자신감의 발로인가? 시간이 지날수록 나의 문제의식 및 사소한 의심들은 심각한 구조적 변화를 깨닫게 되었다.
사실 하루, 이틀.. 오퍼스 4.7과 작업을 하면서 릴리즈 초반 불안정성, 필터링 과정이라고 애써 불평을 유보하며 기존 4.6 1M 모델과의 조합을 시도.
약 10여일 이상 상태 체크... 이것은 모델의 성능 뿐아닌 태도의 문제라고 결론을 지을 수 밖에 없다.
클로드가 타 모델에 비해 가장 우위라고 판단했던 지점은 단지 벤치마크 수치가 아니다. 동급의 다른 모델들에 비해 프로젝트 컨텍스트 준수도가 뛰어나 에이전트간 협업이 가능한 유일한 모델이라는 것이 본인의 판단. 상대적으로 컨텍스트 윈도우 등 리소스 쿼터가 큰 제미나이나 GPT 에 비해 단일 세션의 용량은 부족하지만 claude.md / memory.md / rules / skills 등 사용자 기반의 컨텍스트 체계를 에이전트 스스로 얼마나 준수하며 프로젝트를 수행하는가는 가장 중요한 요소로서 팀웍의 핵심이다.
GPT는 잘 사용하지 않는 나로서는 구글 제미나이와 자주 비교하게 되는데, 제미나이는 단일 에이전트의 세션 컨텍스트 윈도우 용량이 2M에 달함을 자랑 포인트로 삼돼 구글의 세이프티 가드나 시스템 프롬프트에 순응하는 대신 사용자 지침 등은 쉽게 무시하는 경향이 이전부터 있었다. 이에 반해, 오퍼스 등 클로드 계열은 세션 시작시 자동 강제 로딩되는 claude.md 등 사용자 세팅이 매우 강하게 적용되어, 나는 헌법/법률/세부시행/스킬스 등의 체계로 멀티 오퍼스 CLI와 오케스트레이터, 클로드코드 데스크탑 등 여러 에이전트를 각 역할에 따라 배정하여 코딩 또는 업무를 협업하는 오퍼레이팅 시스템을 구축 가동하는데, 여기에 균열이 생기기 시작했다. 클로드 파일(내부적으로 헌법이라 칭함)을 4.7은 강제 규칙에서 참고 정도로 격하시키기 시작했다. 세션로그 규칙, 에이전트간의 지시, 보고 체계 등 협업에 필수적인 요소들을 정리한 규칙을 매턴 망각한다. 그 지점을 지적하면 기존 규칙에 있지도 않은 피드백.md라는 문서를 스스로 생성하고 다음 턴, 다음 세션엔 반드시 지키겠노라 다짐하지만 다음 턴에 또다시 같은 실수를 반복. 이것은 당연하다. 메인 로딩되는 claude.md도 못지키는데 피드백이라고 만든 스스로의 반성, 규칙을 지킬리가 없고 100% 재오류를 범한다.
나는 너무나 의심스럽다. 4.7이 진정 OPUS가 맞는지... 4.5~4.6 릴리즈의 메인 이슈는 컨텍스트 윈도우 200K에서 1M로의 진화였다.
세부 수치가 어쩌고 하는 것에 나는 크게 반응하지 않는다. 주어진 임무를 끝까지 수행하는가, 자신의 처리내용을 정확히 기록으로 남기는가, 팩트기반으로 정확히 수행업무를 보고하는가, 에이전트간 소통과 상호 교차 검증이 제대로 이루어 지는가가 핵심이라고 생각한다. 이 면에서 오퍼스 4.7은 이제 확실히 말할 수 있다.
실패!!
오퍼스 4.7 도대체 무엇이 문제인가?(클로드맥스 20X 사용자)
