"출시 때만 똑똑하다?" AI 모델 의도적 성능 저하 의혹

AI2026년 3월 10일

GPT-5.4와 Gemini 3.1에서 동시에 의도적 성능 저하 의혹이 터졌다. Gemini는 추론 강도를 절반으로 제한하고, GPT-5.4는 출시 4일 만에 통과율이 8%p 하락했다. 성능이 변했다면, 왜 알려주지 않았는가?

2026년 3월, AI 업계 양대 모델에서 동시에 성능 저하 의혹이 터졌다. 구글의 Gemini 3.1은 숨겨진 시스템 프롬프트로 추론 강도를 0.5로 제한하고 있다는 폭로가 나왔고, 오픈AI의 GPT-5.4는 출시 4일 만에 통과율이 58%에서 50%로 떨어지는 모습이 포착됐다. "루머일 뿐"이라 넘기기엔, 패턴이 너무 익숙하다.

AI 모델을 조용히 너프한다는 의혹, 이른바 '조용한 성능 하향'은 업계의 오래된 떡밥이다. 하지만 이번에는 구체적인 데이터와 독립 검증까지 나오면서, 단순 음모론을 넘어 소비자 권익 문제로 번지고 있다.

1. Gemini 3.1 성능 저하 의혹: 생각을 덜 하도록 지시하고 있다

Gemini 추론 강도 0.5 설정 폭로 트윗 스크린샷 — @chetaslua의 폭로 — Gemini의 숨겨진 시스템 프롬프트에서 추론 강도를 0.5로 설정하는 지시가 발견됐다

논란의 시작은 @chetaslua의 폭로였다. Gemini 3.1의 숨겨진 시스템 프롬프트에서 추론 강도를 0.5로 설정하는 지시가 발견됐다는 것이다. Pro 모델과 커스텀 젬에 일괄 적용되고 있었고, 캔버스 모드만 예외였다.

처음에는 "AI가 헛소리한 것"이라며 할루시네이션 취급하는 반응이 대부분이었다. 하지만 여러 사용자가 독립적으로 테스트한 결과 같은 패턴이 반복 관찰되면서, 의혹에 힘이 실렸다. 이전 버전인 Gemini 3.0 Pro에서도 캔버스 외 모드에서 추론이 "1~2개의 극짧은 단락"만 뱉어내는 버그가 확인된 바 있다.

구글의 Gemini 사고 수준 시스템은 LOW(1K 토큰), MEDIUM(8K 토큰), HIGH(24K 토큰)로 나뉜다. 의혹의 핵심은 간단하다. 사용자가 앱에서 HIGH를 골라도, 실제로는 그보다 낮은 수준으로 돌아간다는 것. 구글은 아직 공식 반응을 내놓지 않고 있다.

2. GPT-5.4 성능 저하 의혹: 출시 때만 반짝, 그 후 하락

마진랩 Codex 히스토리컬 퍼포먼스 트래커 그래프 — 마진랩 Codex 성능 트래커 — GPT-5.4-xhigh 통과율이 출시 4일 만에 58%에서 50%로 하락

GPT-5.4도 비슷한 흐름이다. 마진랩의 Codex 성능 트래커에 따르면, GPT-5.4-xhigh의 통과율은 3월 6일 58.0%에서 3월 9일 50.0%로 불과 4일 만에 8%p 하락했다. 통계적 유의성이 충분한 수준은 아니지만, 하락 방향 자체가 불안감을 키우고 있다.

더 충격적인 건 오픈AI의 "주스" 시스템 폭로다. @chetaslua에 따르면 추론 강도의 내부 명칭이 "주스"이며, 구독 등급별로 차등 지급된다. API 사용자 200, Pro($200) 구독자 128, Plus 구독자 64, 무료 사용자는 그 이하. 돈을 많이 낼수록 AI가 더 열심히 생각해준다는 구조다.

Codex가 무료로 풀리면서 20만 명의 신규 유저가 한꺼번에 몰렸는데, 이 시점에 맞춰 전 구독 등급의 추론 강도가 절반으로 깎였다는 의혹도 나왔다. GPT-5.2에서도 xhigh 요청이 Codex로 빠지고 있다는 의혹이 GitHub Issue #10438에서 논의된 바 있다.

3. AI 성능 저하 반복 패턴: 과거에도 있었다

이번이 처음이 아니다. 2023년 GPT-4 "Lazy" 사건 때 11월 업데이트 이후 성능이 눈에 띄게 떨어졌고, 오픈AI가 이를 공식 인정했다. 같은 해 스탠포드와 UC 버클리의 공동 연구는 GPT-4의 수학 정확도가 97.6%에서 2.4%로, 코드 실행률이 52%에서 10%로 급락한 사실을 학술적으로 검증해냈다.

2024년에는 GPT-4o에서 품질 저하가 터져 오픈AI가 롤백하고 '과잉 동조' 문제를 인정했다. 엔트로픽도 2025년에 인프라 버그 3건으로 Claude 성능이 저하된 적이 있지만, 공식 포스트모템을 공개한 유일한 기업이라는 점에서 차이가 있다.

패턴은 늘 같다. 출시 직후에는 칭찬이 쏟아지고, 어느 순간 조용히 변경이 이루어지고, 커뮤니티가 반발하면 그제야 (가끔) 인정하는 순서. 문제는 이 사이클 내내 사용자에게 사전 고지가 거의 없다는 것이다.

4. AI 추론 비용 구조: 왜 성능을 줄이는가

성능을 왜 줄이느냐고? 답은 돈이다. AI 추론에서 추론 토큰은 출력 토큰으로 과금되기 때문에, 추론을 줄이면 서버 비용이 곧바로 절감된다. 사용자가 눈치채지 못할 정도로 추론을 조금씩 줄이는 것은 기업 입장에서 달콤한 유혹이다.

기술적 수단도 다양하다. 양자화(FP32에서 INT8로 정밀도 축소), 지식 증류(대형 모델을 소형으로 압축), 전문가 혼합(MoE, 전문가 일부만 활성화), 모델 라우팅(요청에 따라 다른 모델로 분배) 등이 대표적이다.

a16z에 따르면 대규모 언어 모델 추론 비용은 매년 동등 성능 기준 10배씩 떨어지고 있다. 그런데 사용자가 워낙 빠르게 늘어나면서 총비용은 오히려 증가하는 추세다. '조용한 성능 하향' 이론의 핵심이 바로 여기에 있다. 사용자 모르게 모델을 미세조정해서 비용을 관리한다는 것이다.

5. 소비자 권익과 AI 투명성: 알 권리가 있다

SaaS 업계에서는 SLA로 성능을 보장하는 게 기본이다. 약속한 가동률을 못 맞추면 크레딧을 돌려주고, 기능이 바뀌면 미리 알려준다. 그런데 AI 서비스에서는 "모델이 바뀌면 알려준다"는 약속 자체가 아직 없다.

UDAP(불공정 거래 관행) 법률을 적용할 수도 있겠지만, AI에 특화된 소비자 보호 규정은 전 세계적으로 미비하다. 같은 돈을 내고 더 낮은 성능을 받는다면 소비자 기만 아닌가. ChatGPT Pro 월 $200, Plus 월 $20을 내는 사용자들이 가입 당시와 다른 수준의 서비스를 받고 있다면 문제다.

이 와중에 엔트로픽만이 유일하게 성능 저하 발생 시 포스트모템을 공개해왔다. 2025년 Claude의 인프라 버그 3건에 대해 원인 분석과 해결 과정을 투명하게 밝혔다. 다른 기업들에게도 이 수준의 투명성이 요구된다.

마치며: 루머보다 중요한 질문, 왜 알려주지 않았는가

AI 모델의 성능은 "고정된 상품"이 아니라 "흘러가는 서비스"다. 전통적인 소프트웨어와 달리 AI 모델은 서버 쪽에서 언제든 바뀔 수 있고, 사용자는 이를 알아차리기 어렵다. 이번 GPT-5.4와 Gemini 3.1의 성능 저하 의혹이 루머인지 사실인지는 아직 결론이 나지 않았다.

하지만 그보다 중요한 질문이 있다. 만약 성능이 바뀌었다면, 왜 알려주지 않았는가? 사용자는 자신이 돈을 내고 쓰는 서비스의 품질 변화에 대해 알 권리가 있다. 업계에 필요한 것은 분명하다. 성능 변경에 대한 투명성, 독립적인 모니터링 체계, 그리고 소비자 고지 의무. AI가 일상과 업무에 깊이 파고들수록, 이 문제는 더 이상 미룰 수 없다.

참고 자료

‹ 이전 목록 다음 ›