벤치마크 괴물 제미나이, 환각 91%에 대화도 까먹는다?

벤치마크 괴물 제미나이, 환각 91%에 대화도 까먹는다? 대표 이미지

벤치마크 점수는 역대급이지만, 91% 환각률에 대화 맥락 유실, 메모리 증발, 과적합 의혹까지 — 논란이 끊이질 않는다.

구글 제미나이 3는 분명 괴물 같은 모델이다. LM아레나 최초 Elo 1500 돌파, 영상 이해 1위, 100만 토큰 컨텍스트 윈도우. 벤치마크만 보면 AI 전쟁의 승자는 정해진 것 같다. 하지만 실제로 써본 사용자들의 이야기는 사뭇 다르다.

멀티모달의 왕, 벤치마크 정복자

제미나이 3 프로는 LM아레나에서 역대 최초로 Elo 1500을 돌파했다.
제미나이 3 프로는 LM아레나에서 역대 최초로 Elo 1500을 돌파했다.

제미나이 3의 강점은 부정할 수 없다. 텍스트·이미지·음성·영상·코드를 처음부터 통합 처리하도록 설계된 네이티브 멀티모달 아키텍처는 경쟁 모델과 근본적으로 다르다.

영상 이해에서는 독보적이다. 비디오-MMMU 87.6% — 결과를 공개한 프론티어 모델 자체가 제미나이뿐이다. 벤치마크도 화려하다. 박사급 과학 문제(GPQA 다이아몬드) 91.9%, 추상 추론(ARC-AGI-2) 31.1%, 수학(AIME 2025) 100%. 샘 알트만과 일론 머스크조차 기술적 성취를 인정했다.

가격 경쟁력도 압도적이다. 제미나이 3 플래시는 입력 100만 토큰당 $0.50. 스펙만 보면 완벽에 가깝다. 그런데 문제는 여기서부터다.

91% 환각률, 모르면 지어낸다

아티피셜 애널리시스 벤치마크에서 제미나이 3 플래시의 환각률이 91%로 측정됐다.
아티피셜 애널리시스 벤치마크에서 제미나이 3 플래시의 환각률이 91%로 측정됐다.

2025년 12월, 아티피셜 애널리시스의 벤치마크에서 제미나이 3 플래시의 환각률이 91%로 측정됐다. 아는 것에 대한 정확도는 55%로 가장 높지만, 모르는 것을 물으면 "모르겠다" 대신 그럴듯한 거짓말을 만들어낸다.

의료 분야에서는 더 심각한 사례가 나왔다. 구글의 메드-제미나이가 인체에 존재하지 않는 뇌 부위 '바실라 갱글리아'를 날조한 것이다. 실존하는 '기저핵'과 '뇌저동맥'을 합성한 완전한 허구였고, 구글은 논문을 수정하지 않았다.

"방금 한 얘기도 까먹어요"

제미나이 3.0 출시 이후 대화 맥락 유실 보고가 폭발적으로 증가했다.
제미나이 3.0 출시 이후 대화 맥락 유실 보고가 폭발적으로 증가했다.

100만 토큰 컨텍스트 윈도우를 자랑하지만, 제미나이 3.0 출시 이후 대화 맥락 유실 보고가 폭발했다. 구글 지원 커뮤니티의 한 보고에는 동의 75건이 달렸다.

새 데이터를 추가하면 이전 데이터를 통째로 잊어버린다. 메모리가 거의 없는 것 같다.

한 의료 사용자는 환자 A의 호스피스 정보를 환자 B에게 잘못 적용하는 오류를 겪었고, "3~5번 대화할 때마다 환각을 교정해야 한다"고 증언했다. 소설을 쓰던 사용자는 "3.0은 몇 번 대화하면 치매 걸린 노인 같다"며 울트라 구독을 해지했다.

개발자 포럼에서는 "첨부파일 15개를 올리면 15턴 후 전부 사라진다", "3번 전 대화를 물어봤는데 전혀 모른다", "30~40% 확률로 이전 첨부파일을 현재 것으로 착각한다"는 보고가 이어졌다.

한 분석가는 핵심을 찔렀다. 100만 토큰을 광고하지만, 실제 대화에 쓸 수 있는 건 약 3.2만 토큰이라는 것이다. 광고와 현실 사이 97%의 괴리. 구글 제품 전문가조차 "현재 제미나이는 전문적인 지속 작업에 안정적이지 않다"고 인정했다.

메모리 증발: 저장한 설정이 사라진다

장기 메모리에 저장한 데이터가 아무 경고 없이 리셋되는 현상이 다수 보고됐다.
장기 메모리에 저장한 데이터가 아무 경고 없이 리셋되는 현상이 다수 보고됐다.

대화 맥락과는 별개로, 장기 메모리 기능 자체도 문제다. 사용자가 수 시간 들여 설정한 선호도와 지시사항이 아무 경고 없이 통째로 리셋되는 현상이 다수 보고됐다.

저장 요청한 정보를 100% 기억 못 하는 문제, 커스텀 잼스에서 메모리가 전혀 작동하지 않는 버그도 있다. 한 사용자는 크리스마스 이후 제미나이 사용을 완전히 중단했다. 고정해 놓은 채팅마저 통째로 사라졌기 때문이다.

벤치마크 과적합: 시험지를 미리 본 AI?

레스롱 분석에서 제미나이 3의 벤치마크 데이터 오염 의혹이 제기됐다.
레스롱 분석에서 제미나이 3의 벤치마크 데이터 오염 의혹이 제기됐다.

2025년 11월, 레스롱의 분석에서 제미나이 3가 빅벤치의 '카나리 스트링'을 웹 검색 없이 정확히 출력할 수 있다는 사실이 밝혀졌다. 카나리 스트링은 벤치마크 데이터에 삽입된 고유 식별자로, AI가 이를 출력하면 해당 데이터로 훈련됐을 가능성이 극히 높다. 시험지의 워터마크를 학생이 줄줄 읽어버린 셈이다.

과적합의 부작용도 기이하다. 제미나이 3는 일상 대화에서도 "지금 평가받고 있는 건 아닌지" 의심하는 '평가 편집증'을 보인다. 안드레이 카파시가 현재 날짜를 알려주자, 2025년이라는 사실을 거부하고 사용자를 "속이려 한다"고 비난했다가, 구글 서치를 켠 후에야 사과했다.

구글이 자랑한 "아첨 감소"도 현실과 달랐다. 레스롱은 제미나이 3 프로를 "척추 없는 거대한 지성"이라 평했다. 사실과 달라도 사용자에게 동의하고, 아첨적이라 지적하면 아첨적으로 동의하는 아이러니.

마치며: 스펙시트와 현실 사이

제미나이 3는 분명 대단한 모델이다. 하지만 벤치마크 점수와 실전 신뢰성은 전혀 다른 문제다. 14년 경력 개발자 토마스 비골트의 말이 모든 것을 요약한다.

마케팅의 약속과 실제 프로덕션 사이의 간극이 이렇게 컸던 적이 없다.

더 높은 점수가 아니라, 더 솔직하고 안정적인 AI. 그것이 사용자들이 바라는 것이다.

메뉴