딥마인드 신무기 연속 공개: 알레테이아부터 제미나이 3.1 프리뷰까지
구글 딥마인드가 수학 연구 에이전트 '알레테이아'를 공개했다. 에르되시 미해결 문제 13개를 해결하고, 제미나이 3가 벤치마크 1위를 석권하는 가운데 3.1 프리뷰까지 포착됐다. 딥마인드 2월 소식을 총정리한다.
구글 딥마인드가 2월 11일, 수학 연구 전용 AI 에이전트 '알레테이아(Aletheia)'를 공개했다. 고대 그리스어로 '진리'를 뜻하는 이 에이전트는 에르되시가 남긴 미해결 문제 약 700개 중 13개에 의미 있는 해답을 내놓으며 단숨에 주목을 받은 모양새다. 같은 날 제미나이 3가 주요 벤치마크를 석권하고 있다는 소식과 함께, 아직 3.0 정식 출시도 되지 않은 상황에서 3.1 프리뷰까지 포착되면서 딥마인드 뉴스가 한꺼번에 쏟아진 하루였다.
1. 알레테이아, AI가 수학 난제를 푸는 방법
알레테이아는 제미나이 딥씽크(Deep Think) 모드 위에 구축된 맞춤형 수학 연구 에이전트라고 한다. 단순히 답을 내놓는 게 아니라, 세 단계의 반복 과정을 거치는 구조로 보인다. 먼저 Generator가 후보 해법을 대량으로 생성하고, Verifier가 자연어 기반으로 각 해법의 오류를 찾아낸다. 살아남은 해법은 Reviser가 다듬어 증명을 완성하는 방식이다. 이 과정을 수십 번씩 반복하는데, 핵심은 '실패를 인정하는 능력'으로 보인다. 풀 수 없는 문제에는 솔직하게 '못 풀겠다'고 보고한다고 한다.
구글 검색과 웹 브라우징까지 활용해 기존 문헌을 직접 확인하기 때문에, AI가 존재하지 않는 논문을 인용하는 허위 인용(hallucination) 문제도 크게 줄었다고 한다. 딥마인드는 알레테이아를 발표하면서 동시에 두 편의 논문을 공개해 기술적 검증을 함께 제시하기도 했다.
2. 에르되시 미해결 문제 13개, 그 성과의 실체
딥마인드는 에르되시가 남긴 약 700개의 미해결 문제를 알레테이아에 던졌다고 한다. 알레테이아는 200개 문제에 대해 해답을 주장했고, 수학자들의 분석을 거쳐 최종적으로 13개가 의미 있는 결과로 인정받았다. 이 중 5개는 완전히 새로운 자율 해법이었다고 한다. 인간의 도움 없이 AI가 처음부터 끝까지 독자적으로 증명을 완성한 셈이다. 나머지 8개는 기존 문헌에서 이전에 발표된 풀이를 찾아낸 경우로 알려져 있다.
특히 에르되시-1051번 문제는 알레테이아가 완전히 자율적으로 해결한 대표 사례로 꼽히고 있다. IMO-ProofBench Advanced에서는 91.9%를 기록했다고 한다. 딥마인드는 여기서 멈추지 않고 물리학과 컴퓨터 과학으로 영역을 넓히고 있는 것으로 보이는데, 이미 Max-Cut 문제 해결, 10년 된 추측 반증, 우주 끈(cosmic string) 물리학에서 새로운 해석해 발견 등의 성과를 보고한 바 있다.
3. 수학자들의 평가, 13개 해답의 무게
알레테이아의 결과물에 대해 검증에 참여한 수학자들의 반응도 공개됐다. 고등과학원의 김상현 교수는 연합뉴스 인터뷰에서 "5~6개는 참신한 해답"이라고 평가하면서, "그런 수준의 전문가가 전 세계에 10명도 안 된다"고 알레테이아의 역량을 높이 산 것으로 전해진다. 브라운대의 정준혁 교수도 검증 작업에 참여한 것으로 알려져 있다.
김상현 교수가 남긴 또 하나의 코멘트도 눈에 띈다. "수학자들이 AI에 기대하는 것은 정답이 아니라, 인간이 생각하지 못한 길을 가보라고 속삭여 주는 것이다." AI를 수학자의 대체재가 아닌, 새로운 방향을 제시하는 도구로 바라보는 시각이 담긴 발언이었다.
4. 제미나이 3, 벤치마크 전면 석권
알레테이아의 기반이 되는 제미나이 3도 범용 모델로서 압도적인 성적을 보여주고 있는 상황이다. 제미나이 3 프로는 LMArena에서 Elo 1501로 전체 1위, GPQA Diamond 91.9%, SWE-bench Verified 76.2%, WebDev Arena에서도 1487 Elo로 1위를 기록한 것으로 나타났다. 딥씽크 모드는 Humanity's Last Exam에서 41.0%, GPQA Diamond에서 93.8%를 찍었다고 한다.
더 흥미로운 건 제미나이 3 플래시일 수 있다. 프로급 추론 능력에 플래시급 효율을 결합한 것으로 보이는데, SWE-Bench에서 78%를 기록해 오히려 프로(76.2%)를 능가한 모양이다. 가격은 프로의 4분의 1 수준이라고 한다. 1월 27일에 추가된 Agentic Vision 기능으로 이미지를 능동적으로 탐색하는 것도 가능해진 것으로 전해진다. 여기에 제미나이 3 기반의 에이전틱 개발 플랫폼 'Google Antigravity'까지 발표되면서 생태계 확장도 본격화하는 분위기다.
5. 제미나이 3.1 프리뷰 포착, 3.0 GA도 안 나왔는데
같은 2월 11일, Artificial Analysis Arena에 'Gemini 3.1 Pro Preview'가 별다른 공지 없이 등장한 것으로 확인됐다. 공식 발표는 아니지만 외부 벤치마크 플랫폼에 올라온 만큼 '신뢰할 만한 단서(credible breadcrumb)' 수준으로 받아들여지고 있는 듯하다. 제미나이 3.0의 정식 출시(GA)조차 아직인 상황에서 3.1이 이미 외부 테스트를 돌고 있다는 사실이 커뮤니티를 놀라게 한 것으로 보인다.
구글의 로건 킬패트릭은 GA가 나오면 성능이 더 올라갈 것이라고 암시했고, 커뮤니티에서는 'GA 출시 시 3.5급 점프가 가능하다'는 관측까지 나오고 있다. 프리뷰만으로 벤치마크 1위를 차지한 상태에서 GA와 3.1까지 동시에 준비하고 있는 셈이다.
6. Project Genie와 하사비스의 AI 르네상스 예측
딥마인드의 최근 행보는 알레테이아와 제미나이만이 아닌 것으로 보인다. 1월 29일에 공개된 Project Genie는 Genie 3 기반으로 텍스트나 이미지에서 인터랙티브 3D 세계를 실시간으로 생성하는 기술이라고 한다. AI Ultra 구독자(월 250달러) 대상으로 제공되는데, 발표 직후 유니티 주가가 21.6%, 로블록스가 12.3% 급락하면서 게임 업계에 직접적인 충격파를 던진 셈이다.
같은 날 Fortune 인터뷰에서 데미스 하사비스 CEO는 "10~15년 내 새로운 르네상스가 올 것"이라고 예측했다. 그가 말하는 '급진적 풍요(radical abundance)'의 시대란, AI가 과학적 발견을 가속화하면서 인류 전체의 생산성이 근본적으로 달라지는 미래를 뜻하는 것으로 풀이된다. 다만 그 르네상스를 향해 달리고 있는 건 딥마인드만이 아니다.
마치며: AI 패권 경쟁 심화
OpenAI는 GPT-5 시리즈로 추론과 코딩을 밀어붙이고 있고, 앤트로픽은 클로드 오푸스 4.6으로 에이전트 시장을 공략하고 있다. 세 회사 모두 2월 안에 새 카드를 꺼낸 셈이다.
AI 업계의 발표 주기가 갈수록 짧아지고 있고, 잠시 조용했던 딥마인드까지 알레테이아와 제미나이 3.1을 같은 날 들고 나오면서 그 속도가 한층 더 빨라진 모양새다.
- Google DeepMind - Accelerating mathematical and scientific discovery with Gemini Deep Think
- Artificial Analysis - LLM Leaderboard
- The Verge - Google DeepMind's Aletheia solves unsolved math problems
- Google - Gemini 3 Model Card
- Fortune - Demis Hassabis predicts AI Renaissance and radical abundance
- 연합뉴스 - 한국 수학자, 딥마인드 알레테이아 검증 참여