그록 4.20 출시, 멀티에이전트는 신선하지만 성능 점프는 없다
xAI가 그록 4.20을 베타 출시했다. 4개의 전문 에이전트가 협업하는 멀티에이전트 아키텍처가 핵심이지만, 벤치마크 성능 도약은 확인되지 않아 기대에 못 미친다는 평가가 나온다.
xAI가 그록 4.20을 베타로 출시했다. 머스크가 직접 '4.20'이라 명명한 이 모델은 여러 차례 출시 지연 끝에 2026년 2월 중순 공개됐다. 핵심 변화는 단일 모델 구조에서 4개 전문 에이전트가 협업하는 멀티에이전트 아키텍처로의 전환이다.
아키텍처 혁신이라는 점에서 신선하지만, 공식 벤치마크가 공개되지 않았고 체감 성능 향상도 제한적이라는 반응이 이어지고 있다. GPT-5, 클로드, 제미나이가 치열하게 경쟁하는 시점에서 그록 4.20은 어떤 위치를 차지할 수 있을까.
1. 그록 4.20 멀티에이전트 시스템, 4개 에이전트 협업 구조
그록 4.20의 가장 큰 특징은 4개의 전문 에이전트가 동시에 작동하는 멀티에이전트 아키텍처다. 기존 그록이 하나의 모델로 모든 요청을 처리했다면, 이제는 역할이 분리된 에이전트들이 병렬로 작업한 뒤 결과를 통합한다.
4개 에이전트의 구성은 다음과 같다. 그록(Grok)이 대화 흐름을 조정하는 메인 에이전트 역할을 맡고, 하퍼(Harper)가 리서치와 팩트체크를, 벤자민(Benjamin)이 수학/코딩/논리 추론을, 루카스(Lucas)가 창작과 다양한 관점 제시를 담당한다. 각 에이전트가 동시에 작업한 뒤 내부 피어 리뷰를 거쳐 최종 응답을 생성하는 구조다.
접근법 자체는 흥미롭다. 단일 모델의 한계를 아키텍처로 극복하겠다는 발상이고, 피어 리뷰 메커니즘으로 환각(hallucination) 문제를 줄이려는 시도도 읽힌다. 다만 멀티에이전트가 실제 결과물의 품질을 얼마나 끌어올리는지는 아직 검증이 필요하다.
2. 벤치마크 부재, 성능 향상의 증거가 없다
그록 4.20의 가장 큰 약점은 공식 벤치마크가 없다는 점이다. xAI는 이번 출시에서 구체적인 성능 수치를 공개하지 않았다. 경쟁사들이 새 모델을 내놓을 때마다 상세한 벤치마크를 함께 발표하는 것과 대조적이다.
부분적인 성과로는 알파 아레나(Alpha Arena) 주식 트레이딩 시뮬레이션에서 +12.11% 수익률을 기록해 GPT-5.1, 제미나이 3 프로, 클로드 3.5 소네트를 앞섰다는 결과가 있다. 하지만 이는 매우 특정한 도메인의 테스트이고, 범용 AI 능력을 대변하기 어렵다.
머스크 본인도 코딩 분야에서는 클로드에 뒤처진다는 점을 인정했다. 결국 그록 4.20은 기존 모델 대비 파라미터 증가나 학습 데이터 확대를 통한 성능 도약이 아니라, 아키텍처 변경에 방점을 찍은 업데이트다. '4.20'이라는 버전 넘버링이 기대하게 만드는 것만큼의 실질적 진보가 있는지 의문이 남는다.
3. 슈퍼그록 구독과 200만 토큰 컨텍스트
그록 4.20은 슈퍼그록(SuperGrok) 구독(약 월 30달러)을 통해 이용할 수 있다. 프리미엄 모델인 그록 4 헤비는 월 300달러다. iOS, 안드로이드, 웹에서 동시에 사용 가능하며, 200만 토큰의 컨텍스트 윈도우를 지원한다.
200만 토큰 컨텍스트는 경쟁력 있는 스펙이다. X(구 트위터)의 파이어호스 데이터를 활용한 실시간 정보 접근도 그록만의 차별점이다. 하지만 이런 부가 기능들은 이전 버전에서도 있던 것이고, 4.20에서 새로 추가된 것은 멀티에이전트 구조가 거의 전부다.
현재 베타 상태로 출시됐으며, 정식 안정 버전의 일정은 발표되지 않았다. API 가격도 그록 4 기준(입력 3달러/MTok, 출력 15달러/MTok)만 공개된 상태로, 4.20 전용 가격은 아직 미정이다.
마치며: 아키텍처 혁신만으로는 부족하다
그록 4.20의 멀티에이전트 아키텍처는 AI 모델 설계에 새로운 시도를 보여준다. 4개 전문 에이전트의 협업이라는 컨셉은 분명 흥미롭고, 장기적으로 가능성이 있는 방향이다.
하지만 지금 당장의 결과물은 기대에 미치지 못한다. 공식 벤치마크 없이 '혁신적 아키텍처'만을 내세우는 것은 설득력이 부족하다. GPT-5, 클로드 오퍼스, 제미나이가 눈에 보이는 성능 향상을 계속 보여주는 가운데, 그록 4.20은 아이디어는 좋지만 증명은 아직이라는 인상을 남긴다. 멀티에이전트라는 무기가 진짜 위력을 발휘하려면, 숫자로 보여줄 차례다.