출처: AI Fanny
xAI는 오늘 차세대 대규모 언어 모델인 Grok-3와 그 라이트 버전인 Grok-3 mini를 발표했습니다. 최신 벤치마크에 따르면 Grok-3는 DeepSeek와의 직접 비교에서 상당한 우위를 보였습니다.
수학 적성 검사(AIME'24)에서 Grok-3는 52점을 기록하여 39점을 기록한 DeepSeek-V3를 크게 앞질렀습니다. 과학 지식 평가(GPQA)에서는 Grok-3가 75점을 얻어 DeepSeek-V3의 65점보다 앞섰습니다. 프로그래밍 역량 테스트(LCB 10월~2월)에서도 Grok-3는 57점으로 36점인 DeepSeek-V3를 크게 앞섰습니다.
이미지 src="https://img.jinse.cn/7349882_image3.png">
새롭게 발표된 AIME 2025 성능 테스트에서 Grok-3 추론 베타 버전은 종합 추론 및 계산 시간 점수에서 93점의 뛰어난 점수를 기록했습니다. 라이트 버전인 Grok-3 mini도 90점을 획득했습니다. 이에 비해 딥시크-R1은 75점, 제미니-2 플래시 씽킹은 54점에 불과했습니다. 이 결과는 복잡한 수학적 추론과 계산 효율성에서 Grok-3의 뛰어난 강점을 더욱 강조합니다.
특히, 최근 출시된 딥시크의 딥시크-R1은 다른 추론 능력 테스트에서는 Grok-3를 따라잡지 못했습니다. 수학적 추론에서 Grok. -3는 93점, DeepSeek-R1의 73점, 과학적 추론에서 Grok-3는 85점, DeepSeek-R1의 74점, 프로그래밍 추론에서 Grok-3는 79점을 기록해 DeepSeek-R1의 65점에 비해 크게 앞섰습니다.
이미지 src="https://img.jinse.cn/7349884_image3.png">
또한 LMSYS 챗봇 아레나 평가에서 Grok-3는 약 1400점을 획득하여 딥시크 제품군을 뛰어넘었을 뿐만 아니라 다른 주요 대형 모델보다 앞선 점수를 기록했습니다. GPT-4, Claude 등을 포함한 다른 대형 모델들을 제쳤습니다.
이미지 src="https://img.jinse.cn/7349885_image3.png">
이 데이터는 지난 몇 달 동안 DeepSeek가 보여준 강력한 모멘텀에도 불구하고 Grok-3의 전반적인 성능이 여전히 선두를 유지하고 있음을 보여줍니다. 특히 수학적 추론과 계산 효율성에서 우위가 더욱 뚜렷해져 모델 개발에서 xAI의 기술력을 반영할 뿐만 아니라 AI 분야의 치열한 경쟁 수준을 보여줍니다.