로그인/ 가입하기

머스크, Grok3 공개: 여러 테스트에서 딥시크보다 뛰어난 성능으로 경쟁력 입증

2025/02/18 13:24

따르다

출처: AI Fanny

xAI는 오늘 차세대 대규모 언어 모델인 Grok-3와 그 라이트 버전인 Grok-3 mini를 발표했습니다. 최신 벤치마크에 따르면 Grok-3는 DeepSeek와의 직접 비교에서 상당한 우위를 보였습니다.

수학 적성 검사(AIME'24)에서 Grok-3는 52점을 기록하여 39점을 기록한 DeepSeek-V3를 크게 앞질렀습니다. 과학 지식 평가(GPQA)에서는 Grok-3가 75점을 얻어 DeepSeek-V3의 65점보다 앞섰습니다. 프로그래밍 역량 테스트(LCB 10월~2월)에서도 Grok-3는 57점으로 36점인 DeepSeek-V3를 크게 앞섰습니다.

이미지 src="https://img.jinse.cn/7349882_image3.png">

새롭게 발표된 AIME 2025 성능 테스트에서 Grok-3 추론 베타 버전은 종합 추론 및 계산 시간 점수에서 93점의 뛰어난 점수를 기록했습니다. 라이트 버전인 Grok-3 mini도 90점을 획득했습니다. 이에 비해 딥시크-R1은 75점, 제미니-2 플래시 씽킹은 54점에 불과했습니다. 이 결과는 복잡한 수학적 추론과 계산 효율성에서 Grok-3의 뛰어난 강점을 더욱 강조합니다.

특히, 최근 출시된 딥시크의 딥시크-R1은 다른 추론 능력 테스트에서는 Grok-3를 따라잡지 못했습니다. 수학적 추론에서 Grok. -3는 93점, DeepSeek-R1의 73점, 과학적 추론에서 Grok-3는 85점, DeepSeek-R1의 74점, 프로그래밍 추론에서 Grok-3는 79점을 기록해 DeepSeek-R1의 65점에 비해 크게 앞섰습니다.

이미지 src="https://img.jinse.cn/7349884_image3.png">

또한 LMSYS 챗봇 아레나 평가에서 Grok-3는 약 1400점을 획득하여 딥시크 제품군을 뛰어넘었을 뿐만 아니라 다른 주요 대형 모델보다 앞선 점수를 기록했습니다. GPT-4, Claude 등을 포함한 다른 대형 모델들을 제쳤습니다.

이미지 src="https://img.jinse.cn/7349885_image3.png">

이 데이터는 지난 몇 달 동안 DeepSeek가 보여준 강력한 모멘텀에도 불구하고 Grok-3의 전반적인 성능이 여전히 선두를 유지하고 있음을 보여줍니다. 특히 수학적 추론과 계산 효율성에서 우위가 더욱 뚜렷해져 모델 개발에서 xAI의 기술력을 반영할 뿐만 아니라 AI 분야의 치열한 경쟁 수준을 보여줍니다.

유익한 보고서를 통해 암호화 산업에 대한 더 넓은 이해를 얻고 비슷한 생각을 가진 다른 저자 및 독자와 심도 있는 토론에 참여하십시오. 성장하는 Coinlive 커뮤니티에 참여하실 수 있습니다.https://t.me/CoinliveSG

댓글 추가

로그인당신의 멋진 의견을 남겨주세요…

0 코멘트

가장 이른

더 많은 댓글 로드

실시간 업데이트

23시간 전
Bernstein Report Highlights Potential For Stablecoin Legislation In The U.S.
강세
약세
23시간 전
번스타인: 미국 규제 당국이 암호화폐 산업에 대한 탈은행화 조사를 강화할 것으로 전망
강세
약세
23시간 전
FOX 기자: 미국 증권거래위원회, 마감일이 다가오는 암호화폐 소송에 우선순위를 두고 있습니다.
강세
약세
23시간 전
Bernstein analysts see ‘perfect storm’ that could propel US stablecoin regulation in 2025
강세
약세
23시간 전
Shibarium Transactions Down 98%, Here's Impact on SHIB Price
강세
약세
23시간 전
이제 레이어제로가 모나드 베타 네트워크에 출시되었습니다!
강세
약세
23시간 전
Ethereum’s Transaction Costs Drop to Historic Lows —A Bullish Sign for the Future?
강세
약세
23시간 전
PEPE Faces Major Deleveraging Amid 42% Drop
강세
약세
23시간 전
Czech Central Bank Head: Bitcoin Should Not Be 'Lumped Together' With Other Cryptocurrencies
강세
약세
23시간 전
28,000 Bitcoin Enter Accumulation, BTC Price Rebound Ahead?
강세
약세

더

머스크, Grok3 공개: 여러 테스트에서 딥시크보다 뛰어난 성능으로 경쟁력 입증

실시간 업데이트

최신 뉴스

솔라나 기반 DePIN 프로토콜 안드레나, 탈중앙화 광대역 개발을 위해 1,800만 달러 확보: 인터넷 액세스에 혁명을 일으킬까요?

펌프닷펀의 고난도 멤코인 시장 살펴보기: 성공 또는 붕괴?

머스크-트럼프 인터뷰 지연으로 폴리마켓 베터가 100만 달러 이상의 수익을 올렸습니다: 머스크의 디도스 공격 주장은 거짓말인가?

엘살바도르, 16억 2천만 달러 투자 유치: 비트코인 시티가 마침내 모습을 드러낼까요? - 기대할 수 있는 것들은 다음과 같습니다.

TON 블록체인 게임 텔레버스, 100만 달러 투자 유치하고 웹3.0 게임 통해 블록체인 대중화 추진 목표

바운티 베이는 텔레그램 쇼핑의 미래인가? 톤 블록체인에서 $BBY 토큰과 에어드랍 포인트가 소셜 커머스 판도를 어떻게 바꿀 수 있는지 살펴보세요.

FBI는 사토시 나카모토의 신원을 알고 있을까요, 아니면 비트코인 창시자의 수수께끼는 여전히 베일에 싸여 있을까요?

조심하세요: 지갑을 비울 수 있는 텔레그램과 X에서 폭발적으로 증가하는 시바견 사기 - 이러한 함정에 빠지지 마세요.

레드디오, 레이어 2 확장을 위한 시드 라운드 펀딩 완료하고 월드 ID 통합을 위한 A라운드 펀딩 진행 중

전 톤 재단 리더들, 차세대 톤 블록체인 프로젝트 지원을 위한 4천만 달러 펀드 출시 - 텔레그램의 블록체인 미래를 변화시킬 수 있을까요?