滾動資訊

實測Grok 3：速度超群，數(shù)學出色，邏輯思考卻未及DeepSeek R1？

時間：2025-02-23 16:09 作者：馮璃月

近期，科技界迎來了一波新的震撼，人工智能領域的新星xAI公司推出了其旗艦產品——Grok 3大模型。這一發(fā)布迅速引起了廣泛關注，特別是當特斯拉CEO埃隆·馬斯克親自站臺，稱贊其為“地球上最聰明的人工智能”時，更是將其推上了輿論的風口浪尖。

據(jù)xAI官方公布的數(shù)據(jù)，Grok 3在多個基準測試中表現(xiàn)卓越，包括專門評估數(shù)學能力的AIME測試，以及衡量博士級別學科問題解答能力的GPQA測試。在這些測試中，Grok 3均大幅超越了GPT-4o、Gemini-2 Pro、DeepSeek V3、Claude 3.5等業(yè)界知名大模型。在大模型競技場Chatbot Arena（LMSYS）的測試中，早期版本的Grok 3也獲得了140分的高分，位居榜首。

然而，隨著用戶體驗的深入，一些質疑聲也隨之而來。部分用戶表示，Grok 3的實際表現(xiàn)并沒有馬斯克宣傳的那么神奇。OpenAI的應用研究主管Boris Power更是公開表達了對Grok團隊評估方法的失望，指責其存在作弊嫌疑，并指出o3-mini在各項評估中的表現(xiàn)均優(yōu)于Grok 3。

為了驗證真相，《每日經濟新聞》記者親自對Grok 3進行了測試。從基礎問題開始，如“9.9和9.11誰大”，Grok 3輕松給出了正確答案，展現(xiàn)了其強大的基本運算能力。但在面對更具挑戰(zhàn)性的邏輯思考和文字理解問題時，Grok 3的表現(xiàn)則略顯不足。例如，在解答一個涉及邏輯陷阱的問題時，Grok 3雖然答對了題目，但并未完全展現(xiàn)出其邏輯推理的優(yōu)越性，而DeepSeek R1則在此類問題上表現(xiàn)更佳。

在數(shù)學能力方面，Grok 3確實展現(xiàn)出了其強大的實力。在一道復雜的臺球局數(shù)計算問題中，Grok 3迅速給出了正確答案，且用時遠低于其他模型。然而，在更專業(yè)的數(shù)學問題，如群論問題的解答上，雖然Grok 3答對了最終答案，但在解題過程中出現(xiàn)了小錯誤，這表明其在數(shù)學領域的優(yōu)勢并非絕對。

在編程能力的測試中，Grok 3也展現(xiàn)出了不俗的實力。Kcores聯(lián)合創(chuàng)始人karminski-牙醫(yī)的測評結果顯示，Grok 3在模擬火星發(fā)射計劃的代碼計算中表現(xiàn)優(yōu)異，雖然最終動畫效果略有瑕疵，但整體軌道計算準確，綜合得分位居第一。然而，與第二名OpenAI的o1相比，兩者的得分差距并不大。

綜合所有測試來看，Grok 3無疑是一款世界頂尖的AI模型，其強大的運算能力、數(shù)學素養(yǎng)以及編程實力都令人印象深刻。然而，其實際表現(xiàn)并未像馬斯克宣傳的那樣遠超其他模型，特別是在邏輯思考和文字理解方面，仍有提升空間。盡管Grok 3的響應速度極快，但這并不足以彌補其在其他方面的不足。因此，對于馬斯克所宣稱的“地球上最聰明的人工智能”，或許還需要更多的時間和實踐來驗證。

更多>同類內容

企業(yè)應對職場“內卷”：強制下班，以人為本的新策略？

03-11

微信朋友圈大升級：5分鐘長視頻直接發(fā)，還有哪些新功能你不可不知？

03-11

蘋果2025年將推史上最大軟件革新，統(tǒng)一界面風格能否重振銷量？

03-11

吉利銀河翼真L380豪華MPV上市，29.99萬起售，配置豪華令人驚嘆！

03-10

美的強制18點20下班，真的在“反內卷”嗎？

03-10

吉利銀河翼真L380陸地空客MPV新上市，豪華配置引領MPV新風尚！

03-10

iPhone 17系列真容初現(xiàn)：設計大改，eSIM或成新驚喜？

03-10

歐洲央行支付系統(tǒng)故障，數(shù)字歐元計劃遭遇信任危機？

03-10

零跑B10預售開啟，10.98萬起全系智駕，性價比再創(chuàng)新高！

03-10

美的強制18點20下班，HR催下班反內卷？員工：部分事業(yè)部未收到通知

03-10

字節(jié)跳動豆包團隊開源MoE技術，大模型訓練效率飆升1.7倍

03-10

糖果大王徐福記易主，徐氏兄弟退出背后的市場變局

03-10

55歲程序員因在項目中植入惡意代碼致公司損失，或將入獄十年

03-10

泰航新規(guī)：3月15日起，充電寶全面禁上飛機！

03-10

啟辰全新大V DD-i虎鯨上市，限時權益價12.59萬元起

03-10

點擊查看更多 +

全站最新

蘋果Apple One高級訂閱海外升級，新增“邀請”與“美食”兩大特權

微信安卓8.0.57測試版來襲！主要優(yōu)化哪些已知問題？

小米人形機器人CyberOne量產計劃是謠言？官方這樣說

微信朋友圈大升級：5分鐘長視頻隨心分享！

GDC2025：EA揭秘死亡空間與鋼鐵俠游戲紋理創(chuàng)新技術

企業(yè)應對職場“內卷”：強制下班，以人為本的新策略？

熱門內容

本欄最新

企業(yè)應對職場“內卷”：強制下班，以人為本的新策略？

微信朋友圈大升級：5分鐘長視頻直接發(fā)，還有哪些新功能你不可不知？

蘋果2025年將推史上最大軟件革新，統(tǒng)一界面風格能否重振銷量？

吉利銀河翼真L380豪華MPV上市，29.99萬起售，配置豪華令人驚嘆！

吉利銀河翼真L380陸地空客MPV新上市，豪華配置引領MPV新風尚！

iPhone 17系列真容初現(xiàn)：設計大改，eSIM或成新驚喜？

網(wǎng)界 - 新財經新科技新未來 - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國 · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標，是該商標的唯一持有者，未經授本公司授權，嚴禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

實測Grok 3：速度超群，數(shù)學出色，邏輯思考卻未及DeepSeek R1？

實測Grok 3：速度超群，數(shù)學出色，邏輯思考卻未及DeepSeek R1？