亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財經媒體
科技·商業(yè)·財經

Grok 3遭遇“滑鐵盧”,連9.11和9.9大小都分不清?馬斯克承諾日更改進

   時間:2025-02-19 15:57 來源:齊魯晚報·齊魯壹點作者:江紫萱

近日,科技界巨頭馬斯克攜其xAI團隊,在一場備受矚目的直播活動中,隆重推出了備受期待的人工智能系統(tǒng)Grok 3。此前,馬斯克通過一系列預熱活動,已將公眾對Grok 3的期待值推至頂峰。

然而,在發(fā)布會上,馬斯克雖宣稱Grok 3在數學、科學與編程領域的基準測試中超越了所有主流模型,并計劃將其應用于SpaceX的火星任務計算,甚至預測其將在未來三年內取得諾貝爾獎級別的突破,但隨后的實際測試卻暴露了一些問題。

發(fā)布會結束后,部分媒體對Grok 3的Beta版進行了測試,并提出了一個經典難題:“9.11與9.9哪個大?”令人驚訝的是,這個被譽為“地球上最聰明的人工智能”的Grok 3,竟未能正確回答這一問題,引發(fā)了網友們的調侃,戲稱其為“天才不屑于回答簡單問題”。

據相關報道,記者針對此問題測試了包括阿里通義千問、百度文心一言在內的12個大模型。結果顯示,阿里通義千問、百度文心一言、Minimax和騰訊元寶給出了正確答案,而ChatGPT-4o、字節(jié)豆包、月之暗面kimi等多個大模型均回答錯誤,且錯誤方式各不相同。值得注意的是,即便是在限定了數學語境的情況下,部分大模型如ChatGPT仍未能給出正確答案。

業(yè)內人士指出,大模型在數學能力上的欠缺是一個長期存在的問題。由于生成式語言模型的設計更偏向于文科思維,而非理科邏輯,這在一定程度上限制了其在數學領域的表現。不過,也有觀點認為,通過針對性的語料訓練,未來有望逐步提高模型的理科能力。

在xAI發(fā)布會直播中,當Grok 3被用來分析游戲《流放之路 2》的職業(yè)與升華效果時,也暴露出了大量錯誤答案。令人驚訝的是,即便是這些明顯的錯誤,馬斯克也未能及時發(fā)現。

面對這些質疑,馬斯克在社交媒體上迅速回應,表示“Grok 3版本本周每天都會進行快速改進”,并誠邀用戶反饋使用過程中遇到的問題。這一態(tài)度顯示了馬斯克對于Grok 3發(fā)展的重視,也體現了他對于用戶反饋的珍視。

盡管Grok 3在發(fā)布初期遭遇了一些挫折,但馬斯克的積極回應和持續(xù)改進的承諾,無疑為這一項目的未來發(fā)展注入了新的活力。公眾對于Grok 3的期待并未因此減少,反而更加關注其后續(xù)的改進和優(yōu)化。

 
 
更多>同類內容
全站最新
熱門內容