近期,科技界迎來了一場備受矚目的盛事——馬斯克攜其xAI團隊通過一場直播活動,正式揭曉了備受期待的Grok 3人工智能模型。在此之前,馬斯克通過一系列預(yù)熱宣傳,已經(jīng)將Grok 3的神秘面紗撩撥得令人心癢難耐,公眾對其的期待值達到了前所未有的高度。
然而,在這場萬眾矚目的發(fā)布會上,馬斯克宣稱Grok 3在數(shù)學(xué)、科學(xué)與編程領(lǐng)域的基準(zhǔn)測試中超越了所有主流模型,甚至雄心勃勃地計劃將其應(yīng)用于SpaceX的火星任務(wù)計算,并預(yù)測未來三年內(nèi)將帶來諾貝爾獎級別的科學(xué)突破。這一系列豪言壯語,無疑將Grok 3推向了神壇。
遺憾的是,Grok 3的實際表現(xiàn)卻與馬斯克的豪言壯語大相徑庭。發(fā)布后不久,一些媒體便對Grok 3的Beta版進行了測試,結(jié)果卻令人大跌眼鏡。面對一個經(jīng)典的大模型刁難問題——“9.11與9.9哪個大?”,號稱目前最聰明的Grok 3竟然無法給出正確答案,這一尷尬表現(xiàn)迅速在網(wǎng)絡(luò)上引發(fā)了熱議,網(wǎng)友戲稱其為“天才不愿意回答簡單問題”。
不僅如此,在xAI發(fā)布會直播中,當(dāng)Grok 3被用于分析游戲《流放之路 2》的職業(yè)與升華效果時,其表現(xiàn)同樣令人失望。Grok 3給出了大量錯誤答案,而這些錯誤在直播中甚至沒有被馬斯克本人察覺。這一系列失誤,無疑讓Grok 3的聲譽受到了嚴重質(zhì)疑。
盡管在官方PPT中,Grok 3在大模型競技場Chatbot Arena中的表現(xiàn)看似遙遙領(lǐng)先,但仔細分析后卻發(fā)現(xiàn),其與DeepSeek R1和GPT4.0的差距其實并不大,僅為1%到2%。這一數(shù)據(jù)無疑揭示了Grok 3在性能提升上的邊際效應(yīng)已經(jīng)顯現(xiàn)。
為了打造Grok 3,馬斯克不惜投入巨資,使用了超過20萬張H100芯片,總訓(xùn)練小時數(shù)更是達到了驚人的兩億小時。然而,與之相比,DeepSeek V3卻僅使用了2000張H800芯片,訓(xùn)練時間也僅有兩個月,但其性能卻與Grok 3相差無幾。這一對比,無疑讓Grok 3的高昂投入顯得有些得不償失。
面對Grok 3的種種失誤和質(zhì)疑,馬斯克并未選擇逃避。他在社交媒體上表示,當(dāng)前的Grok 3僅是測試版,完整版將在未來幾個月內(nèi)推出,并誠邀用戶反饋使用問題。這一表態(tài),雖然無法立即挽回Grok 3的聲譽,但至少展現(xiàn)了馬斯克面對失敗的勇氣和擔(dān)當(dāng)。