在科技界的一次重大直播活動(dòng)中,馬斯克攜手xAI團(tuán)隊(duì),隆重推出了他們最新研發(fā)的AI模型——Grok3。這款被馬斯克譽(yù)為“地球上最聰明的AI”的新產(chǎn)品,引發(fā)了廣泛關(guān)注與期待。
馬斯克在社交媒體平臺(tái)X上預(yù)熱時(shí)透露,自己整個(gè)周末都在與團(tuán)隊(duì)緊密合作,對(duì)Grok3進(jìn)行最后的打磨與優(yōu)化。這一舉動(dòng)無(wú)疑為這款新產(chǎn)品的發(fā)布增添了更多神秘色彩。
然而,令人意想不到的是,盡管Grok3在多個(gè)領(lǐng)域展現(xiàn)出了卓越的能力,但在面對(duì)一個(gè)看似簡(jiǎn)單實(shí)則經(jīng)典的AI測(cè)試問(wèn)題時(shí),卻遭遇了尷尬。當(dāng)被問(wèn)及“9.11與9.9哪個(gè)大?”時(shí),Grok3在未加任何限定條件的情況下,未能給出正確答案。這一結(jié)果不禁讓人對(duì)“最聰明的AI”這一稱號(hào)產(chǎn)生了質(zhì)疑。
相比之下,另一款A(yù)I模型DeepSeek在處理同樣問(wèn)題時(shí)則顯得游刃有余。無(wú)論是否開(kāi)啟深度思考模式,DeepSeek都能迅速且準(zhǔn)確地給出答案:9.9大于9.11。這一對(duì)比進(jìn)一步凸顯了Grok3在常識(shí)性問(wèn)題上的不足。
“9.11和9.9哪個(gè)大”這一問(wèn)題,在AI領(lǐng)域早已成為一個(gè)經(jīng)典案例。此前,艾倫研究機(jī)構(gòu)的成員林禹臣就曾公開(kāi)指出,盡管AI在數(shù)學(xué)奧賽題方面取得了顯著進(jìn)步,但在常識(shí)判斷上仍面臨巨大挑戰(zhàn)。這一觀點(diǎn)得到了廣泛認(rèn)同。
事實(shí)上,早在Grok3發(fā)布之前,Scale AI的提示工程師萊利·古德賽德就曾通過(guò)變換問(wèn)法,對(duì)當(dāng)時(shí)的主流大模型進(jìn)行了類似測(cè)試。結(jié)果顯示,包括ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet在內(nèi)的多家主流大模型均未能正確回答問(wèn)題。這一事件再次證明了AI在常識(shí)判斷上的局限性。
盡管在常識(shí)問(wèn)題上遭遇尷尬,但馬斯克對(duì)Grok3的信心并未動(dòng)搖。他在發(fā)布會(huì)上強(qiáng)調(diào),xAI公司的使命是“了解宇宙”,而Grok3正是他們朝這一目標(biāo)邁出的重要一步。馬斯克透露,Grok3在數(shù)學(xué)、科學(xué)與編程等基準(zhǔn)測(cè)試上已超越現(xiàn)有主流模型,并有望在未來(lái)用于SpaceX的火星任務(wù)計(jì)算。
為了提升Grok3的性能,馬斯克表示團(tuán)隊(duì)投入了大量算力與合成數(shù)據(jù)進(jìn)行訓(xùn)練。他們還借助了由10萬(wàn)個(gè)英偉達(dá)H100 GPU驅(qū)動(dòng)的Colossus超級(jí)計(jì)算機(jī),為Grok3提供了2億個(gè)GPU小時(shí)的訓(xùn)練資源。這一龐大的算力支持無(wú)疑為Grok3的卓越表現(xiàn)奠定了堅(jiān)實(shí)基礎(chǔ)。
在發(fā)布Grok3的同時(shí),xAI還宣布推出了一款名為Deepsearch的智能搜索引擎。盡管名字與DeepSeek相似,但兩者在算法與技術(shù)路徑上存在顯著差異。Deepsearch的推出將進(jìn)一步豐富xAI的產(chǎn)品線,為用戶提供更多元化的服務(wù)。