亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財經(jīng)媒體
科技·商業(yè)·財經(jīng)

馬斯克Grok 3 AI登頂排行榜,真實力如何?OpenAI聯(lián)合創(chuàng)始人點評

   時間:2025-02-18 21:47 來源:每日經(jīng)濟(jì)新聞作者:鐘景軒

馬斯克旗下的AI公司xAI終于揭開了其備受期待的AI模型Grok 3的神秘面紗。在2月17日晚的視頻直播發(fā)布會上,這款A(yù)I模型及其精簡版Grok 3 mini正式面世,吸引了超過百萬觀眾在線觀看。

Grok 3被視為xAI對業(yè)界其他領(lǐng)先模型,如OpenAI的o3-mini和DeepSeek的R1的回應(yīng)。據(jù)馬斯克介紹,Grok 3不僅能分析圖像、回答問題,還為xAI平臺上的多項功能提供了強(qiáng)大支持。早在發(fā)布會前幾天,馬斯克就在其社交平臺X上為Grok 3造勢,稱其為“地球上最聰明的人工智能”。

在發(fā)布會上,馬斯克與三位xAI工程師共同展示了Grok 3的多樣功能。馬斯克聲稱,在包括AIME(評估模型解決數(shù)學(xué)問題能力)和GPQA(評估模型在博士級物理、生物和化學(xué)問題上的表現(xiàn))在內(nèi)的多項基準(zhǔn)測試中,Grok 3擊敗了市面上所有其他模型。這一說法似乎得到了AI基準(zhǔn)測試開放平臺lmarena.ai的數(shù)據(jù)支持,該平臺顯示,早期版本的Grok 3(代號chocolate)在Arena排行榜上位居榜首,成為首個得分超過1400分的模型。

然而,發(fā)布會后并非所有反饋都是正面的。有用戶在觀看直播后指出,Grok 3在回答關(guān)于《流放之路2》游戲的問題時錯誤頻出。另有用戶測試發(fā)現(xiàn),在經(jīng)典的多邊形小球編程問題上,Grok 3也給出了錯誤的答案。

Grok 3的發(fā)布之路可謂一波三折。早在2024年7月,馬斯克在與知名心理學(xué)家喬丹·彼得森的訪談中就透露,Grok 3預(yù)計將于年底發(fā)布。然而,到了年底這一承諾并未兌現(xiàn),一度引發(fā)外界對Grok 3能否如期發(fā)布的質(zhì)疑。不過,在上周的迪拜峰會上,馬斯克突然宣布,xAI將在一到兩周內(nèi)推出Grok 3,并稱其強(qiáng)大到“讓人感到害怕”,甚至預(yù)言這可能是“最后一次有AI比Grok更優(yōu)秀”。

從xAI在直播中展示的基準(zhǔn)測試結(jié)果來看,Grok 3在數(shù)學(xué)、科學(xué)和編程領(lǐng)域的表現(xiàn)確實大幅領(lǐng)先于市面上其他主流的AI模型。在數(shù)學(xué)能力測試(AIME'24)中,Grok 3獲得52分,遠(yuǎn)超DeepSeek-V3的39分和GPT-4o的9分;在科學(xué)知識評估(GPQA)和編程能力測試(LCB Oct-Feb)中,Grok 3同樣以顯著優(yōu)勢領(lǐng)先。

與DeepSeek等技術(shù)改進(jìn)型模型不同,馬斯克的新模型采用了“大力出奇跡”的策略。據(jù)報道,xAI組建了一個配有十萬塊H100 GPU的超級計算機(jī)集群Colossus來訓(xùn)練Grok模型。而在直播中,馬斯克透露,到訓(xùn)練進(jìn)行到92天時,集群的規(guī)模已經(jīng)擴(kuò)大到了20萬塊GPU。這也解釋了為何有人稱Grok 3是終極的Scaling Law測試,是靠吞噬算力訓(xùn)練起來的“怪物”。

在演示中,xAI團(tuán)隊展示了Grok 3在物理學(xué)和游戲領(lǐng)域的應(yīng)用。例如,要求Grok 3生成一段代碼繪制從地球發(fā)射火箭到火星并返回的三維動畫圖表,這一任務(wù)涉及大量數(shù)學(xué)和物理計算,但Grok 3很快便生成了完整的動畫,且結(jié)果完全正確。Grok 3還順利完成了結(jié)合俄羅斯方塊和寶石迷城的游戲編寫任務(wù)。

除了基本的模型能力外,Grok 3還具備智能體功能。xAI為Grok 3開發(fā)了一個類似于OpenAI的DeepSearch智能體,可以對互聯(lián)網(wǎng)進(jìn)行全面搜索并提供詳盡的整合報告。馬斯克表示,這可以節(jié)省用戶大量搜索時間,并為公司帶來數(shù)十億美元的回報。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容