亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財經(jīng)媒體
科技·商業(yè)·財經(jīng)

馬斯克Grok 3模型亮相,能否撼動DeepSeek等AI巨頭地位?

   時間:2025-02-19 11:13 來源:知危作者:沈瑾瑜

在今年初春時節(jié),人工智能領(lǐng)域的競爭再度升溫,一場關(guān)于智能巔峰的較量悄然拉開序幕。今天中午,備受矚目的“地球上最聰明的人工智能”——Grok 3,終于由馬斯克親自揭曉面紗。

這場發(fā)布會延續(xù)了馬斯克一貫的風格,雖然預告十二點準時開始,但觀眾還是耐心等待了近二十分鐘。在一個小時的直播中,馬斯克攜xAI團隊全方位展示了Grok 3的強大實力。據(jù)官方數(shù)據(jù)顯示,Grok 3在性能上超越了包括谷歌、OpenAI和DeepSeek在內(nèi)的多家知名企業(yè)的頂尖模型。

這股熱潮還催生了創(chuàng)意內(nèi)容,有網(wǎng)友利用AI技術(shù)制作了一段奧特曼得知Grok 3發(fā)布后的反應視頻,趣味十足。

國內(nèi)外關(guān)于Grok 3的報道鋪天蓋地,諸如“首個突破1400分(在Imarena.ai競技場的得分)的模型”、“首個十萬卡集群訓練出來的模型”等頭銜讓人眼前一亮。編輯部認為,盡管Grok 3尚未達到炸裂的程度,但從直播內(nèi)容來看,它再次印證了AI領(lǐng)域“大力出奇跡”的規(guī)律。

目前,Grok 3僅對部分X平臺的Premium+會員開放,我們暫未獲得體驗權(quán)限。不過,從發(fā)布會內(nèi)容來看,Grok 3的表現(xiàn)確實令人矚目。馬斯克首先對比了Grok與GPT的模型迭代速度,針對性十足,似乎誓要一較高下。

值得注意的是,Grok 3實際上是一個模型家族,包括非推理模型和推理模型兩大類。非推理模型方面,Grok 3和Grok 3 mini在AIME’24美國數(shù)學競賽、GPQA(研究生水平科學知識問答能力的基準測試)和代碼測試中,成績遠超其他模型。而Grok 3 mini雖然與其他模型相差無幾,但可以通過犧牲部分準確性來換取更快的回答速度。

在Chatbot Arena的盲測中,Grok 3的早期版本“巧克力”以破紀錄的1400分登上榜首,在整體風格控制、編碼、數(shù)學和創(chuàng)意寫作等多個方面均獲得第一。而今天的最新版Grok 3性能或許更為強勁。

接下來,我們來看看Grok 3的推理模型。在OpenAI的o1系列、o3 mini和DeepSeek R1等推理模型激烈競爭的背景下,Grok 3 Reasoning Beta和Grok 3 mini Reasoning也應運而生。從紙面實力來看,它們依然保持著領(lǐng)先地位。不過,測試中加入了Test-Time Compute(給予模型更多思考時間),使得Grok 3的推理模型在思考時間越久時表現(xiàn)越好,這似乎預示著Grok具有隨時間線性增長的思考質(zhì)量,未來有望通過優(yōu)化思考過程在更短時間內(nèi)給出更優(yōu)答案。

現(xiàn)場演示中,馬斯克團隊展示了Grok 3推理模型在2025年AIME數(shù)學競賽上的測試結(jié)果,并通過生成3D動畫代碼和新游戲設(shè)計,進一步證明了其強大實力。這不禁讓人聯(lián)想到馬斯克昨天證實的xAI將成立AI游戲工作室的消息,如果Grok 3的游戲制作能力如演示般強大,將對整個游戲圈產(chǎn)生深遠影響。馬斯克還透露,Grok 3未來兩到三年內(nèi)可能參與特斯拉生產(chǎn)和火箭發(fā)射過程。

最后,直播發(fā)布了基于Grok 3構(gòu)建的Deepsearch智能搜索引擎,類似于Perplexity的Deep Research和OpenAI的同類產(chǎn)品。當詢問下一次星艦發(fā)射時間時,左邊顯示進度條,右邊則展示瀏覽的網(wǎng)頁和驗證的信源,最終得出2月24日的發(fā)射時間。

Grok 3之所以如此強大,離不開馬斯克提及的僅用122天搭建的10萬卡集群,以及后續(xù)擴展至20萬卡集群的壯舉。這一壯舉似乎再次證明了算力在大模型領(lǐng)域的決定性作用。然而,將20萬卡供養(yǎng)的Grok 3與對算力需求較低的DeepSeek V3相比,似乎有些不公。馬斯克在迪拜峰會上提到,Grok 3經(jīng)過合成數(shù)據(jù)訓練,能夠反思并糾正自身錯誤。

盡管Grok 3展示出了強大實力,但搶先體驗的用戶分享中也存在一些與宣傳不符的測試案例。例如,某博主用同一組Prompt測試Grok 3、o3 mini和Claude 3.5 Sonnet時,Grok 3直接翻車。另一組測試中,o3 mini的表現(xiàn)也優(yōu)于Grok 3和DeepSeek R1。甚至有細心網(wǎng)友指出發(fā)布會演示案例中的明顯錯誤。

雖然我們沒有親自上手測試,但從外部實測案例來看,Grok 3似乎也沒有宣傳得那么神乎其神。Grok 3上線后,開源問題也成為關(guān)注焦點。馬斯克表示,xAI通常在新模型發(fā)布后再開源舊模型,因此即便開源,也將是老版的Grok 2??磥?,來自開源陣營的壓力尚未對馬斯克構(gòu)成足夠威脅,他的目標依然直指老對手OpenAI。至于已經(jīng)在X平臺上預告的GPT 4.5能否給馬斯克帶來“驚喜”,我們拭目以待。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容