滾動資訊

金蝶國際：云轉(zhuǎn)型成功卻難掩虧損，AI新征途能否迎來盈利曙光？04-11

當(dāng)前位置：網(wǎng)界 > 數(shù)據(jù)洞察 > 正文內(nèi)容

世界模型：大語言模型之外，AI理解物理世界的另一條路？

時間：2025-04-11 11:28 作者：柳晴雪

人工智能領(lǐng)域近日迎來新的討論熱點，圖靈獎得主楊立昆對大語言模型提出了批評，他指出這類模型在理解物理世界、擁有持久記憶、具備推理能力以及復(fù)雜規(guī)劃能力上存在缺陷。為了克服這些挑戰(zhàn)，一種名為“世界模型”的技術(shù)浮出水面，成為業(yè)界關(guān)注的新焦點。

世界模型的概念或許聽起來較為抽象，但其在現(xiàn)實中的應(yīng)用已經(jīng)初露鋒芒，例如谷歌的3D游戲技術(shù)和特斯拉的自動駕駛系統(tǒng)。這一技術(shù)的核心在于，機(jī)器能夠像人一樣理解物理空間、掌握物理規(guī)律，并根據(jù)這些經(jīng)驗做出推理和決策。與大語言模型依賴海量文本數(shù)據(jù)不同，世界模型通過深入分析大規(guī)模現(xiàn)實世界視頻來推測因果關(guān)系，這種學(xué)習(xí)模式與人類嬰兒通過交互學(xué)習(xí)構(gòu)建世界認(rèn)知的過程頗為相似。

想象一下，一個剛出生的嬰兒，雖然視覺尚未完全聚焦，但能通過觸覺、溫度和聲音等感官碎片拼湊出世界的輪廓。人類大腦經(jīng)過數(shù)百萬年的進(jìn)化，發(fā)展出了將感官信息轉(zhuǎn)化為對物理規(guī)律理解的能力，而這正是當(dāng)前人工智能所欠缺的。世界模型致力于從數(shù)據(jù)中重構(gòu)對重力、時間等物理知識的理解，使機(jī)器能夠更智能地應(yīng)對現(xiàn)實世界。

世界模型的概念最早可以追溯到上世紀(jì)八九十年代的認(rèn)知科學(xué)和控制理論。當(dāng)時的研究者受心理學(xué)影響，提出AI系統(tǒng)需要構(gòu)建對環(huán)境的內(nèi)部模擬，以進(jìn)行預(yù)測和決策。這一理論的核心要素是“環(huán)境”，生物的行為本質(zhì)上遵循“刺激－反應(yīng)”模式，即生物的反應(yīng)是對環(huán)境刺激的直接響應(yīng)。隨著生物漫長的進(jìn)化，動物發(fā)展出了感覺和心理，而人類則進(jìn)一步發(fā)展出了自我意識，能夠進(jìn)行自主規(guī)劃和有目的的決策。

從生物進(jìn)化到AI的發(fā)展歷程來看，AI的終極形態(tài)——通用人工智能（AGI）需要發(fā)展出自主感知現(xiàn)實、自我規(guī)劃和有目的決策的能力。世界模型的雛形萌芽于心理學(xué)家對人類和動物認(rèn)知世界的觀察，這一理論被稱為心智模型，強(qiáng)調(diào)智能體需要對環(huán)境形成抽象表征。人類大腦對周圍世界有一種習(xí)得的內(nèi)在認(rèn)知框架，能夠根據(jù)經(jīng)驗做出決策，而世界模型就是讓機(jī)器也具備這種對周圍環(huán)境和世界的理解和預(yù)測能力。

世界模型的研究從理論構(gòu)想階段逐漸落地，進(jìn)入計算建模階段。隨著強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的深入發(fā)展，學(xué)者開始嘗試用神經(jīng)網(wǎng)絡(luò)構(gòu)建可訓(xùn)練的世界模型。2018年，DeepMind的《World Models》論文首次提出了“VAE+RNN+控制器”的三段式架構(gòu)，構(gòu)建了可預(yù)測環(huán)境的神經(jīng)網(wǎng)絡(luò)模型，這標(biāo)志著現(xiàn)代世界模型的里程碑。這一架構(gòu)使機(jī)器具備了顱內(nèi)推演的能力，能夠在行動前預(yù)判后果，大大降低了試錯成本。

近年來，世界模型借助Transformer的序列建模能力和多模態(tài)學(xué)習(xí)技術(shù)，應(yīng)用范圍從單一模態(tài)擴(kuò)展到跨模態(tài)仿真，推演也從2D走向3D。谷歌、騰訊等企業(yè)通過世界模型生成逼真的游戲場景，特斯拉利用神經(jīng)網(wǎng)絡(luò)預(yù)測車輛軌跡，DeepMind則通過建模預(yù)測全球天氣。世界模型正逐步走出實驗室，走向現(xiàn)實世界的各個領(lǐng)域。

在游戲場景中，世界模型通過大量訓(xùn)練，從規(guī)則明確的虛擬環(huán)境和邊界清晰的離散空間，進(jìn)化到能夠生成可交互的無限3D世界。谷歌DeepMind的Genie 2可以通過單張圖片生成可交互的3D世界，用戶可以在其中自由探索動態(tài)環(huán)境。騰訊等團(tuán)隊推出的模型則可以一鍵生成各種游戲角色和復(fù)雜場景，展示了世界模型在游戲領(lǐng)域的巨大潛力。

在工業(yè)場景中，世界模型的應(yīng)用同樣引人注目。機(jī)器人公司波士頓動力通過虛擬環(huán)境預(yù)演機(jī)器人動作，特斯拉利用世界模型整合游戲引擎仿真技術(shù)訓(xùn)練自動駕駛系統(tǒng)，減少對真實路測數(shù)據(jù)的依賴。這些應(yīng)用展示了世界模型在提升機(jī)器智能和降低試錯成本方面的巨大優(yōu)勢。

世界模型還走進(jìn)了基礎(chǔ)研究領(lǐng)域。DeepMind的GraphCast通過世界模型處理百萬級網(wǎng)格氣象變量，預(yù)測天氣的能力比傳統(tǒng)數(shù)值模擬快1000倍，能耗降低1000倍。這一成果展示了世界模型在復(fù)雜系統(tǒng)預(yù)測和模擬方面的強(qiáng)大能力。

世界模型通過大量多模態(tài)數(shù)據(jù)理解物理世界的規(guī)律，其本質(zhì)是一種通過構(gòu)建內(nèi)部虛擬環(huán)境來模擬和理解現(xiàn)實世界的智能系統(tǒng)。未來，“世界模型+大語言模型”可能成為AGI的核心架構(gòu)，使AI不僅能夠聊天，還能真正理解并做出決策改變現(xiàn)實世界。然而，世界模型目前仍面臨算力、泛化能力和訓(xùn)練集等方面的挑戰(zhàn)，需要進(jìn)一步的研究和探索。

更多>同類內(nèi)容

智聯(lián)招聘AI大展：模擬面試不慌，簡歷優(yōu)化更高效！

04-11

索尼全新50-150mm f/2.0 GM鏡頭曝光：白色外觀，重達(dá)1340克，售價高昂

04-11

馬云新演講：AI不應(yīng)取代人類，而應(yīng)更懂人類、服務(wù)人類

04-11

IF椰子水神話：46人團(tuán)隊如何撬動11億營收與2.45億凈利潤？

04-11

區(qū)永耀正式接任光大永明人壽總精算師，光大永明高層調(diào)整持續(xù)

04-11

：《2024年度中國電子商務(wù)投融資數(shù)據(jù)報告》發(fā)布

04-11

谷歌新專利：智能手機(jī)背面手勢操控，未來交互方式大變革？

04-11

真我GT7性能續(xù)航雙強(qiáng)來襲，4月23日能否問鼎3000元以下王者？

04-11

OPPO Find X8 Ultra評測：直屏Ultra新王者，夜景人像拍攝再升級

04-11

京東外賣百億補(bǔ)貼今日啟動，全民可享最高20元補(bǔ)貼，你領(lǐng)了嗎？

04-11

TIOBE 4月榜：Python登頂，Kotlin、Ruby、Swift排名下滑引關(guān)注

04-11

蘋果新專利：AR智能眼鏡三重顯示系統(tǒng)，將如何改變交互體驗？

04-11

水月雨新推“RAYS 光束”耳機(jī)：399元電競神器，一鍵調(diào)音暢享游戲

04-11

三星顯示2025工資協(xié)議出爐，員工薪資平均漲5.1%！

04-11

摩托羅拉新平板Pro版與首款筆記本Moto Book 60將登場