亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財經(jīng)媒體
科技·商業(yè)·財經(jīng)

多模態(tài)AI尚待飛躍,智源大會探討“ChatGPT時刻”何時降臨?

   時間:2025-06-08 14:46 作者:ITBEAR

在生成式AI技術(shù)的浩瀚星空中,大語言模型的璀璨奪目無疑吸引了最多的目光,但與此同時,另一條同樣重要的技術(shù)軌跡——多模態(tài)大模型的發(fā)展,也在悄然推進。近年來,這一領(lǐng)域見證了諸如OpenAI的Sora視頻生成模型和4o圖像生成功能等關(guān)鍵性突破。

然而,在近日于北京舉行的2025智源大會上,多位業(yè)界領(lǐng)軍人物卻表達了這樣一個共識:多模態(tài)AI的“ChatGPT時刻”,那個令人翹首以盼的飛躍點,尚未真正到來。智源研究院院長王仲遠指出,當前的多模態(tài)模型大多局限于對靜態(tài)圖像的解讀,其能力還僅僅停留在對既定事實的描述上。與之相比,人類對多模態(tài)信息的理解要復(fù)雜得多,它涉及對動態(tài)變化的預(yù)測與解讀,比如從手接近水杯的動作中預(yù)測接下來的取水行為。

針對這一現(xiàn)狀,AI視頻創(chuàng)新企業(yè)Sand.ai的創(chuàng)始人兼CEO曹越提出了他的見解。他認為,要實現(xiàn)對未來視頻內(nèi)容的精準預(yù)測與生成,關(guān)鍵在于對已有視頻內(nèi)容的深入理解。為此,Sand.ai正致力于探索自回歸技術(shù)路徑,試圖在DiT架構(gòu)(基于Transformer的擴散模型)之外,尋找新的可能性。曹越解釋,DiT模型通過逐步去噪來還原圖像或視頻,而自回歸模型則是按順序,一幀幀、一塊塊地生成內(nèi)容,其訓(xùn)練方式基于已有視頻預(yù)測未來,有望將生成視頻的時長從幾秒提升至幾分鐘。

與此同時,OpenAI研究科學(xué)家姚順雨的觀點也引發(fā)了業(yè)界的廣泛討論。他認為,AI的發(fā)展已經(jīng)進入下半場,重心將從解決問題轉(zhuǎn)向定義問題。然而,AI視覺領(lǐng)域的明星企業(yè)Luma AI的首席科學(xué)家宋佳銘對此表示,這一“上下半場”的劃分似乎更適用于語言模型。在他看來,多模態(tài)模型的上半場,應(yīng)當是構(gòu)建一個能夠像人一樣處理不同模態(tài)任務(wù),且推理速度足夠快的統(tǒng)一模型。這一模型需要擁有多模態(tài)思維鏈,才能在下半場真正打通推理能力。

從應(yīng)用落地的角度來看,騰訊混元多模態(tài)生成負責(zé)人蘆清林則提出了不同的看法。他認為,所謂的上下半場分界線并不清晰,因為模型的成熟度與應(yīng)用場景的需求是緊密相連的。當模型達到一定的水平,就會有相應(yīng)的應(yīng)用場景出現(xiàn)。他強調(diào),如果專業(yè)人員已經(jīng)開始采用某項技術(shù),并認為它能在實際工作中帶來效率提升或幫助,那么這項技術(shù)就已經(jīng)達到了實用階段。

字節(jié)跳動Seed圖像&視頻生成負責(zé)人黃偉林則分享了判斷技術(shù)商業(yè)化程度的三個關(guān)鍵數(shù)據(jù)指標:效率數(shù)據(jù)、用戶留存數(shù)據(jù)和收入數(shù)據(jù)。他指出,頭部AI視頻產(chǎn)品的年度經(jīng)常性收入(ARR)有望在年底達到1億美元或更多,明年更有望實現(xiàn)5到10倍的增長。這些數(shù)據(jù)無疑為AI技術(shù)的商業(yè)化前景提供了有力的支撐。

最后,Sand.ai聯(lián)合創(chuàng)始人張拯強調(diào)了技術(shù)和商業(yè)結(jié)合層面的重要性。他認為,在擴展模型規(guī)模、提升性能時,必須考慮由此帶來的用戶價值和經(jīng)濟回報是否足以覆蓋所投入的資源成本。如果模型能力的提升代價過高,而用戶得不到相應(yīng)的回報,那么從商業(yè)角度來看,這樣的擴展就是無效的。

隨著技術(shù)的不斷進步和應(yīng)用場景的不斷拓展,多模態(tài)AI的發(fā)展無疑將迎來更加廣闊的未來。然而,如何在這一過程中找到技術(shù)與商業(yè)的最佳平衡點,將是所有從業(yè)者需要共同面對的挑戰(zhàn)。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容