近期,人工智能領(lǐng)域的一則新聞激起了廣泛討論。據(jù)透露,斯坦福大學(xué)與華盛頓大學(xué)的科研團隊,在李飛飛的帶領(lǐng)下,僅憑不到50美元的云計算成本,就成功研發(fā)出了一款名為s1的人工智能推理模型。該模型在數(shù)學(xué)與編程能力測試中的成績,據(jù)傳與OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。
這一消息在AI界猶如一顆震撼彈,引發(fā)了諸多疑問與好奇。為了探究真相,《科創(chuàng)板日報》記者深入調(diào)查并采訪了多位業(yè)內(nèi)人士。調(diào)查結(jié)果顯示,s1模型的訓(xùn)練并非完全從零開始,而是基于阿里云的通義千問(Qwen)模型進行了監(jiān)督微調(diào)。這意味著,s1模型之所以能以如此低的成本實現(xiàn)卓越性能,是因為它站在了一個已經(jīng)具備強大能力的開源基礎(chǔ)模型之上。
根據(jù)李飛飛團隊的研究論文,s1模型的訓(xùn)練僅使用了1000個樣本數(shù)據(jù)。在AI訓(xùn)練領(lǐng)域,這一數(shù)據(jù)量可以說是微不足道,通常不足以訓(xùn)練出一個具備推理能力的模型。上海交通大學(xué)人工智能學(xué)院的謝偉迪副教授表示,仔細(xì)研讀斯坦福s1的論文后不難發(fā)現(xiàn),s1模型的神奇之處在于它是以通義千問模型為基座進行微調(diào),那1000個樣本數(shù)據(jù)更像是對整體性能的一種“潤色”,而非模型訓(xùn)練的全部。
國內(nèi)一家知名大模型公司的CEO也向《科創(chuàng)板日報》記者透露:“從論文原文來看,所謂用50美元訓(xùn)練出具有推理能力的新模型,實際上只是用從谷歌模型中提煉的1000個樣本對通義千問模型進行了監(jiān)督微調(diào)。這種微調(diào)的成本確實很低,但明顯是站在了既有領(lǐng)先模型的肩膀上?!?/p>
斯坦福s1論文原文中明確注明,模型是以阿里通義千問模型為基礎(chǔ)進行了微調(diào)。謝偉迪指出,國內(nèi)外還有其他團隊也聲稱以極低的成本訓(xùn)練出了具備推理能力的新模型,但深入閱讀其論文原文后,會發(fā)現(xiàn)它們都是基于通義模型作為基座進行的。
國外多位人工智能研究者也指出,許多所謂的“新”模型實際上都是建立在通義模型的基礎(chǔ)之上的。謝偉迪強調(diào):“以通義千問模型作為基座,確實可以用很少的樣本數(shù)據(jù)就達(dá)到產(chǎn)生新的推理模型的效果,但如果換成其他基座模型,新模型的能力卻不會有任何提升。所以,真正神奇的是Qwen模型,而不是s1?!?/p>
盡管s1模型的低成本訓(xùn)練在一定程度上展示了AI訓(xùn)練的潛力,但其局限性同樣不容忽視。首先,這種低成本訓(xùn)練方法依賴于已有的強大基座模型,如阿里通義千問模型。如果沒有這樣的基座模型,低成本訓(xùn)練的效果將大打折扣。其次,1000個樣本數(shù)據(jù)的訓(xùn)練量在大多數(shù)情況下是遠(yuǎn)遠(yuǎn)不夠的,尤其是在處理復(fù)雜任務(wù)時。低成本訓(xùn)練的成功也引發(fā)了關(guān)于AI模型知識產(chǎn)權(quán)和倫理問題的廣泛討論。
如果越來越多的研究依賴于已有的基座模型進行微調(diào),那么這些基座模型的開發(fā)者是否應(yīng)該獲得相應(yīng)的回報?如何確保AI技術(shù)的公平使用和共享?這些問題都需要業(yè)界進行深入探討和解決。盡管s1模型的低成本訓(xùn)練方法引發(fā)了諸多爭議,但其背后的研究思路無疑為AI領(lǐng)域帶來了新的啟示和思考。