亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財經(jīng)媒體
科技·商業(yè)·財經(jīng)

斯坦福s1模型50美元訓(xùn)練真相:基于阿里云基座微調(diào)引發(fā)熱議

   時間:2025-02-07 10:38 來源:砍柴網(wǎng)作者:陸辰風(fēng)

近日,人工智能領(lǐng)域的一則新聞引起了廣泛關(guān)注。據(jù)報道,斯坦福大學(xué)和華盛頓大學(xué)的研究人員李飛飛等人,以極低的云計算成本——不到50美元,成功打造了一個名為s1的人工智能推理模型。該模型在數(shù)學(xué)和編碼測試中的表現(xiàn),據(jù)說與業(yè)界領(lǐng)先的OpenAI的O1和DeepSeek的R1等模型不相上下。

這一消息在AI界引起了軒然大波。然而,隨著《科創(chuàng)板日報》記者的深入調(diào)查和業(yè)內(nèi)人士的采訪,s1模型的“低成本奇跡”背后的真相逐漸浮出水面。原來,s1模型的訓(xùn)練并非從零開始,而是基于阿里云的通義千問(Qwen)模型進(jìn)行了監(jiān)督微調(diào)。這意味著,s1模型的低成本是建立在已經(jīng)具備強(qiáng)大推理能力的開源基礎(chǔ)模型之上的。

據(jù)青年AI科學(xué)家、上海交通大學(xué)人工智能學(xué)院副教授謝偉迪介紹,仔細(xì)研讀斯坦福s1的論文后不難發(fā)現(xiàn),s1模型的神奇之處在于它利用了通義千問模型作為基座進(jìn)行微調(diào)。這1000個樣本數(shù)據(jù)在訓(xùn)練中的作用更像是“點(diǎn)睛之筆”,而非構(gòu)建全新模型的基礎(chǔ)。一位國內(nèi)知名大模型公司的CEO也向《科創(chuàng)板日報》記者透露,所謂的50美元訓(xùn)練新模型,實(shí)際上是用從谷歌模型中提煉的1000個樣本對通義千問模型進(jìn)行微調(diào)。這種微調(diào)的成本確實(shí)低廉,但顯然是站在了既有領(lǐng)先模型的肩膀上。

斯坦福s1論文原文中也明確注明了模型是以阿里通義千問模型為基礎(chǔ)進(jìn)行微調(diào)的。謝偉迪指出,國內(nèi)外還有多個團(tuán)隊聲稱以極低成本訓(xùn)練出了具備推理能力的新模型,但仔細(xì)閱讀其論文原文后,會發(fā)現(xiàn)它們都是基于通義模型作為基座進(jìn)行的微調(diào)。

國外多位人工智能研究者也指出,許多所謂的“新”模型都是建立在通義模型的基礎(chǔ)之上的。謝偉迪強(qiáng)調(diào),以通義千問模型為基座,確實(shí)可以用極少的樣本數(shù)據(jù)就達(dá)到產(chǎn)生新推理模型的效果,但如果換成其他基座模型,新模型的能力并不會有任何提升。因此,真正神奇的是Qwen模型,而非s1。

盡管s1模型的低成本訓(xùn)練在一定程度上展示了AI訓(xùn)練的潛力,但其局限性也不容忽視。首先,這種低成本訓(xùn)練方法依賴于已有的強(qiáng)大基座模型,如阿里通義千問模型。如果沒有這樣的基座模型作為支撐,低成本訓(xùn)練的效果將大打折扣。其次,1000個樣本數(shù)據(jù)的訓(xùn)練量在大多數(shù)情況下是不足以應(yīng)對復(fù)雜任務(wù)的。低成本訓(xùn)練的成功也引發(fā)了關(guān)于AI模型知識產(chǎn)權(quán)和倫理問題的討論。越來越多的研究依賴于已有的基座模型進(jìn)行微調(diào),那么這些基座模型的開發(fā)者是否應(yīng)該獲得相應(yīng)的回報?如何確保AI技術(shù)的公平使用和共享?這些問題都需要業(yè)界進(jìn)行深入探討和解決。

 
 
更多>同類內(nèi)容
全站最新