近期,人工智能領(lǐng)域迎來了一項(xiàng)引人注目的新突破。一份最新發(fā)布的研究報(bào)告顯示,斯坦福大學(xué)與華盛頓大學(xué)的科研團(tuán)隊(duì),僅花費(fèi)了不到50美元(當(dāng)前匯率下約為364元人民幣)的云計(jì)算成本,便成功打造出一個(gè)具備卓越“推理”能力的人工智能模型——s1。
這款名為s1的模型,在數(shù)學(xué)與編程能力測試中,展現(xiàn)出了與OpenAI的o1及DeepSeek的r1等業(yè)界頂尖推理模型相當(dāng)?shù)乃健S葹閟1模型及其訓(xùn)練所用的全部數(shù)據(jù)與代碼,均已在GitHub平臺上開源,供全球開發(fā)者共享與學(xué)習(xí)。
s1團(tuán)隊(duì)透露,他們采用了“蒸餾”技術(shù)來構(gòu)建這一模型。該技術(shù)通過訓(xùn)練模型去模仿并學(xué)習(xí)另一個(gè)模型的答案,從而提煉出其“推理”能力。具體而言,s1是從谷歌的推理模型Gemini 2.0 Flash Thinking Experimental中蒸餾而來。有趣的是,上個(gè)月,加州大學(xué)伯克利分校的研究人員也運(yùn)用了相同的蒸餾方法,但成本高達(dá)約450美元,創(chuàng)建了一個(gè)人工智能推理模型。
s1模型的問世,引發(fā)了業(yè)界對于人工智能模型商品化的深刻思考。若能夠以相對低廉的成本復(fù)制出價(jià)值數(shù)百萬美元的模型,那么大型科技公司的競爭優(yōu)勢何在?這一疑問無疑給行業(yè)帶來了新的挑戰(zhàn)與反思。
面對這一新情況,大型人工智能實(shí)驗(yàn)室表現(xiàn)出了明顯的不悅。例如,OpenAI此前就曾指責(zé)DeepSeek不當(dāng)獲取其API數(shù)據(jù)用于模型蒸餾。而此次s1的推出,無疑加劇了這一領(lǐng)域的競爭與爭議。
s1團(tuán)隊(duì)的研究人員表示,他們致力于尋找實(shí)現(xiàn)強(qiáng)大推理性能和“測試時(shí)擴(kuò)展”的最簡潔途徑。這些正是OpenAI的o1模型所取得的一些突破性進(jìn)展。s1的論文指出,通過一種稱為監(jiān)督微調(diào)(SFT)的方法,可以利用較小的數(shù)據(jù)集來蒸餾推理模型。在SFT中,模型被明確指示在數(shù)據(jù)集中模仿特定行為,這比DeepSeek用于訓(xùn)練R1模型的大規(guī)模強(qiáng)化學(xué)習(xí)方法更具成本效益。
谷歌通過其Google AI Studio平臺免費(fèi)提供了Gemini 2.0 Flash Thinking Experimental模型的訪問權(quán)限,但設(shè)有每日使用限制。然而,其使用條款明確禁止對模型進(jìn)行逆向工程,以開發(fā)與谷歌自身人工智能產(chǎn)品競爭的服務(wù)。盡管如此,s1團(tuán)隊(duì)仍巧妙地利用了這一資源。
s1基于阿里巴巴旗下中國人工智能實(shí)驗(yàn)室Qwen提供的一款小型、現(xiàn)成的免費(fèi)模型。為了訓(xùn)練s1,研究人員精心策劃了一個(gè)包含1000個(gè)問題及其答案的數(shù)據(jù)集,并收集了谷歌Gemini 2.0 Flash Thinking Experimental為每個(gè)答案提供的“思考”過程。在16個(gè)Nvidia H100 GPU的支持下,s1的訓(xùn)練耗時(shí)不到30分鐘,成本僅為約20美元。
更為巧妙的是,研究人員還為s1設(shè)計(jì)了一個(gè)獨(dú)特的技巧,讓其能夠在工作過程中進(jìn)行自我檢查并延長“思考”時(shí)間——他們讓s1在推理過程中“等待”。論文顯示,這一簡單的添加,有助于模型獲得更為準(zhǔn)確的答案。