在人工智能的浩瀚宇宙中,大語言模型(LLM)的推理能力一直是研究者們探索的熱點(diǎn)。近期,Google DeepMind的首席科學(xué)家兼研究總監(jiān)Denny Zhou在斯坦福大學(xué)的CS25課程上,為聽眾們揭開LLM推理機(jī)制的神秘面紗,分享了他的深刻見解。
作為AI領(lǐng)域的領(lǐng)航者,Denny Zhou通過這場(chǎng)精彩的講座,系統(tǒng)地闡述了LLM推理機(jī)制及其優(yōu)化方法,讓聽眾們領(lǐng)略到大模型推理的核心原理與最新進(jìn)展。他提出,LLM中的推理,實(shí)質(zhì)上是在得出最終答案前生成一系列中間token的過程。這一過程與人類推理是否相似并不重要,關(guān)鍵在于Transformer模型能夠借此變得異常強(qiáng)大,且無需擴(kuò)大模型規(guī)模。
令人驚訝的是,即便未經(jīng)任何微調(diào),預(yù)訓(xùn)練模型也已具備推理能力。然而,挑戰(zhàn)在于,基于推理的輸出往往不會(huì)占據(jù)輸出分布的頂端,因此傳統(tǒng)的貪婪解碼法無法將其呈現(xiàn)。為此,科學(xué)家們探索了多種方法,如提示技巧(如思維鏈提示)和監(jiān)督式微調(diào),而今,強(qiáng)化學(xué)習(xí)微調(diào)已成為最強(qiáng)大的手段。這一技巧由多個(gè)實(shí)驗(yàn)室獨(dú)立發(fā)現(xiàn),在谷歌,則要?dú)w功于Jonathan Lai的貢獻(xiàn),他基于理論提出,強(qiáng)化學(xué)習(xí)應(yīng)專注于生成長(zhǎng)響應(yīng)。
Denny Zhou還指出,通過生成多個(gè)響應(yīng)并將它們聚合,而非依賴單個(gè)響應(yīng),可以顯著提升LLM的推理能力。這一觀點(diǎn)為L(zhǎng)LM推理能力的提升開辟了新路徑。
Denny Zhou不僅在Google DeepMind擔(dān)任頂尖科學(xué)家,還曾在Google Brain創(chuàng)立并領(lǐng)導(dǎo)推理團(tuán)隊(duì),該團(tuán)隊(duì)現(xiàn)隸屬于DeepMind,專注于開發(fā)具備推理能力的大語言模型,以推動(dòng)人工智能向通用智能邁進(jìn)。他的研究聚焦于鏈?zhǔn)剿伎继崾?、自一致性和LLM優(yōu)化等領(lǐng)域,在Google Scholar上累計(jì)獲得超過83,000次引用,對(duì)機(jī)器學(xué)習(xí)和AI領(lǐng)域做出了巨大貢獻(xiàn)。
在CS25《Transformers United V5》課程中,Denny Zhou與眾多AI頂尖研究人員共同探討了人工智能的最新突破,從GPT等大型語言模型到藝術(shù)、生物和機(jī)器人領(lǐng)域的應(yīng)用。該課程在斯坦福大學(xué)內(nèi)外廣受歡迎,YouTube上的觀看次數(shù)高達(dá)數(shù)百萬。
關(guān)于LLM推理,Denny Zhou認(rèn)為,中間token在推理中扮演著至關(guān)重要的角色。他與斯坦福大學(xué)的Tayma教授及其學(xué)生合作,提出了一個(gè)理論:任何可通過布爾電路解決的問題,都可通過生成中間token,用恒定大小的Transformer模型解決。這一理論為從理論角度理解推理提供了新思路。
在推理的技術(shù)細(xì)節(jié)上,Denny Zhou指出,語言模型已具備推理能力,關(guān)鍵在于解碼過程。例如,在解決簡(jiǎn)單數(shù)學(xué)問題時(shí),若使用貪婪解碼法,模型可能會(huì)給出錯(cuò)誤答案。但若考慮更多候選答案,采用鏈?zhǔn)酵评斫獯a,模型就能產(chǎn)生更正確的答案。鏈?zhǔn)酵评斫獯a包含兩個(gè)步驟:超越貪婪解碼,檢查更多生成候選;選擇最終答案置信度更高的候選。
Denny Zhou還探討了監(jiān)督微調(diào)(SFT)方法的局限性及其改進(jìn)方向。SFT方法通過收集一系列問題及其逐步解決方案,最大化人類解決方案的可能性來訓(xùn)練模型。然而,其泛化能力有限。DeepMind意識(shí)到這一問題后,嘗試了自我提升方法,即讓模型生成數(shù)據(jù),再依據(jù)正確答案選擇正確步驟。這一方法減少了昂貴的人工標(biāo)注成本,實(shí)現(xiàn)了模型的自我改進(jìn)。
在講座中,Denny Zhou還分享了強(qiáng)化學(xué)習(xí)微調(diào)在LLM推理中的優(yōu)勢(shì)。通過強(qiáng)化學(xué)習(xí)微調(diào),模型能夠生成更準(zhǔn)確的推理過程,提高泛化能力。然而,并非所有任務(wù)都可由機(jī)器自己驗(yàn)證,如寫作和代碼編程。因此,LLM仍需在預(yù)測(cè)模型的基礎(chǔ)上不斷優(yōu)化。