近日,騰訊科技(深圳)有限公司在大語(yǔ)言模型領(lǐng)域取得了一項(xiàng)重要突破,其申請(qǐng)的“大語(yǔ)言模型訓(xùn)練的創(chuàng)新方法、相關(guān)裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)”專(zhuān)利已正式對(duì)外公布。這項(xiàng)專(zhuān)利技術(shù)的核心在于引入了多重摘要文本的對(duì)比學(xué)習(xí)機(jī)制,顯著提升了模型的泛化能力和生成內(nèi)容的準(zhǔn)確性,為AI語(yǔ)言處理技術(shù)的發(fā)展開(kāi)辟了新的路徑。
據(jù)專(zhuān)利摘要介紹,騰訊的新方法巧妙地設(shè)計(jì)了“第一摘要文本”與“第二摘要文本”的概念。這兩類(lèi)摘要文本在信息量上存在差異,且第一摘要文本中包含了正確與錯(cuò)誤的語(yǔ)句混合。模型在訓(xùn)練過(guò)程中,通過(guò)對(duì)比這兩種摘要文本,能夠?qū)W習(xí)到如何區(qū)分正確的表達(dá)與錯(cuò)誤的表達(dá),從而有效減少了因單一數(shù)據(jù)源導(dǎo)致的過(guò)擬合問(wèn)題。這一設(shè)計(jì)不僅極大地豐富了模型的學(xué)習(xí)維度,還通過(guò)動(dòng)態(tài)調(diào)整策略,進(jìn)一步提升了生成結(jié)果的可靠性和準(zhǔn)確性。
值得注意的是,騰訊的這一新方法與近年來(lái)對(duì)比學(xué)習(xí)在文本摘要領(lǐng)域的應(yīng)用趨勢(shì)高度契合。對(duì)比學(xué)習(xí)通過(guò)構(gòu)造正負(fù)樣本,調(diào)整模型的表示空間,已在提升摘要質(zhì)量、緩解暴露偏差等方面取得了顯著成效。而騰訊此次將對(duì)比學(xué)習(xí)框架融入大語(yǔ)言模型的訓(xùn)練中,無(wú)疑進(jìn)一步拓展了該技術(shù)的應(yīng)用邊界,為AI語(yǔ)言處理技術(shù)的發(fā)展注入了新的活力。
有媒體對(duì)此進(jìn)行了深入分析,認(rèn)為騰訊的這項(xiàng)專(zhuān)利通過(guò)多樣化摘要文本及對(duì)比機(jī)制,為模型提供了一個(gè)更加貼近真實(shí)應(yīng)用場(chǎng)景的學(xué)習(xí)環(huán)境。這對(duì)于智能客服、內(nèi)容生成等需要高精度輸出的領(lǐng)域來(lái)說(shuō),具有極其重要的意義。該技術(shù)還有望加速大模型在實(shí)際應(yīng)用中的落地進(jìn)程。例如,在短文本對(duì)話(huà)場(chǎng)景中,騰訊此前已推出了基于混合注意力機(jī)制的對(duì)話(huà)模型專(zhuān)利。若將這一新訓(xùn)練方法與之結(jié)合,無(wú)疑將進(jìn)一步提升回復(fù)的相關(guān)性和豐富性,為用戶(hù)提供更加優(yōu)質(zhì)的對(duì)話(huà)體驗(yàn)。
回顧騰訊近年來(lái)在大語(yǔ)言模型領(lǐng)域的布局,可以看出其野心勃勃。從2023年的微調(diào)方法專(zhuān)利到此次的訓(xùn)練框架創(chuàng)新,騰訊在大語(yǔ)言模型領(lǐng)域的技術(shù)積累日益深厚,形成了全鏈條的技術(shù)布局。這一系列的突破不僅展示了騰訊在AI技術(shù)領(lǐng)域的強(qiáng)大實(shí)力,也為整個(gè)行業(yè)的發(fā)展注入了新的動(dòng)力。