近日,科技界迎來了一項(xiàng)新的突破,微軟研究院攜手中國頂尖學(xué)府清華大學(xué)與北京大學(xué),共同推出了一項(xiàng)名為獎勵推理模型(RRMs)的創(chuàng)新技術(shù)。這項(xiàng)技術(shù)旨在通過動態(tài)的計(jì)算資源分配,優(yōu)化復(fù)雜任務(wù)的評估效果,為人工智能領(lǐng)域帶來了新的曙光。
強(qiáng)化學(xué)習(xí)(RL)作為當(dāng)前大語言模型(LLM)后訓(xùn)練的關(guān)鍵方法,已經(jīng)引起了廣泛的關(guān)注。通過人類反饋(RLHF)或可驗(yàn)證獎勵(RLVR)提供的監(jiān)督信號,強(qiáng)化學(xué)習(xí)在模型訓(xùn)練中發(fā)揮著舉足輕重的作用。然而,盡管RLVR在數(shù)學(xué)推理中展現(xiàn)出巨大潛力,但其對可驗(yàn)證答案訓(xùn)練查詢的依賴,限制了其在通用領(lǐng)域的大規(guī)模應(yīng)用。
現(xiàn)有的獎勵模型主要分為標(biāo)量型和生成型兩大類,但它們在測試時計(jì)算資源的擴(kuò)展上均存在不足。傳統(tǒng)的做法是對所有輸入一視同仁,統(tǒng)一分配計(jì)算資源,這種“一刀切”的方式缺乏對復(fù)雜查詢的細(xì)致分析能力,導(dǎo)致評估結(jié)果不盡如人意。為了打破這一瓶頸,微軟研究院、清華大學(xué)和北京大學(xué)的科研團(tuán)隊(duì)聯(lián)手推出了RRMs。
RRMs的核心優(yōu)勢在于其顯式推理過程。在給出最終獎勵之前,RRMs會執(zhí)行一系列復(fù)雜的推理步驟,根據(jù)任務(wù)的復(fù)雜性自適應(yīng)地分配額外的計(jì)算資源。這一創(chuàng)新機(jī)制使得RRMs在面對獎勵不明顯的復(fù)雜查詢時,能夠投入更多的測試時計(jì)算資源,從而得到更準(zhǔn)確的評估結(jié)果。
RRMs基于Qwen2模型,采用了Transformer-decoder架構(gòu),將獎勵建模轉(zhuǎn)化為文本補(bǔ)全任務(wù)。在生成推理過程后,RRMs會給出最終的判斷。為了全面評估RRMs的性能,研究團(tuán)隊(duì)利用RewardBench庫進(jìn)行了系統(tǒng)分析,評估指標(biāo)涵蓋了指令遵循性、幫助性、準(zhǔn)確性、無害性和細(xì)節(jié)水平等多個方面。
RRMs還支持多響應(yīng)評估,通過ELO評分系統(tǒng)和淘汰賽機(jī)制,結(jié)合多數(shù)投票策略,進(jìn)一步提升了計(jì)算資源的利用率。在RewardBench和PandaLM Test基準(zhǔn)測試中,RRMs展現(xiàn)出了卓越的性能。特別是在推理類別中,RRM-32B的準(zhǔn)確率高達(dá)98.6%,與使用相同數(shù)據(jù)訓(xùn)練的DirectJudge模型相比,RRMs展現(xiàn)出了顯著的性能優(yōu)勢。
在獎勵引導(dǎo)的最佳N推理(Best-of-N Inference)和后訓(xùn)練反饋中,RRMs同樣超越了所有基線模型,并進(jìn)一步提升了多數(shù)投票機(jī)制的效率。研究還發(fā)現(xiàn),隨著模型規(guī)模從7B、14B擴(kuò)展到32B,更長的推理時間始終能夠帶來準(zhǔn)確性的提升。RRMs通過并行和順序擴(kuò)展方法高效地利用了計(jì)算資源,為傳統(tǒng)的標(biāo)量獎勵模型提供了強(qiáng)有力的替代方案。
這一創(chuàng)新成果不僅為人工智能領(lǐng)域帶來了新的突破,也為未來的智能系統(tǒng)發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。RRMs的推出,標(biāo)志著我們在復(fù)雜任務(wù)評估方面邁出了重要的一步,為人工智能的廣泛應(yīng)用開辟了新的道路。
隨著技術(shù)的不斷進(jìn)步和創(chuàng)新,我們有理由相信,未來的智能系統(tǒng)將更加智能、高效和人性化。RRMs的成功推出,無疑為這一愿景的實(shí)現(xiàn)注入了新的活力和動力。