近期,科技界傳來(lái)一則新動(dòng)態(tài),英偉達(dá)攜手賓夕法尼亞州立大學(xué)及華盛頓大學(xué),共同推出了名為Nemotron-Research-Tool-N1系列的新模型。這一系列模型受到了DeepSeek-R1的啟發(fā),并采用了創(chuàng)新的強(qiáng)化學(xué)習(xí)(RL)范式,旨在增強(qiáng)模型的推理能力。
在大型語(yǔ)言模型(LLMs)領(lǐng)域,通過(guò)整合外部工具來(lái)提升性能已成為一種流行趨勢(shì)。這些工具使得LLMs在搜索引擎、計(jì)算器、視覺(jué)處理及Python解釋器等多個(gè)領(lǐng)域展現(xiàn)出了卓越的性能。然而,現(xiàn)有的研究方法大多依賴于合成數(shù)據(jù)集,難以捕捉到明確的推理步驟,導(dǎo)致模型往往只能模仿表面的模式,而無(wú)法真正理解背后的決策過(guò)程。
為了克服這一挑戰(zhàn),研究者們積極探索了多種策略來(lái)提升LLMs的工具使用能力。一方面,他們通過(guò)整理數(shù)據(jù)集和優(yōu)化模型,創(chuàng)建了大規(guī)模的監(jiān)督數(shù)據(jù)集,并運(yùn)用了監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO)等強(qiáng)化學(xué)習(xí)技術(shù),將LLMs與外部工具相結(jié)合,進(jìn)一步擴(kuò)展其功能。另一方面,研究者們也在不斷改進(jìn)推理過(guò)程,從傳統(tǒng)的訓(xùn)練時(shí)擴(kuò)展轉(zhuǎn)向更為復(fù)雜的測(cè)試時(shí)策略。
盡管這些方法在一定程度上取得了成效,但它們?nèi)匀皇芟抻诤铣蓴?shù)據(jù)的不足。通過(guò)現(xiàn)有的策略,LLMs雖然能夠處理單輪或多輪的工具調(diào)用,但在自主推理的深度上仍顯不足。為了突破這一局限,英偉達(dá)及其合作伙伴開(kāi)發(fā)了Nemotron-Research-Tool-N1系列模型。
Nemotron-Research-Tool-N1系列模型并未依賴顯式的推理軌跡標(biāo)注,而是采用了一種二元獎(jiǎng)勵(lì)機(jī)制,鼓勵(lì)模型自主發(fā)展推理策略。研究者們對(duì)xLAM和ToolACE等數(shù)據(jù)集(包含單輪和多輪工具調(diào)用軌跡)的子集進(jìn)行了統(tǒng)一處理,并設(shè)計(jì)了一種輕量級(jí)的提示模板,以指導(dǎo)工具生成過(guò)程。這種模板通過(guò)使用特定的標(biāo)簽來(lái)明確指示中間推理步驟,并封裝工具調(diào)用,從而避免了模型過(guò)度擬合特定的提示模式。
在模型的主干部分,研究者們選擇了Qwen2.5-7B和14B,并測(cè)試了LLaMA系列的變體,以評(píng)估模型的泛化能力。在BFCL基準(zhǔn)測(cè)試中,Nemotron-Research-Tool-N1-7B和14B模型展現(xiàn)出了卓越的性能,不僅超越了GPT-4o等封閉源模型,還優(yōu)于xLAM-2-70B和ToolACE-8B等經(jīng)過(guò)專用微調(diào)的模型。
與采用相同數(shù)據(jù)源的SFT基準(zhǔn)相比,Nemotron-Research-Tool-N1系列模型展現(xiàn)出了顯著的優(yōu)勢(shì),這充分證明了強(qiáng)化學(xué)習(xí)方法的有效性。在API-Bank基準(zhǔn)測(cè)試中,Tool-N1-7B和14B的準(zhǔn)確率分別比GPT-4o高出了4.12%和5.03%。這些結(jié)果不僅驗(yàn)證了新方法的巨大潛力,還表明LLMs在自主生成推理策略方面取得了重要進(jìn)展。這一突破標(biāo)志著從傳統(tǒng)的監(jiān)督微調(diào)向強(qiáng)化學(xué)習(xí)范式的轉(zhuǎn)變。