亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財(cái)經(jīng)媒體
科技·商業(yè)·財(cái)經(jīng)

豆包大模型開(kāi)源Multi-SWE-bench,多語(yǔ)言“自動(dòng)修Bug”能力能否更上一層樓?

   時(shí)間:2025-04-10 18:34 作者:馮璃月

字節(jié)跳動(dòng)旗下的豆包大模型團(tuán)隊(duì)近日傳來(lái)重要消息,他們正式推出了首個(gè)多語(yǔ)言軟件錯(cuò)誤修正(SWE)數(shù)據(jù)集——Multi-SWE-bench。這一創(chuàng)新工具旨在評(píng)估和提升大型語(yǔ)言模型在自動(dòng)修復(fù)代碼錯(cuò)誤方面的能力。

Multi-SWE-bench是在原有SWE-bench的基礎(chǔ)上拓展而來(lái),其最大亮點(diǎn)在于覆蓋了除Python外的七種主流編程語(yǔ)言,包括Java、Go、Rust、C、C++、Type以及再次提及的Java(此處原文可能有誤,或?yàn)槠渌Z(yǔ)言,如Typescript,但為保持原文信息完整性,按原文轉(zhuǎn)述)。這一數(shù)據(jù)集真正實(shí)現(xiàn)了面向“全棧工程”的評(píng)測(cè)基準(zhǔn),為開(kāi)發(fā)者提供了更為全面的評(píng)估工具。

據(jù)悉,Multi-SWE-bench共包含1632個(gè)實(shí)例,這些實(shí)例均源自GitHub上的issue,且經(jīng)過(guò)嚴(yán)格的測(cè)試標(biāo)準(zhǔn)和專業(yè)開(kāi)發(fā)者的精心篩選。每個(gè)樣本都確保了問(wèn)題描述的清晰性、修復(fù)補(bǔ)丁的正確性以及可復(fù)現(xiàn)的運(yùn)行測(cè)試環(huán)境,從而保證了數(shù)據(jù)集的高質(zhì)量。

豆包大模型團(tuán)隊(duì)表示,他們希望Multi-SWE-bench能夠成為大型語(yǔ)言模型在多種主流編程語(yǔ)言與真實(shí)代碼環(huán)境中的系統(tǒng)性評(píng)測(cè)基準(zhǔn)。這一工具將推動(dòng)自動(dòng)編程能力向更加實(shí)用、更加工程化的方向發(fā)展,為開(kāi)發(fā)者帶來(lái)實(shí)質(zhì)性的幫助。

與以往主要聚焦于Python單語(yǔ)言任務(wù)的數(shù)據(jù)集相比,Multi-SWE-bench更加貼近現(xiàn)實(shí)中的多語(yǔ)言開(kāi)發(fā)場(chǎng)景。它不僅能夠更準(zhǔn)確地反映當(dāng)前模型在“自動(dòng)化軟件工程”方向上的實(shí)際能力邊界,還為開(kāi)發(fā)者提供了更為全面、更為實(shí)用的評(píng)測(cè)工具。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容