近期,關(guān)于OpenAI的o3人工智能模型在基準(zhǔn)測試上的表現(xiàn)引發(fā)了廣泛關(guān)注與討論。爭議的核心在于,OpenAI首次發(fā)布o(jì)3模型時(shí)公布的測試結(jié)果與外界第三方機(jī)構(gòu)的測試結(jié)果存在顯著差異。
去年12月,OpenAI自豪地宣布,其o3模型在極具難度的FrontierMath數(shù)學(xué)問題集上取得了突破性成績,正確率超過四分之一,遠(yuǎn)超其他競爭對手。OpenAI首席研究官M(fèi)ark Chen在直播中強(qiáng)調(diào),這一成績是在內(nèi)部激進(jìn)測試條件下,使用資源更為強(qiáng)大的o3模型版本所得出的。
然而,事情并未如此簡單。負(fù)責(zé)FrontierMath的Epoch研究所隨后公布的獨(dú)立基準(zhǔn)測試結(jié)果顯示,公開發(fā)布的o3模型得分僅為約10%,遠(yuǎn)低于OpenAI宣稱的分?jǐn)?shù)。這一發(fā)現(xiàn)立即引發(fā)了外界對OpenAI透明度和測試實(shí)踐的質(zhì)疑。
值得注意的是,OpenAI在12月公布的測試結(jié)果中確實(shí)包含了一個(gè)與Epoch測試結(jié)果相符的較低分?jǐn)?shù)。Epoch在報(bào)告中指出,測試設(shè)置的差異、評估使用的FrontierMath版本更新,以及可能的計(jì)算資源和框架不同,都可能是導(dǎo)致結(jié)果差異的原因。
ARC Prize基金會也在X平臺上發(fā)布消息,進(jìn)一步證實(shí)了Epoch的報(bào)告。ARC Prize指出,公開發(fā)布的o3模型是一個(gè)針對聊天和產(chǎn)品使用進(jìn)行了調(diào)整的不同版本,且所有發(fā)布的o3計(jì)算層級都比預(yù)發(fā)布版本要小。這意味著,盡管o3模型在內(nèi)部測試中取得了高分,但公開發(fā)布的版本在性能上有所妥協(xié)。
盡管如此,OpenAI并未因此止步。該公司后續(xù)推出的o3-mini-high和o4-mini模型在FrontierMath上的表現(xiàn)已經(jīng)超越了最初的o3模型。同時(shí),OpenAI還計(jì)劃在未來幾周內(nèi)推出更強(qiáng)大的o3版本——o3-pro。
然而,這一系列事件再次凸顯了人工智能基準(zhǔn)測試結(jié)果的復(fù)雜性和不確定性。尤其是當(dāng)這些結(jié)果來自有產(chǎn)品需要銷售的公司時(shí),外界對其真實(shí)性和可靠性的質(zhì)疑聲往往會更加響亮。隨著人工智能行業(yè)的競爭加劇,各供應(yīng)商紛紛急于推出新模型以吸引眼球和市場份額,基準(zhǔn)測試“爭議”正變得越來越普遍。
事實(shí)上,類似的爭議并非個(gè)例。今年1月,Epoch因在OpenAI宣布o(jì)3之后才披露其從OpenAI獲得的資金支持而受到批評。許多為FrontierMath做出貢獻(xiàn)的學(xué)者直到公開時(shí)才知道OpenAI的參與。而最近,埃隆·馬斯克的xAI也被指控為其最新的人工智能模型Grok 3發(fā)布了誤導(dǎo)性的基準(zhǔn)測試圖表。就在本月,meta也承認(rèn)其宣傳的基準(zhǔn)測試分?jǐn)?shù)所基于的模型版本與提供給開發(fā)者的版本不一致。