在科技界的一次重大突破中,OpenAI于近日揭曉了其最新的推理模型——o3與o4-mini。據(jù)官方宣稱,這兩款模型代表了OpenAI至今為止最為智能的成就,重新定義了智能性與實(shí)用性的標(biāo)準(zhǔn)。
o3,作為OpenAI的旗艦推理模型,其能力跨越數(shù)學(xué)、編程、科學(xué)以及視覺感知等多個領(lǐng)域,遠(yuǎn)超其前身o1及o3-mini。OpenAI指出,o3擅長處理那些需要深度分析與綜合考量,答案并不顯而易見的復(fù)雜問題。而o4-mini,則是一款旨在提供高效快速推理服務(wù)的小型優(yōu)化版模型。
在o3的研發(fā)歷程中,OpenAI發(fā)現(xiàn)大規(guī)模強(qiáng)化學(xué)習(xí)與GPT系列預(yù)訓(xùn)練遵循相同的規(guī)律:計算量增加,性能隨之提升。因此,OpenAI在訓(xùn)練計算量與推理思維方面實(shí)現(xiàn)了質(zhì)的飛躍,顯著提高了模型性能。通過強(qiáng)化學(xué)習(xí),OpenAI還成功訓(xùn)練了兩個新模型使用工具。
值得注意的是,o3與o4-mini不僅繼承了ChatGPT中的所有工具,如網(wǎng)頁搜索、圖像生成及Python數(shù)據(jù)分析等,還展現(xiàn)出了更為強(qiáng)大的能力。例如,在回答關(guān)于電池技術(shù)革新對電動汽車影響的問題時,o1模型在5秒內(nèi)給出以文字與代碼為主的答復(fù),而o3模型則在40秒內(nèi),通過多次搜索,不僅提供了文字信息,還直接生成了圖像與圖表。
在視覺推理領(lǐng)域,o3與o4-mini同樣取得了突破。這兩款模型不僅能夠“看見”圖像,更能利用圖像進(jìn)行思考,將其融入推理過程中。例如,當(dāng)用戶上傳一張倒置的手寫筆記照片時,模型能夠利用工具對圖像進(jìn)行縮放、旋轉(zhuǎn)或裁剪,最終準(zhǔn)確識別出筆記內(nèi)容。
自去年9月OpenAI率先推出推理模型o1以來,全球范圍內(nèi)的大模型廠商紛紛跟進(jìn),推出了各自的推理模型,如谷歌的Gemini 2.5、Grok 3,以及國內(nèi)的DeepSeek-R1、通義千問QwQ-32B等,形成了對OpenAI的追趕態(tài)勢。尤其是阿里通義近期推出的視覺推理模型QVQ-Max,同樣強(qiáng)調(diào)結(jié)合圖片、視頻信息進(jìn)行分析與推理。
面對激烈的市場競爭,OpenAI對o3模型的發(fā)布顯得尤為迫切。據(jù)英國《金融時報》報道,OpenAI為了盡早推出o3,僅給員工和第三方組織留出了幾天時間進(jìn)行安全評估,相比之下,2023年發(fā)布的GPT-4模型經(jīng)過了長達(dá)6個月的評估。盡管如此,OpenAI仍強(qiáng)調(diào),對o3與o4-mini進(jìn)行了迄今為止最為嚴(yán)格的安全壓力測試。
o3模型原本并不在OpenAI的規(guī)劃之中。今年2月,OpenAI CEO Sam Altman曾表示,不會單獨(dú)發(fā)布o(jì)3模型,而是將其技術(shù)集成到即將推出的下一代GPT-5模型中。然而,隨著3月OpenAI完成400億美元的新融資,Sam Altman終于表示,公司不再受到計算資源的限制。
OpenAI認(rèn)為,o3與o4-mini的發(fā)布標(biāo)志著其模型發(fā)展的新方向:將o系列的推理能力與GPT系列的對話能力、工具使用能力相結(jié)合。通過整合這些優(yōu)勢,OpenAI未來的模型將實(shí)現(xiàn)無縫、自然的對話,同時主動使用工具并解決高級問題。