近期,科技界迎來了一項引人矚目的新進展。據(jù)科技媒體The Decoder報道,OpenAI的高級模型開發(fā)領軍人物Jakub Pachocki在一篇博文中提出了一個頗具顛覆性的觀點:AI推理模型正逐步展現(xiàn)出自主生成知識的能力。
Pachocki強調(diào),這種推理機制并非是對人類思維的簡單模仿,而是一個基于大數(shù)據(jù)和先進算法的創(chuàng)新過程。他詳細闡述了AI學習的兩個階段。在第一階段,模型通過無監(jiān)督預訓練,廣泛吸收各類數(shù)據(jù),構建出一個無意識的“世界模型”,這個模型為理解現(xiàn)實世界的基本結構提供了基礎。
進入第二階段,模型則通過強化學習與人類反饋(RLHF)的結合,將基礎模型轉化為能夠解決實際問題的助手。Pachocki特別指出,在最新的推理模型中,這一階段發(fā)揮著至關重要的作用。他同時提到,OpenAI在處理有明確答案的任務時,仍采用傳統(tǒng)的強化學習方法,而RLHF則更適合應對復雜問題,盡管其擴展性受到一定限制。
Pachocki還對傳統(tǒng)的學習階段劃分提出了質(zhì)疑。他認為,推理模型的“思考”能力實際上深深植根于預訓練數(shù)據(jù)中,因此預訓練與強化學習不應被視為兩個完全獨立的階段,而是需要更加緊密地融合。
近期一篇學術論文也指出,推理訓練并非為模型帶來了全新的能力,而是幫助它們以更高效的方式運用已有知識。例如,模型能夠以更加結構化的方式解決已知問題。Pachocki對這一觀點表示贊同,并進一步指出,模型已經(jīng)開始展現(xiàn)出發(fā)現(xiàn)新見解的潛力,這為AI的未來發(fā)展奠定了堅實的基礎。
在談到通用人工智能(AGI)時,Pachocki表示自己的觀點一直在不斷演變。他回憶起自己作為學生時,曾認為AI掌握圍棋是一個遙不可及的目標。然而,2016年AlphaGo的勝利徹底顛覆了他的看法。如今,他將AI的經(jīng)濟價值視為下一個重要的里程碑,并強調(diào)AI必須實現(xiàn)商業(yè)成果,同時開展自主研究。
Pachocki預測,到本世紀末,AI在自主研究方面將取得實質(zhì)性進展。他甚至表示,今年內(nèi)就有可能出現(xiàn)近乎自主的軟件開發(fā)系統(tǒng),這將進一步推動AI技術的邊界。