meta AI公司近期在化學(xué)研究領(lǐng)域邁出了重要一步,攜手美國能源部勞倫斯伯克利國家實驗室,共同推出了一個前所未有的化學(xué)數(shù)據(jù)集——Open Molecules 2025(簡稱OMol25),以及一款通用原子模型Universal Models for Atoms(簡稱UMA)。
OMol25數(shù)據(jù)集堪稱化學(xué)研究的新里程碑,其規(guī)模之龐大,前所未見。該數(shù)據(jù)集包含了超過1億個基于密度泛函理論(DFT)計算得出的3D分子快照,為科學(xué)家提供了豐富的分子模擬資源。DFT作為一種強大的模擬工具,能夠精確捕捉原子間的相互作用,預(yù)測原子受力及系統(tǒng)能量,進而揭示分子運動和化學(xué)反應(yīng)的深層規(guī)律。
然而,傳統(tǒng)的DFT計算對計算資源的需求極為龐大,隨著分子復(fù)雜度的提升,計算需求呈指數(shù)級增長,即便是最先進的計算設(shè)備也難以應(yīng)對。為了克服這一難題,meta AI利用OMol25數(shù)據(jù)集訓(xùn)練了機器學(xué)習(xí)原子間勢(MLIPs),這種模型能夠以快至萬倍的速度提供與DFT同等精度的預(yù)測結(jié)果,使得科學(xué)家能夠在普通計算系統(tǒng)上模擬大型原子系統(tǒng)。
除了OMol25數(shù)據(jù)集外,meta AI還推出了UMA模型,這是一款基于過去五年meta FAIR公開數(shù)據(jù)集構(gòu)建的通用原子間勢能模型群。UMA覆蓋了分子、材料、觸媒等多個化學(xué)領(lǐng)域,利用超過50億個原子組成的3D結(jié)構(gòu)作為訓(xùn)練數(shù)據(jù),具有極高的通用性和預(yù)測精度。
UMA模型分為UMA-small和UMA-medium兩種規(guī)模,其中UMA-medium模型擁有14億參數(shù),但單結(jié)構(gòu)計算僅用約5000萬參數(shù),大大提高了推理速度。UMA模型無需微調(diào),僅通過預(yù)訓(xùn)練即可應(yīng)對多種化學(xué)任務(wù),其性能甚至超越了現(xiàn)有的專用模型。
研究表明,UMA在分子特性預(yù)測、材料設(shè)計、觸媒開發(fā)、能量存儲及半導(dǎo)體制造等領(lǐng)域均表現(xiàn)出色。其高精度與快速計算能力為科學(xué)研究和工業(yè)應(yīng)用開辟了新的路徑,推動了跨領(lǐng)域的技術(shù)革新。這一成果的發(fā)布,無疑將為化學(xué)研究注入新的活力,促進化學(xué)領(lǐng)域的快速發(fā)展。