近期,生物科技領(lǐng)域迎來了一項重大突破。隨著生物測序技術(shù)的飛速發(fā)展,全球天然基因庫中已積累了數(shù)十億級別的序列數(shù)據(jù),其中隱藏著無數(shù)具有極高價值的功能基因。然而,遺憾的是,目前僅有少數(shù)幾個“明星基因”得到了深入的研究和開發(fā),絕大多數(shù)基因仍然處于未被發(fā)掘的狀態(tài)。
為了改變這一現(xiàn)狀,中國科學(xué)院深圳先進技術(shù)研究院定量合成生物學(xué)全國重點實驗室的合成生物學(xué)研究所婁春波團隊,攜手北京大學(xué)定量生物學(xué)中心的錢瓏團隊,在國際權(quán)威學(xué)術(shù)期刊 Science Advances 上發(fā)表了一項開創(chuàng)性研究。他們成功開發(fā)出了全球首個專為合成生物學(xué)元件挖掘和生物制造應(yīng)用設(shè)計的大語言模型——“SYMPLEX”。
SYMPLEX 模型通過結(jié)合領(lǐng)域大語言模型的訓(xùn)練、合成生物學(xué)專家知識的對齊以及大規(guī)模生物信息分析,實現(xiàn)了從海量生物學(xué)文獻中自動化挖掘功能基因元件,并精準(zhǔn)評估這些元件在工程化應(yīng)用中的潛力。這一突破性的進展,展示了大型語言模型在生物制造領(lǐng)域的巨大應(yīng)用潛力。
研究團隊將 SYMPLEX 應(yīng)用于挖掘 mRNA 疫苗生物制造中的關(guān)鍵酶——加帽酶。通過這一模型,他們成功發(fā)現(xiàn)了多種高性能的新型加帽酶。經(jīng)過第三方公司的實驗驗證,這些新型加帽酶的催化效率遠超國際知名生物科技公司 New England Biolabs(NEB)的商業(yè)化加帽酶,催化效率提高了兩倍以上,從而顯著提升了 mRNA 疫苗的生產(chǎn)效率和成本效益。
研究團隊的創(chuàng)新之處在于,他們將大型語言模型(LLM)與結(jié)構(gòu)化的生物知識庫進行了深度融合,開發(fā)出 SYMPLEX 智能基因挖掘平臺。這一平臺能夠自動化閱讀和理解海量的生物學(xué)文獻,從基因、功能和知識三個層面對文獻內(nèi)容進行提取和分析。通過與專家數(shù)據(jù)庫進行概念對齊和交互,以及基于先進生物信息技術(shù)的統(tǒng)計模式生成,SYMPLEX 能夠提供具有完整證據(jù)鏈的高質(zhì)量候選基因集合。
SYMPLEX 不僅有效避免了大型語言模型可能出現(xiàn)的幻覺問題,還能夠自動生成與基因功能相關(guān)的細粒度知識樹。這一功能為科學(xué)家提供了寶貴的工具,引導(dǎo)他們深入探索廣泛的生物機制和分子過程。
與傳統(tǒng)基因挖掘流程相比,SYMPLEX 大模型在挖掘基因的深度、數(shù)量和多樣性方面都表現(xiàn)出顯著的優(yōu)勢。其挖掘的基因多樣性甚至超越了現(xiàn)有蛋白質(zhì)功能預(yù)測模型的邊界。這一突破性的進展,無疑為生物科技領(lǐng)域帶來了新的希望和機遇。
目前,SYMPLEX 在線交互式平臺已經(jīng)正式上線,供研究人員使用。該平臺采用模塊化設(shè)計,提供了三個核心功能:文獻智能提取引擎 PubEngine,支持高通量的文獻智能檢索分析與可視化交互;基因功能標(biāo)注系統(tǒng) GeneTagger,實現(xiàn)從分子機制到生物過程的細粒度自動化基因與功能提?。灰约皹?biāo)準(zhǔn)化知識中樞 GeneNorm,實現(xiàn)與專家知識庫的概念對齊與標(biāo)準(zhǔn)化,支持知識樹構(gòu)建和功能模式識別。