隨著2025年的到來,人工智能大模型正以驚人的速度融入我們的現(xiàn)實(shí)世界。其參數(shù)規(guī)模由千億級(jí)向萬億級(jí)邁進(jìn),數(shù)據(jù)類型也從單一的文本擴(kuò)展到圖像、音頻、視頻乃至多模態(tài)融合。同時(shí),這些大模型的訓(xùn)練、微調(diào)及部署場(chǎng)景已不再局限于科技公司,而是廣泛滲透到金融、醫(yī)療、制造等傳統(tǒng)行業(yè)中。大模型已從科研領(lǐng)域的探索轉(zhuǎn)變?yōu)楣I(yè)級(jí)應(yīng)用的核心競(jìng)爭(zhēng)力。
然而,在這一波“模型大型化、場(chǎng)景多元化”的浪潮中,支撐這些大模型運(yùn)行的數(shù)據(jù)存儲(chǔ)系統(tǒng)正面臨前所未有的挑戰(zhàn)。
為了深入了解這一現(xiàn)狀,我們采訪了西部數(shù)據(jù)、極道科技、華瑞指數(shù)云以及京東云等領(lǐng)域的專家,試圖解答以下幾個(gè)關(guān)鍵問題:大模型的商用化對(duì)數(shù)據(jù)存儲(chǔ)提出了哪些新的需求?當(dāng)前的主流存儲(chǔ)架構(gòu)為何難以應(yīng)對(duì)這些挑戰(zhàn)?下一代“AI原生存儲(chǔ)體系”應(yīng)具備哪些核心能力?
大模型的商用化對(duì)數(shù)據(jù)存儲(chǔ)的需求發(fā)生了顯著變化。數(shù)據(jù)存儲(chǔ)作為數(shù)智化的基礎(chǔ)設(shè)施,必須根據(jù)上層數(shù)字化、智能化的需求進(jìn)行調(diào)整。首先,AI大模型的訓(xùn)練和推理對(duì)數(shù)據(jù)系統(tǒng)的吞吐性能和并發(fā)能力提出了極高要求。在訓(xùn)練階段,多個(gè)GPU節(jié)點(diǎn)需要以每秒幾十GB的速度從存儲(chǔ)系統(tǒng)讀取數(shù)據(jù),任何IO延遲都會(huì)造成GPU算力的浪費(fèi)。而在推理階段,高并發(fā)讀寫需求常常達(dá)到數(shù)十GB/s甚至上百GB/s的量級(jí),存儲(chǔ)系統(tǒng)的響應(yīng)速度直接影響到用戶體驗(yàn)和服務(wù)穩(wěn)定性。
其次,多模態(tài)、非結(jié)構(gòu)化數(shù)據(jù)的組織與索引復(fù)雜度也大幅增加。AI大模型的輸入不再局限于文本,而是擴(kuò)展到圖像、音頻、視頻等多種數(shù)據(jù)類型。這些數(shù)據(jù)不僅體量龐大,格式復(fù)雜,訪問模式也各異,傳統(tǒng)的數(shù)據(jù)湖方案已難以滿足需求。AI存儲(chǔ)不僅需要支持多種協(xié)議,還要能同時(shí)管理結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)統(tǒng)一的語義檢索和數(shù)據(jù)流轉(zhuǎn)能力。
數(shù)據(jù)版本控制與可追溯性需求也變得剛性。隨著模型迭代速度的加快,每一次微調(diào)、A/B測(cè)試都需要基于明確可回溯的數(shù)據(jù)版本來訓(xùn)練,以確保實(shí)驗(yàn)的可復(fù)現(xiàn)性和結(jié)果的可驗(yàn)證性。同時(shí),冷熱數(shù)據(jù)自動(dòng)分層與智能調(diào)度的需求也更為迫切。AI訓(xùn)練過程中,只有少數(shù)數(shù)據(jù)是真正的熱數(shù)據(jù),其余大量數(shù)據(jù)屬于低頻訪問或歸檔數(shù)據(jù),不進(jìn)行分層處理會(huì)導(dǎo)致高性能存儲(chǔ)資源被低價(jià)值數(shù)據(jù)占據(jù)。
最后,存儲(chǔ)系統(tǒng)的安全性、合規(guī)性和可控性要求也更高。隨著AI在金融、醫(yī)療、政務(wù)等領(lǐng)域的廣泛應(yīng)用,數(shù)據(jù)安全和合規(guī)要求變得更加嚴(yán)格。數(shù)據(jù)訪問權(quán)限、加密存儲(chǔ)、審計(jì)日志、跨地域合規(guī)存儲(chǔ)等需求已成為必備項(xiàng)。
然而,在AI大模型的落地過程中,許多企業(yè)發(fā)現(xiàn)數(shù)據(jù)存儲(chǔ)系統(tǒng)成為了制約模型訓(xùn)練和推理效率的瓶頸。GPU在等待IO響應(yīng)時(shí)算力處于空轉(zhuǎn)狀態(tài),對(duì)象存儲(chǔ)在高并發(fā)場(chǎng)景下暴露短板,手動(dòng)數(shù)據(jù)分層策略難以應(yīng)對(duì)大規(guī)模數(shù)據(jù)集,Kubernetes環(huán)境下的存儲(chǔ)協(xié)同復(fù)雜且易出錯(cuò),存儲(chǔ)系統(tǒng)對(duì)數(shù)據(jù)流動(dòng)路徑的全局感知能力不足導(dǎo)致數(shù)據(jù)全生命周期管理盲區(qū)顯現(xiàn)。
為了解決這些問題,業(yè)界開始探索面向AI場(chǎng)景優(yōu)化的新型數(shù)據(jù)存儲(chǔ)底座。一個(gè)全新的方向是構(gòu)建為AI而生的“原生存儲(chǔ)架構(gòu)”。極道科技的統(tǒng)一計(jì)算系統(tǒng)Achelous能夠感知訓(xùn)練任務(wù)的IO特征,并實(shí)現(xiàn)按需加載、智能預(yù)取、動(dòng)態(tài)分層的數(shù)據(jù)調(diào)度機(jī)制。數(shù)據(jù)版本控制系統(tǒng)如LakeFS、Delta Lake也逐漸興起,以解決數(shù)據(jù)不可復(fù)現(xiàn)和實(shí)驗(yàn)難調(diào)試的問題。AI場(chǎng)景下的“新三層”架構(gòu)結(jié)合了分布式存儲(chǔ)、緩存和元數(shù)據(jù)系統(tǒng),以應(yīng)對(duì)并發(fā)讀寫和多模態(tài)數(shù)據(jù)訪問的挑戰(zhàn)。京東云的“云海AI存儲(chǔ)”通過自研引擎與RDMA網(wǎng)絡(luò)實(shí)現(xiàn)了高性能與低延遲的平衡。
同時(shí),“數(shù)據(jù)即服務(wù)”的理念逐漸升溫,存儲(chǔ)系統(tǒng)不再僅僅是存放數(shù)據(jù)的地方,而是要提供按需供給、全程可控的服務(wù)能力。華瑞指數(shù)云通過自研平臺(tái)WADP實(shí)現(xiàn)了對(duì)AI數(shù)據(jù)全生命周期的統(tǒng)一管理,打造面向AI的“數(shù)據(jù)供應(yīng)鏈”系統(tǒng)。
隨著AI成為公有云的新戰(zhàn)場(chǎng),各大云廠商也在加速推出面向AI場(chǎng)景的專用存儲(chǔ)產(chǎn)品。京東云的“云海AI存儲(chǔ)”已支持超百家客戶落地大模型項(xiàng)目,未來對(duì)象存儲(chǔ)將深度融合AI任務(wù)引擎,成為L(zhǎng)akehouse架構(gòu)的核心底座。
下一代AI原生存儲(chǔ)系統(tǒng)必須是感知型、協(xié)同型、平臺(tái)型的。它不僅要處理數(shù)據(jù),更要理解任務(wù)、預(yù)測(cè)行為、支撐協(xié)同,最終成為AI系統(tǒng)的一部分。在AI時(shí)代,數(shù)據(jù)存儲(chǔ)系統(tǒng)的價(jià)值被嚴(yán)重低估,但它卻是決定AI訓(xùn)練能否順利進(jìn)行、推理能否擴(kuò)展、數(shù)據(jù)能否有效控制的關(guān)鍵組件。誰先把數(shù)據(jù)存儲(chǔ)從“被動(dòng)配角”變?yōu)椤爸鲃?dòng)核心”,誰就真正掌握了AI時(shí)代的落地主動(dòng)權(quán)。