向量數(shù)據(jù)庫領(lǐng)域近年來風起云涌,成為技術(shù)界的一大熱點。其核心在于高效檢索高維向量數(shù)據(jù),這對于大型模型的訓練和推理至關(guān)重要。特別是自2023年以來,隨著大模型的迅猛發(fā)展,向量檢索——尤其是檢索增強生成(RAG)技術(shù)中的關(guān)鍵一環(huán)——更是吸引了數(shù)據(jù)庫技術(shù)領(lǐng)域的廣泛關(guān)注。
然而,隨著RAG技術(shù)的廣泛應用,其局限性也逐漸暴露出來。RAG技術(shù)主要依賴于向量化知識本身,難以捕捉獨立信息之間的鏈接,無法結(jié)合關(guān)系和語境進行深度理解。因此,在處理需要深層次語義關(guān)系和上下文細微差別的復雜查詢時,RAG技術(shù)顯得力不從心。
面對這一挑戰(zhàn),杭州悅數(shù)科技有限公司(以下簡稱悅數(shù))的CTO葉小萌帶領(lǐng)團隊,于2023年與LlamaIndex聯(lián)合提出了Graph RAG的設(shè)想,并迅速分享了這一概念的初步驗證結(jié)果。Graph RAG通過結(jié)合知識圖譜,能夠更精確、全面地檢索相關(guān)信息,使模型能夠關(guān)聯(lián)上下文給出答復。盡管這一概念在國內(nèi)起初并未引起太大波瀾,但悅數(shù)團隊持續(xù)推動其落地,并在去年11月推出了悅數(shù)RAG產(chǎn)品,實現(xiàn)了基于圖的檢索增強生成,有效解決了企業(yè)的知識孤島問題。
微軟也在去年7月2日開源了Graph RAG研究項目,使得這一概念真正走進了大眾視野。然而,從概念提出的時間來看,悅數(shù)實際上早于微軟。悅數(shù)團隊在開發(fā)Graph RAG的過程中,起初只有一個人負責相關(guān)工作。那么,開發(fā)Graph RAG的難度究竟有多大?致力于在信創(chuàng)領(lǐng)域打造圖數(shù)據(jù)庫的悅數(shù),又需要付出哪些額外努力呢?葉小萌向我們分享了這些年的心路歷程。
葉小萌表示,悅數(shù)在差異化策略上主要依賴于技術(shù)。大模型的興起讓RAG技術(shù)火了起來,而RAG技術(shù)的核心在于將私域數(shù)據(jù)保存下來,并通過向量化快速找到關(guān)聯(lián)內(nèi)容。然而,悅數(shù)團隊在看到向量數(shù)據(jù)庫浪潮的同時,也發(fā)現(xiàn)了其缺陷:向量數(shù)據(jù)庫難以呈現(xiàn)知識間的關(guān)聯(lián)。因此,擅長處理關(guān)聯(lián)關(guān)系的圖數(shù)據(jù)庫在此大有可為。
在悅數(shù)團隊首次提出Graph RAG概念時,人們對這兩者的結(jié)合還難以想象。但悅數(shù)并未退縮,迅速組建團隊開始打造RAG產(chǎn)品。一年后,悅數(shù)RAG產(chǎn)品成功推出,并已進入產(chǎn)品市場契合度(PMF)階段,預計今年能夠進行大規(guī)模推廣。
對于這家團隊規(guī)模僅七八十人的創(chuàng)業(yè)公司來說,在原有產(chǎn)品線上開辟出一條新的產(chǎn)品線并不容易。除了內(nèi)核的圖庫外,負責上層RAG的團隊起初只有古思為一個人。古思為認為,當時市面上的RAG結(jié)合方式都缺乏令人興奮的點。在學習RAG范式時,他敏銳地捕捉到RAG在利用無狀態(tài)大模型進行上下文理解和推理時無法繞過知識圖譜,因為真實世界中的知識組織結(jié)構(gòu)都是網(wǎng)狀的。因此,他看到了Graph RAG的潛力,并決定投入研發(fā)。
古思為回顧說,Graph RAG就像一個小帳篷,里面可以容納很多東西,但這也帶來了抉擇的挑戰(zhàn)。例如,在選擇圖的形式時,團隊需要考慮是使用現(xiàn)有的知識圖譜進行事實檢測和推理,還是從不同類型的知識中二次處理增強變成圖狀數(shù)據(jù),還是僅用圖狀結(jié)構(gòu)生成總結(jié)。在沒有足夠參考的情況下,每個決定都需要反復斟酌。最終,悅數(shù)取舍簡化后呈現(xiàn)的初步驗證獲得了不錯的反響,而當時定下的實現(xiàn)方式至今仍然是Graph RAG的默認常用方法。
在后續(xù)概念的落地過程中,悅數(shù)遇到了比想象中更復雜的挑戰(zhàn)。2024年上半年,悅數(shù)開始提供抽象工具給用戶,但技術(shù)門檻讓許多客戶難以自行搭建pipeline。為了降低用戶使用產(chǎn)品的難度,團隊與四五十個客戶進行了深入溝通,并迭代出了一定程度開箱即用的方案。
如今,悅數(shù)RAG已經(jīng)可以無縫銜接DeepSeek,團隊也在基于蒸餾技術(shù)、圖上推理等功能進行RAG迭代。同時,悅數(shù)在圖數(shù)據(jù)庫領(lǐng)域也走在了前沿。2024年4月,國際標準化組織(ISO)發(fā)布了國際標準圖查詢語言GQL,而悅數(shù)一直跟蹤投入研發(fā),并在GQL標準發(fā)布后的同年11月推出了全球第一款原生支持GQL的分布式圖數(shù)據(jù)庫產(chǎn)品——悅數(shù)圖數(shù)據(jù)庫v5.0。
悅數(shù)不僅在RAG領(lǐng)域積極探索,還在信創(chuàng)領(lǐng)域發(fā)力。葉小萌認為,信創(chuàng)的核心在于自主可控,而悅數(shù)圖數(shù)據(jù)庫的每一行代碼都是團隊親手寫下,因此已經(jīng)具備了IP和代碼的自主權(quán),為信創(chuàng)提供了良好的土壤。盡管目前圖數(shù)據(jù)庫還不在信創(chuàng)名錄之列,但悅數(shù)正在積極適配各種信創(chuàng)操作系統(tǒng)或硬件,以期在未來能夠進入信創(chuàng)名錄并得到認證。
適配國產(chǎn)硬件生態(tài)并非易事,尤其是國產(chǎn)CPU架構(gòu)多樣,對團隊編譯適配提出了更高的時間和人力要求。然而,葉小萌也看到,雖然國產(chǎn)與國外硬件在x86架構(gòu)上的差距仍較大,但在arm CPU級別上已與國際化水平非常接近。悅數(shù)圖數(shù)據(jù)庫在去年6月通過了中國信通院舉辦的“可信數(shù)據(jù)庫”圖數(shù)據(jù)庫性能測試,成為國內(nèi)首個全項完成該測試的圖數(shù)據(jù)庫產(chǎn)品,這也體現(xiàn)了悅數(shù)在信創(chuàng)領(lǐng)域匹配國標的決心。
悅數(shù)目前以客戶為中心,其中一半以上都有信創(chuàng)需求。葉小萌觀察到,現(xiàn)在還愿意出高價的企業(yè)大多是國央企或至少有國資背景的企業(yè)。因此,政企領(lǐng)域的客戶競爭尤為激烈,尤其是金融業(yè)。金融業(yè)IT需求發(fā)展起步較早,每年預算高,競爭尤為激烈。
在價格戰(zhàn)中,悅數(shù)盡量避免受到波及。投標時,悅數(shù)會避開價格分數(shù)占比過高的場景,也盡量避免卷入搶低價客戶的漩渦。葉小萌相信,產(chǎn)品價格應該體現(xiàn)產(chǎn)品本身給客戶帶來的價值。卷技術(shù)對行業(yè)有利,但卷價格無法體現(xiàn)軟件產(chǎn)品的價值。
親歷圖數(shù)據(jù)庫市場成長的浪潮,葉小萌感受到市場教育的成效顯著?,F(xiàn)在團隊接觸客戶時,不再需要介紹圖數(shù)據(jù)庫的定義和功能,而是直接從行業(yè)經(jīng)驗和使用場景開始介紹。作為從業(yè)者,他形容數(shù)據(jù)庫市場的競爭如同長跑,現(xiàn)在已經(jīng)進程過半。雖然不排除有人最后沖刺反超,但已經(jīng)能夠分出第一梯隊和第二梯隊。如今,數(shù)據(jù)庫市場開始大浪淘沙,產(chǎn)品差距只會越來越明顯。
葉小萌領(lǐng)略過硅谷科技大公司的工程師文化,深受感染,并希望悅數(shù)能夠成為技術(shù)上最強的公司。悅數(shù)的氛圍十分接近他心之所向的工程師文化——大家專注做技術(shù)、以技術(shù)為導向,員工自驅(qū)力很強。然而,對葉小萌來說,創(chuàng)業(yè)最難的是突破邊界。浸潤技術(shù)領(lǐng)域多年的他,在商業(yè)化后開始接觸客戶,面對的對象從電子屏幕轉(zhuǎn)變?yōu)槿?。他感慨自己仍在突破自我的路上?/p>