近期,一份名為《2024中國(guó)開源開發(fā)者報(bào)告》的詳盡研究吸引了業(yè)界的廣泛關(guān)注。該報(bào)告由OSCHINA與Gitee聯(lián)合發(fā)布,深入剖析了中國(guó)開源開發(fā)者生態(tài)的現(xiàn)狀與未來趨勢(shì),尤其聚焦于開源大模型的發(fā)展。
報(bào)告顯示,截至2024年,Gitee平臺(tái)的總用戶數(shù)已達(dá)到1350萬(wàn),新增用戶數(shù)為150萬(wàn),總倉(cāng)庫(kù)數(shù)增至3600萬(wàn),新增500萬(wàn),同時(shí)開源組織數(shù)量也攀升至40萬(wàn)。在編程語(yǔ)言方面,Java、Javascript、Python依舊占據(jù)主導(dǎo)地位,而Typescript則展現(xiàn)出迅猛的增長(zhǎng)勢(shì)頭。在開源許可證的使用上,MIT和Apache-2.0最為常見,木蘭寬松許可證第二版也逐漸受到業(yè)界認(rèn)可。
在技術(shù)層面,中國(guó)開源模型已逐漸從跟隨者轉(zhuǎn)變?yōu)橐I(lǐng)者,在全球評(píng)測(cè)中取得了亮眼成績(jī),如智譜、阿里巴巴、深度求索等公司的開源模型備受矚目。開源生態(tài)日益繁榮,相關(guān)政策也在積極推動(dòng)合規(guī)創(chuàng)新。隨著端上模型的興起,推理擴(kuò)展法則的潛力得到釋放,模型向多元化和應(yīng)用細(xì)分方向發(fā)展。盡管開源模型在技術(shù)上可能并非最先進(jìn),但通過構(gòu)建開發(fā)者生態(tài),它們?cè)诟?jìng)爭(zhēng)中占據(jù)了顯著優(yōu)勢(shì)。
然而,開源大模型的發(fā)展也面臨著諸多挑戰(zhàn),如“算力墻”、數(shù)據(jù)質(zhì)量、版權(quán)、偏見以及被操控的風(fēng)險(xiǎn)等。為應(yīng)對(duì)這些挑戰(zhàn),業(yè)界正在積極探索智能體作為下一代“明星產(chǎn)品”,同時(shí)合成數(shù)據(jù)驅(qū)動(dòng)的新產(chǎn)業(yè)鏈也在逐步形成。多模態(tài)融合成為發(fā)展趨勢(shì),業(yè)界也在通過基于知識(shí)圖譜的方案來克服RAG方法的不足。未來,基于知識(shí)圖譜與大語(yǔ)言模型的垂域推理應(yīng)用和開源項(xiàng)目預(yù)計(jì)將不斷涌現(xiàn)。
在AI編程領(lǐng)域,AI編程助手的應(yīng)用日益廣泛,顯著提高了代碼生成和評(píng)審等任務(wù)的效率。然而,當(dāng)前AI編程仍面臨領(lǐng)域知識(shí)理解和原生IDE支持不足等瓶頸。未來,業(yè)界有望通過自底向上重構(gòu)工具鏈、適配大模型以及全系統(tǒng)異構(gòu)協(xié)同推理等方式,進(jìn)一步釋放其他硬件算力,為AI編程帶來新的發(fā)展機(jī)遇。
整體來看,中國(guó)在開源大模型領(lǐng)域的技術(shù)創(chuàng)新和生態(tài)建設(shè)方面取得了顯著成果。盡管面臨諸多挑戰(zhàn),但隨著技術(shù)的不斷進(jìn)步和政策的逐步完善,開源數(shù)據(jù)和算法將在推動(dòng)AI技術(shù)持續(xù)發(fā)展中發(fā)揮更加重要的作用??梢灶A(yù)見,未來中國(guó)開源大模型的發(fā)展將更加多元化和細(xì)分化,為AI技術(shù)的廣泛應(yīng)用奠定堅(jiān)實(shí)基礎(chǔ)。