DeepSeek,這家中國的初創(chuàng)AI公司,正以驚人的效率革命顛覆著人工智能行業(yè)的成本結(jié)構(gòu),引發(fā)了全球范圍內(nèi)的廣泛關注與討論。
DeepSeek的開發(fā)成本極低,不僅開源而且服務完全免費,這一模式讓眾多AI從業(yè)者眼前一亮,甚至讓世界首富馬斯克都感到震驚。知名投資人“木頭姐”凱茜·伍德更是直言不諱,稱DeepSeek加劇了人工智能的成本崩潰。這股來自東方的神秘力量,不僅讓世界為之側(cè)目,更引發(fā)了中美AI領導地位更替的深思。
DeepSeek的顛覆性創(chuàng)新在于其極致的效率。據(jù)悉,DeepSeek僅用不到OpenAI十分之一的成本,就達到了后者最新大模型的性能。1月20日,DeepSeek正式發(fā)布了DeepSeek-R1模型系列,在Chatbot Arena大模型排行榜上,DeepSeek-R1的基準測試排名迅速攀升至全類別第三,與ChatGPT-4o最新版并駕齊驅(qū),并在風格控制類模型分類中與OpenAI-o1并列榜首。這一成績無疑是對DeepSeek效率的最佳證明。
據(jù)DeepSeekV3技術報告顯示,V3模型的訓練總計僅需要278.8萬GPU小時,相當于在2048塊H800(英偉達特供中國市場的低配版GPU)集群上訓練約2個月,合計成本僅557.6萬美金。而相比之下,GPT-4o模型的訓練成本高達1億美元,需要萬塊以上的H100 GPU。DeepSeek以不到十分之一的成本,達到了世界一流水平,這無疑是對傳統(tǒng)“高投入、高算力”研發(fā)路徑的一次重大挑戰(zhàn)。
DeepSeek的成功,源于其自研的MLA和MOE架構(gòu),以及數(shù)據(jù)蒸餾技術的運用。通過一系列算法和策略,DeepSeek將原始復雜的數(shù)據(jù)進行去噪、降維、提煉,從而得到更為精煉、更有用的數(shù)據(jù),極大提升了訓練效率。這種“四兩撥千斤”的能力,讓DeepSeek在AI領域脫穎而出。
然而,DeepSeek的出現(xiàn)也引發(fā)了一些爭議。OpenAI等科技大廠指責DeepSeek通過“模型蒸餾”技術“違規(guī)復制”其產(chǎn)品功能,但始終未提供具體證據(jù)。關于數(shù)據(jù)蒸餾技術的爭議也在網(wǎng)絡上持續(xù)發(fā)酵。但無論如何,DeepSeek已經(jīng)以其顛覆性的成本優(yōu)勢,改變了人工智能產(chǎn)業(yè)的發(fā)展軌跡。
DeepSeek的顛覆性創(chuàng)新,不僅打破了摩爾定律和Scaling Law在AI行業(yè)的傳統(tǒng)認知,更引領了AI創(chuàng)新進入追求效率、追求模型架構(gòu)設計、工程優(yōu)化的全新階段。這一“范式轉(zhuǎn)移”不僅破除了科技大廠建立的技術領先壁壘,還打破了重資本比拼的游戲慣例。DeepSeek的開源和免費模式,更是讓全球AI行業(yè)為之震動。
面對DeepSeek的挑戰(zhàn),科技大廠們紛紛作出回應。OpenAI緊急上線新一代推理模型o3系列的mini版本,并首次免費向用戶開放其基礎功能。微軟、谷歌、亞馬遜、meta、蘋果等巨頭也加大了在AI領域的投入,期望通過“軍備競賽”維持自身在AI領域的全球領導地位。然而,DeepSeek的出現(xiàn)已經(jīng)改變了超大規(guī)模擴張算力的行業(yè)發(fā)展“固定路徑”,讓科技大廠們的超級愿景面臨挑戰(zhàn)。
盡管如此,對于算力進行重新判斷仍為時尚早。當前,我國算力部署占全球算力基礎設施的26%,名列世界第二。在“算力即國力”的思潮下,東數(shù)西算等數(shù)字基礎設施工程正積極進行。這些大規(guī)模部署和研發(fā)投入,都具有歷史性的戰(zhàn)略意義,是人工智能時代的重要社會財富。
DeepSeek的成功,不僅是中國AI行業(yè)的驕傲,更是中國智慧的體現(xiàn)。在資源匱乏的歷史條件下,中國實現(xiàn)了工業(yè)現(xiàn)代化,而DeepSeek則以低成本開發(fā)出優(yōu)質(zhì)產(chǎn)品,再次展現(xiàn)了中國在創(chuàng)新領域的獨特文化和韌性。中美AI的拉鋸戰(zhàn)中,DeepSeek的崛起無疑為中國企業(yè)贏得了一席之地,也讓全球科技界重新審視中國AI的實力和潛力。