亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財經媒體
科技·商業(yè)·財經

DeepSeek成本揭秘:大模型訓練到底要花多少錢?

   時間:2025-02-19 10:28 來源:ITBEAR作者:江紫萱

近期,科技界迎來了一場前所未有的震撼,DeepSeek大模型的崛起讓全球科技巨頭紛紛側目。在直播中,特斯拉CEO馬斯克攜手其最新力作——被譽為“地球上最聰明的AI”的Gork 3驚艷亮相,自詡其推理能力已超越所有現(xiàn)有模型,甚至在推理測試時間得分上力壓DeepSeek R1和OpenAI的o1。這一消息猶如一枚重磅炸彈,瞬間引爆了科技圈。

不久之前,國民級應用微信宣布接入DeepSeek R1,并正處于灰度測試階段。這一強強聯(lián)合被視為AI搜索領域即將迎來翻天覆地變化的預兆。如今,微軟、英偉達、華為云、騰訊云等全球眾多科技大廠都已紛紛接入DeepSeek,其影響力可見一斑。

網友們更是腦洞大開,開發(fā)出算命、預測彩票等新奇玩法,使得DeepSeek的熱度直接轉化為經濟效益,估值一路飆升,最高已達到千億美金級別。DeepSeek之所以能迅速出圈,除了其免費且好用的特性外,還因為它僅以557.6萬美元的GPU成本,就訓練出了與OpenAI o1不相上下的DeepSeek R1模型。相比之下,過去幾年的“百模大戰(zhàn)”中,國內外AI大模型公司動輒投入幾十億甚至上百億美元。

然而,Gork 3成為“全球最聰明AI”的代價同樣不菲。馬斯克透露,Gork 3的訓練累計消耗了20萬塊英偉達GPU(單塊成本約3萬美元)。盡管如此,業(yè)內人士估算DeepSeek的GPU使用量僅在1萬多張左右。不過,也有團隊在成本上向DeepSeek發(fā)起挑戰(zhàn)。李飛飛團隊聲稱,僅用不到50美元的云計算費用,就訓練出了一款在數(shù)學和編碼能力測試中表現(xiàn)媲美OpenAI o1和DeepSeek R1的推理模型S1。但值得注意的是,S1為中型模型,與DeepSeek R1的上千億參數(shù)級別存在顯著差異。

在探討DeepSeek的成功及其背后的成本問題時,首先需要澄清幾個概念。DeepSeek并非僅有一個大模型,而是擁有多個不同功能的大模型產品。557.6萬美元是其通用大模型DeepSeek-V3訓練過程中的GPU花費,即凈算力成本。通用大模型與推理大模型DeepSeek-R1在功能和技術上存在差異。通用大模型接收明確指令,拆解步驟,基于概率預測快速回答;而推理大模型則接收簡單明了的任務,基于鏈式思維推理得出答案。

在從業(yè)者看來,盡管DeepSeek-R1備受矚目,但并不意味著推理大模型一定比通用大模型高級。大模型領域專家指出,對于某些問題,如詢問國家首都等簡單任務,推理大模型可能不如通用大模型高效且準確。因此,建議在使用時根據(jù)任務復雜程度選擇合適的模型類型。

關于DeepSeek的真正實力,綜合權威榜單和從業(yè)者評價,DeepSeek在推理大模型和通用大模型領域均占有一席之地。在推理大模型領域,DeepSeek-R1與OpenAI的o系列、Google的Gemini 2.0以及阿里的QwQ共同構成第一梯隊。盡管外界認為DeepSeek-R1能力趕超OpenAI,但從技術角度看,與OpenAI最新的o3仍存在一定差距。然而,DeepSeek-R1的出現(xiàn)已大大縮小了國內外頂尖水平之間的差距。

在通用大模型領域,DeepSeek同樣表現(xiàn)出色,與Google的Gemini、OpenAI的ChatGPT、Anthropic的Claude以及阿里的Qwen共同位列第一梯隊。然而,DeepSeek也并非所有大模型都完美無缺。有專家發(fā)現(xiàn),DeepSeek最新發(fā)布的多模態(tài)大模型Janus-Pro在使用效果上表現(xiàn)一般。

回到訓練大模型的成本問題,大模型的誕生主要分為預訓練和后訓練兩個階段。無論是通用大模型還是推理大模型,國內外遵循的都是這一流程。成本差異主要集中在硬件、數(shù)據(jù)和人工三大方面。硬件方面,購買與租賃價格相差懸殊;數(shù)據(jù)方面,直接購買現(xiàn)成數(shù)據(jù)與人工爬取也存在顯著差異。訓練過程中的迭代版本數(shù)量也影響著總成本。

盡管外界曾根據(jù)GPU估算頂尖模型的訓練成本,但由于閉源和算力浪費現(xiàn)象的存在,實際成本難以準確知曉。DeepSeek以557.6萬美元的訓練成本脫穎而出,但這一數(shù)字僅為模型總成本的一小部分。半導體市場分析和預測公司指出,考慮到服務器資本支出和運營成本等因素,DeepSeek的總成本在四年內可能達到25.73億美元。即便如此,相較于其他大模型公司百億美元的投入,DeepSeek的成本仍相對較低。

DeepSeek不僅在模型訓練階段效率更高,在調用推理階段也展現(xiàn)出高效低成本的優(yōu)勢。從API定價來看,DeepSeek-R1的定價遠低于OpenAI的o3-mini等競品,使得中小企業(yè)更易于接入。DeepSeek的降本啟示在于其在模型結構、預訓練、后訓練等各個環(huán)節(jié)都進行了優(yōu)化。例如,采用細粒度專家分割和共享專家隔離提高MoE參數(shù)效率和性能;使用FP8低精度訓練提高計算效率并降低硬件需求;在后訓練中采用GRPO算法減少算力要求等。

DeepSeek的降本不僅給從業(yè)者帶來了技術上的啟發(fā),也影響著AI公司的發(fā)展路徑。英諾天使基金合伙人指出,AI產業(yè)在跑通AGI方向上存在兩種不同路徑選擇:一種是“算力軍備”范式,先堆技術、堆錢、堆算力提升性能再考慮產業(yè)落地;另一種是“算法效率”范式,一開始就以產業(yè)落地為目標,通過架構創(chuàng)新和工程化能力推出低成本高性能模型。DeepSeek的一系列模型證明了在性能天花板難以突破的情況下,將重點放在優(yōu)化效率上的范式具有可行性。

 
 
更多>同類內容
全站最新
熱門內容