
編者按:本文將深入探討AI推理領(lǐng)域面臨的核心挑戰(zhàn),并介紹中國(guó)首個(gè)專注AI推理的Serverless產(chǎn)品——共績(jī)算力AI推理Serverless平臺(tái)。我們將解析其技術(shù)亮點(diǎn)、背后源自清華的創(chuàng)業(yè)團(tuán)隊(duì)力量,以及其如何以創(chuàng)新的價(jià)格策略,打造中國(guó)版的RunPod,賦能廣大開發(fā)者與企業(yè),共同迎接AI普惠時(shí)代的到來。
當(dāng)前AI推理算力市場(chǎng)的結(jié)構(gòu)性問題
隨著AI應(yīng)用的落地增長(zhǎng),推理算力的需求持續(xù)提升。然而,當(dāng)下國(guó)內(nèi)的算力服務(wù)市場(chǎng)存在的結(jié)構(gòu)性問題,使得推理計(jì)算成本始終居高不下,成為了制約AI應(yīng)用大規(guī)模落地的“隱形瓶頸”。
服務(wù)僵化,彈性不足: 流量高峰時(shí),GPU一卡難求,應(yīng)用卡頓,用戶流失;流量低谷時(shí),預(yù)購的昂貴算力大量閑置,白白燒錢。剛性供給與彈性需求之間的矛盾,直接影響了AI應(yīng)用的效率和用戶體驗(yàn)。
模式傳統(tǒng),阻礙增長(zhǎng): 大多數(shù)廠商要求長(zhǎng)租,高昂的固定投入讓創(chuàng)業(yè)公司望而卻步,也束縛了業(yè)務(wù)的快速迭代和試錯(cuò)。
管理繁瑣 & 效率低下: 跨平臺(tái)資源調(diào)度、復(fù)雜環(huán)境配置、持續(xù)運(yùn)維投入……大量工程師的精力被基礎(chǔ)設(shè)施“綁架”,無法專注于模型創(chuàng)新。
供需錯(cuò)配,一卡難求:算力資源建設(shè)粗放,精細(xì)化運(yùn)營(yíng)缺失,算力供需嚴(yán)重不匹配,一方面有大量閑置算力資源未能被有效利用,另一方面,短租高性能GPU卻“一卡難求”。
這些問題共同構(gòu)成了AI算力市場(chǎng)的“彈性、穩(wěn)定、低價(jià)”不可能三角。在現(xiàn)有模式下,企業(yè)往往只能在這三者中選擇其二,難以兼得。例如,追求極致彈性可能犧牲穩(wěn)定性或增加成本;追求穩(wěn)定和低價(jià)則可能失去彈性。這種困境成為AI開發(fā)者普遍面臨的巨大挑戰(zhàn)。

圖:多數(shù)云平臺(tái)提供的三類服務(wù):整租(低價(jià)&穩(wěn)定)、按量租(高價(jià)&穩(wěn)定)、搶占式SPOT實(shí)例(低價(jià)&彈性)
傳統(tǒng)GPU整租模式,其設(shè)計(jì)初衷更多是為了滿足持續(xù)、高負(fù)載的AI訓(xùn)練任務(wù)。然而,AI推理的特點(diǎn)是請(qǐng)求量波動(dòng)大、突發(fā)性強(qiáng)、單次請(qǐng)求耗時(shí)短。這種模式與AI推理的實(shí)際需求存在根本性的不匹配。當(dāng)流量稀疏時(shí),大量預(yù)購的GPU閑置,產(chǎn)生高昂的“空閑成本”;當(dāng)流量激增時(shí),又因擴(kuò)容慢而導(dǎo)致用戶排隊(duì)或服務(wù)中斷。這使得AI應(yīng)用的成本居高不下,商業(yè)模式難以閉環(huán),從而阻礙了AI應(yīng)用的廣泛部署和創(chuàng)新。

圖:剛性供給與彈性需求之間的矛盾,直接影響了AI應(yīng)用成本和用戶體驗(yàn)
Serverless GPU:重塑AI應(yīng)用部署范式
Serverless計(jì)算是一種云原生開發(fā)模型,它將底層服務(wù)器的管理和維護(hù)工作完全抽象化,由云服務(wù)提供商負(fù)責(zé)。開發(fā)者只需將代碼打包成容器或函數(shù),即可部署應(yīng)用。其核心優(yōu)勢(shì)在于:按需付費(fèi)(閑置不收費(fèi))、自動(dòng)伸縮(根據(jù)需求彈性擴(kuò)縮容)、以及極大地簡(jiǎn)化運(yùn)維。
將GPU能力與Serverless模式結(jié)合,意味著AI開發(fā)者可以按需調(diào)用強(qiáng)大的GPU算力,無需預(yù)先購買和維護(hù)昂貴的硬件,也無需擔(dān)心資源閑置。特別適用于AI推理這種計(jì)算密集型、但請(qǐng)求量不穩(wěn)定的工作負(fù)載,能夠大幅縮短處理時(shí)間,優(yōu)化成本。這種模式也適用于實(shí)時(shí)和批量推理、3D渲染、大數(shù)據(jù)分析等典型用例。

圖:Serverless架構(gòu)工作機(jī)制示意圖
全球Serverless GPU市場(chǎng)正在蓬勃發(fā)展。在AI算力服務(wù)領(lǐng)域,國(guó)際上已有先行者,如RunPod,其Serverless產(chǎn)品提供了按小時(shí)計(jì)費(fèi)、零出入網(wǎng)費(fèi)、支持多種GPU型號(hào)、容器化部署、閃電般冷啟動(dòng)等優(yōu)勢(shì)。主要服務(wù)于AI訓(xùn)練和推理工作負(fù)載。

圖:Runpod.io
但同時(shí),國(guó)內(nèi)卻缺少專注于Serverless GPU服務(wù)的云計(jì)算平臺(tái),少數(shù)提供Serverless GPU服務(wù)的平臺(tái)往往資源極少(因?yàn)閴贺洺杀具^高),難以實(shí)現(xiàn)快速穩(wěn)定的擴(kuò)縮,使得多數(shù)本土應(yīng)用難以進(jìn)行大批量的Serverless部署,制約了AI應(yīng)用的增長(zhǎng)。
共績(jī)算力:專注Serverless GPU推理服務(wù)
在這一行業(yè)痛點(diǎn)日益凸顯之際,“共績(jī)算力”(suanli.cn)應(yīng)運(yùn)而生。專注提供Serverless GPU推理服務(wù),打破行業(yè)“不可能三角”,實(shí)現(xiàn)真正的彈性&穩(wěn)定&低價(jià),讓AI開發(fā)者不受算力制約,專注于產(chǎn)品本身,創(chuàng)造無限可能。

為支撐AI應(yīng)用的快速部署,共績(jī)算力平臺(tái)為AI推理服務(wù)部署打造了極簡(jiǎn)流程,為AI開發(fā)者帶來了多重核心價(jià)值,真正實(shí)現(xiàn)以下特性:
極致彈性,隨時(shí)擴(kuò)縮
隨流量自動(dòng)擴(kuò)縮容: 流量激增時(shí)秒級(jí)擴(kuò)容,流量回落時(shí)自動(dòng)縮容歸零,告別浪費(fèi)與排隊(duì)。
毫秒級(jí)按量計(jì)費(fèi): AI模型推理有請(qǐng)求才付費(fèi),沒請(qǐng)求不花錢,徹底告別空閑成本。
部署極簡(jiǎn),無縫遷移
Docker容器化: 五步部署,一鍵托管,快速上云,實(shí)現(xiàn)真正“零運(yùn)維”。
兼容各類平臺(tái): 提供預(yù)制鏡像與7x24h免費(fèi)技術(shù)支持,可順滑遷移。
實(shí)測(cè)僅需5步,即可在2min內(nèi)從零啟動(dòng)SD生圖服務(wù)
資源管飽,價(jià)格最優(yōu)
獨(dú)家調(diào)度網(wǎng)絡(luò): 整合全國(guó)算力,提供萬卡資源。
保障充足低價(jià): 全網(wǎng)最實(shí)惠的算力(4090 單卡1.68元/h)。
支撐這一“彈性、穩(wěn)定、低價(jià)”算力服務(wù)的,是共績(jī)科技自研的閑時(shí)算力調(diào)度平臺(tái)。目前該平臺(tái)已經(jīng)調(diào)度整合了來自包括金山云、火山引擎在內(nèi)的26家智算平臺(tái)的算力資源,超越了單一云廠商的資源邊界,使得不可能三角變成可能,平臺(tái)不僅提供了Serverless的按需付費(fèi)特性,更通過資源整合擴(kuò)大了可用算力池,解決了“供需錯(cuò)配”這一結(jié)構(gòu)性問題。

共績(jī)科技團(tuán)隊(duì)擁有深厚的學(xué)術(shù)和技術(shù)背景,核心成員來自清華大學(xué)、北京大學(xué)以及 Intel、字節(jié)跳動(dòng)、阿里等知名企業(yè)。 團(tuán)隊(duì)在分布式資源調(diào)度領(lǐng)域深耕多年,目前已經(jīng)承建青海省、河北省省級(jí)算力調(diào)度平臺(tái),具備極強(qiáng)的工程落地能力,Suanli.cn已累計(jì)服務(wù)90余家人工智能企業(yè)。曾獲 2024 年互聯(lián)網(wǎng)+大賽亞軍(金獎(jiǎng),創(chuàng)業(yè)組冠軍),并已獲得奇績(jī)創(chuàng)壇、水木創(chuàng)投等知名機(jī)構(gòu)的投資。

全網(wǎng)低價(jià),助力AI創(chuàng)新
共績(jī)?cè)艫I推理Serverless平臺(tái)上線優(yōu)惠活動(dòng)
NVIDIA RTX 4090 單卡推理,價(jià)格最高1.68元/小時(shí)!
即日起至6月18日,新用戶注冊(cè)并首次充值,額外贈(zèng)送20%積分!
邀請(qǐng)好友,通過您的邀請(qǐng)碼成功拉新,您和被邀請(qǐng)人各得50元積分!
參與方式:活動(dòng)期間,通過共績(jī)科技官方網(wǎng)站登錄用戶后臺(tái),選擇在線充值即可自動(dòng)參與并獲得贈(zèng)送金額。具體活動(dòng)細(xì)則以官網(wǎng)屆時(shí)公布為準(zhǔn)。

立即訪問 suanli.cn,開啟您的AI推理新紀(jì)元,讓算力不再是您創(chuàng)新的瓶頸!