在科技界的矚目下,meta公司在首屆LlamaCon大會上不僅推出了獨立的AI應(yīng)用,還解鎖了一項重要資源——Llama API,目前正以免費預(yù)覽模式面向全球開發(fā)者開放。
據(jù)悉,Llama API為開發(fā)者提供了測試最新模型的機會,包括備受期待的Llama 4 Scout和Llama 4 Maverick。為了簡化開發(fā)流程,meta公司特別設(shè)計了一鍵API密鑰創(chuàng)建功能,并配備了輕量級的Type和Python SDK。這些舉措使得開發(fā)者能夠迅速上手,無需繁瑣的配置。
更為貼心的是,Llama API完全兼容OpenAI SDK,為那些計劃從OpenAI平臺遷移應(yīng)用的開發(fā)者提供了極大的便利。這意味著他們可以在不改變原有開發(fā)習(xí)慣的前提下,輕松切換至Llama API,享受meta帶來的技術(shù)紅利。
為了進一步提升Llama API的性能,meta攜手Cerebras和Groq兩大技術(shù)巨頭展開合作。Cerebras宣稱,其Llama 4 Cerebras模型的tokens生成速度高達2600 tokens/s,這一速度遠超傳統(tǒng)GPU解決方案,如NVIDIA,達到了18倍的領(lǐng)先優(yōu)勢。
根據(jù)Artificial Analysis的基準(zhǔn)測試數(shù)據(jù),Cerebras的這一速度不僅超過了ChatGPT的130 tokens/s,更是DeepSeek的25 tokens/s的數(shù)十倍之多。Cerebras的CEO兼聯(lián)合創(chuàng)始人Andrew Feldman對此表示:“我們非常自豪能夠讓Llama API成為全球最快的推理API。在構(gòu)建實時應(yīng)用時,開發(fā)者對速度有著極高的要求,Cerebras的加入使得AI系統(tǒng)的性能達到了GPU云無法比擬的高度?!?/p>
而Groq提供的Llama 4 Scout模型雖然速度略遜于Cerebras,但也達到了460 tokens/s,相比其他GPU方案快了4倍。在費用方面,Groq上的Llama 4 Scout每百萬tokens輸入費用為0.11美元,每百萬tokens輸出費用為0.34美元;而Llama 4 Maverick的對應(yīng)費用則分別為0.50美元和0.77美元。這些數(shù)據(jù)顯示出Groq在提供高性能的同時,也保持了較低的成本。
此次meta推出的Llama API及其與Cerebras和Groq的合作,無疑為AI領(lǐng)域注入了新的活力。隨著技術(shù)的不斷進步和成本的進一步降低,AI應(yīng)用將更加廣泛地滲透到各個領(lǐng)域,為人類社會的發(fā)展帶來前所未有的變革。