近期,美團(tuán)搜推機(jī)器學(xué)習(xí)團(tuán)隊(duì)宣布了一項(xiàng)開源新進(jìn)展,成功實(shí)現(xiàn)了對DeepSeek R1模型的無損INT8精度量化。這一成果在3月4日正式對外公布,標(biāo)志著美團(tuán)在深度學(xué)習(xí)模型優(yōu)化方面取得了重要突破。
據(jù)了解,DeepSeek R1模型原本采用的是FP8數(shù)據(jù)格式的權(quán)重,這一特性使得它對GPU芯片類型有著嚴(yán)格的要求。具體而言,只有英偉達(dá)的新型GPU,如Ada和Hopper架構(gòu)的芯片,才能夠支持該模型的部署。而對于其他型號的GPU,如廣泛應(yīng)用的A100,則無法直接運(yùn)行DeepSeek R1模型。
為了打破這一限制,美團(tuán)的機(jī)器學(xué)習(xí)團(tuán)隊(duì)進(jìn)行了深入的技術(shù)研發(fā),成功實(shí)現(xiàn)了對DeepSeek R1模型的INT8精度量化。量化后的模型不僅保持了原有的性能,還在部署上具備了更高的靈活性。目前,該量化代碼已經(jīng)被整合進(jìn)了開源LLM推理框架SGLang中,而量化后的模型也已經(jīng)發(fā)布到了Hugging Face社區(qū),供廣大開發(fā)者使用。
據(jù)官方測試,在A100 GPU上部署滿血版的DeepSeek R1模型,并基于INT8量化后,相比之前采用的BF16格式,吞吐量實(shí)現(xiàn)了50%的提升。這一成果不僅提升了模型的運(yùn)算效率,還為更廣泛的應(yīng)用場景提供了可能。
美團(tuán)搜推機(jī)器學(xué)習(xí)團(tuán)隊(duì)的這一開源成果,無疑為深度學(xué)習(xí)模型的優(yōu)化和應(yīng)用帶來了新的思路。通過量化技術(shù),可以在不犧牲模型性能的前提下,提升模型的運(yùn)算效率和部署靈活性。這對于推動深度學(xué)習(xí)技術(shù)的發(fā)展和應(yīng)用具有重要意義。
美團(tuán)團(tuán)隊(duì)還將繼續(xù)探索深度學(xué)習(xí)模型的優(yōu)化方法,不斷提升模型的性能和效率。相信在不久的將來,我們將會看到更多來自美團(tuán)的開源成果和技術(shù)創(chuàng)新。
對于廣大開發(fā)者而言,這一開源成果無疑是一個福音。通過利用美團(tuán)提供的量化模型和推理框架,他們可以更加高效地開發(fā)和部署深度學(xué)習(xí)模型,為人工智能技術(shù)的發(fā)展和應(yīng)用貢獻(xiàn)自己的力量。
同時(shí),我們也期待美團(tuán)搜推機(jī)器學(xué)習(xí)團(tuán)隊(duì)在未來能夠帶來更多優(yōu)秀的開源成果和技術(shù)創(chuàng)新,為人工智能領(lǐng)域的發(fā)展注入新的活力。