近日,深度求索(Deepseek)在其官方社群中發(fā)布了一則引人注目的消息,邀請用戶參與DeepSeek-R1-0528模型小版本的測試。初步反饋顯示,這款新模型在編程、審美設(shè)計以及代碼補(bǔ)全等多個領(lǐng)域均展現(xiàn)出卓越的性能。
特別DeepSeek-R1-0528在編程能力上取得了顯著突破。用戶只需輸入簡潔的提示詞,該模型便能迅速生成高質(zhì)量的代碼,這一特性在代碼測試平臺Live CodeBench上得到了驗證。該平臺的數(shù)據(jù)顯示,DeepSeek-R1-0528的性能已經(jīng)可以與OpenAI最新的o3模型(High)相媲美。
除了編程能力,DeepSeek-R1-0528在Extended NYT Connections基準(zhǔn)測試中也取得了不俗的成績。該測試基于《紐約時報》的Connections謎題游戲,旨在評估大型語言模型的語言理解和推理能力。DeepSeek-R1-0528的跑分達(dá)到了49.8分,相較于初代Deepseek R1模型的38.6分,有了顯著提升。
據(jù)測試用戶反饋,DeepSeek-R1-0528在響應(yīng)風(fēng)格上也頗具特色,其回答方式具有o3-2.5模型的專業(yè)風(fēng)范,箭頭和星號的使用與o3風(fēng)格高度一致,且在結(jié)尾處“why it works”的表述更具邏輯性和說服力。
在審美設(shè)計和代碼補(bǔ)全方面,DeepSeek-R1-0528同樣展現(xiàn)出了其強(qiáng)大的實力。它能夠輕松應(yīng)對多樣化的任務(wù),輸出的結(jié)果不僅精準(zhǔn),而且極具實用性。在生成復(fù)雜前端頁面和動態(tài)動畫的測試中,該模型也展現(xiàn)出了極高的準(zhǔn)確度和效率。
與OpenAI的o3和o4-mini模型相比,DeepSeek-R1-0528在推理時長上有了大幅縮短,為用戶提供了更加流暢和高效的使用體驗。這一改進(jìn)無疑將進(jìn)一步提升用戶在使用大型語言模型時的滿意度和效率。