滾動資訊

谷歌新推FACTS Grounding基準，大語言模型能否擺脫“幻覺”困擾？

時間：2024-12-18 14:08 來源：ITBEAR作者：顧雨柔

近日，谷歌DeepMind團隊發(fā)布了一項名為FACTS Grounding的全新基準測試，旨在提升大型語言模型（LLMs）的事實準確性，增強用戶的信任感，并拓寬其應用邊界。該測試的核心在于評估LLMs能否根據(jù)給定材料準確作答，同時避免產(chǎn)生“幻覺”，即不捏造信息。

在數(shù)據(jù)集層面，F(xiàn)ACTS Grounding數(shù)據(jù)集精心編制了1719個涵蓋金融、科技、零售、醫(yī)療和法律等多個領域的示例。每個示例均包含一篇文檔、一條要求LLM基于文檔的系統(tǒng)指令以及相應的提示詞。這些文檔的長度各異，最長的文檔包含約20000字的內(nèi)容，確保了數(shù)據(jù)集的豐富性和多樣性。用戶請求的類型多樣，包括摘要、問答生成和改寫等，但不涉及需要創(chuàng)造力、數(shù)學或復雜推理的任務。

數(shù)據(jù)集被巧妙地分為860個“公共”示例和859個“私有”示例。目前，公共數(shù)據(jù)集已公開發(fā)布，供研究人員和開發(fā)者進行評估使用。而私有數(shù)據(jù)集則用于排行榜評分，這一設計旨在防止基準污染和排行榜作弊，確保評估的公正性和準確性。

在評估方案上，F(xiàn)ACTS Grounding基準測試采用了Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet三款先進的模型作為評委，它們將共同評估答案的充分性、事實準確性和文檔支持性。這一多模型評估體系能夠更全面、客觀地反映LLMs在事實準確性方面的表現(xiàn)。

評估過程分為兩個階段。首先，評委們會判斷響應是否符合資格，即是否充分回答了用戶請求。接著，他們會評估響應的事實準確性，即是否完全基于所提供的文檔，沒有產(chǎn)生“幻覺”。最終，基于模型在所有示例上的平均得分，計算出每個LLM在FACTS Grounding基準測試中的表現(xiàn)。

值得注意的是，在FACTS Grounding基準測試中，谷歌自家的Gemini模型在事實準確的文本生成方面脫穎而出，取得了最高分。這一成績不僅展示了Gemini模型在事實準確性方面的卓越表現(xiàn)，也驗證了FACTS Grounding基準測試的有效性和可靠性。

12-18

戴森HD16鎏金紅絲絨吹風機上市：智能溫控護發(fā)，3499元值得嗎？

12-18

愛瑪A7 Plus電動摩托車震撼登場，豪華轎跑級體驗，售價4999元起

12-18

《怪物獵人：荒野》限定版DualSense手柄，國行2月28日同步上市！

12-18

國產(chǎn)量子隨機數(shù)芯片WT-QRNG300面世，守護信息安全新利器！

12-18

一加Ace 5系列明日公布發(fā)布時間，驍龍8至尊版調(diào)校驚喜曝光！

12-18

《劍星》大放異彩！PS Blog年度大獎斬獲多項殊榮，伊芙成最佳新角色

12-18

ATFX攜手兒童探秘動物園，用愛繪就公益新篇章

12-18

邁巴赫SL 680 Monogram德國上市，豪華敞篷跑車售價近200萬

12-18

我國220噸級大推力氫氧發(fā)動機整機試驗圓滿成功，火箭動力研究迎新突破！

12-18

小米HA米家集成持續(xù)優(yōu)化升級，僅限非商用探索智能家居新體驗

12-18

華為暢享系列迎新變革，或?qū)⒋钶d自研麒麟5G芯片？

12-18

九鯊JF8000 Diamond風冷散熱器來襲，雙塔六熱管全回流焊打造高效散熱！

12-18

《艾爾登法環(huán)：黑夜君臨》為何僅支持三人組隊或單人？游戲總監(jiān)解答

12-18

寧德時代換電布局加速：明年先建千站，未來目標三萬座？

12-18

點擊查看更多 +

全站最新

年輕科技旗艦愛瑪A7Plus攜“六大神技”盛大發(fā)布

榮耀Magic7 RSR保時捷版：100倍AI長焦，手機秒變超級望遠鏡？

小米Civi 5 Pro來襲，首發(fā)驍龍8s至尊版，徠卡影像再升級？

五菱之光EV：電動K-Car新選擇，2025年一季度上市成“多功能新星”？

最懂年輕人的阿維塔06來了，顏值實力拉滿！

五菱宏光MINIEV四門版來襲！預訂享四重禮，新車色更吸睛

熱門內(nèi)容

本欄最新

HKC G27H7 Pro顯示器京東開售：27英寸4K 160Hz或1080P 320Hz高刷新率

2024年度最佳游戲之爭：《最終幻想7重生》與《宇宙機器人》誰領風騷？

2024金搖桿獎揭曉：《最終幻想7重生》等佳作斬獲多項大獎

《龍騰世紀4》TGA 2024落選引熱議，新作能否再續(xù)輝煌？

《黑神話：悟空》Steam在線火爆，竟超多款3A大作數(shù)十倍？

小米SU7 Ultra專屬駕駛培訓來襲，雷軍：產(chǎn)品酷值不值80萬？

網(wǎng)界 - 新財經(jīng) 新科技新未來 / 網(wǎng)界傳媒旗下網(wǎng)站 / 中國·北京 / 合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標，是該商標的唯一持有者，未經(jīng)授本公司授權(quán)，嚴禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

谷歌新推FACTS Grounding基準，大語言模型能否擺脫“幻覺”困擾？

谷歌新推FACTS Grounding基準，大語言模型能否擺脫“幻覺”困擾？