滾動資訊

當(dāng)前位置：網(wǎng)界 > 智能出行 > 正文內(nèi)容

OpenAI發(fā)布醫(yī)療大模型測試集HealthBench，性能提升顯著

時間：2025-05-13 09:24 作者：馮璃月

OpenAI近日在醫(yī)療健康領(lǐng)域邁出了重要一步，宣布推出并開源了專為醫(yī)療大模型設(shè)計的測試評估集——HealthBench。這一舉措旨在更精確地評估AI系統(tǒng)在醫(yī)療健康領(lǐng)域的表現(xiàn)。

與以往的測試集相比，HealthBench在多個維度上實現(xiàn)了突破。其核心測試對話集由262名醫(yī)生精心打造，他們來自60個國家和地區(qū)的26個專業(yè)，確保了測試內(nèi)容的難度、真實性和豐富性。這些醫(yī)生的專業(yè)背景使得HealthBench能夠覆蓋廣泛的健康場景和行為維度。

具體而言，HealthBench包含了48562個獨特的醫(yī)生評分標(biāo)準(zhǔn)，這些標(biāo)準(zhǔn)不僅涵蓋了緊急情況和全球健康等多個健康背景，還涉及準(zhǔn)確性、遵循指示和溝通等多個行為維度。這種開放式評估方式，使得HealthBench能夠更全面地反映AI系統(tǒng)在醫(yī)療場景中的實際應(yīng)用能力。

HealthBench在測試方式上也有所創(chuàng)新。它采用了多輪對話測試，而非簡單的答題或選擇題模式。這種測試方式更貼近真實醫(yī)療場景中的對話交流，有助于更準(zhǔn)確地評估AI系統(tǒng)的理解和應(yīng)對能力。

測試數(shù)據(jù)顯示，HealthBench的推出對AI系統(tǒng)在醫(yī)療保健領(lǐng)域的表現(xiàn)產(chǎn)生了積極影響。例如，GPT-3.5Turbo在HealthBench上的得分從16%提升至GPT-4o的32%，而更先進的o3模型則達到了60%的得分，整體性能有了顯著提升。尤其是小型模型方面，GPT-4.1nano不僅在性能上超越了GPT-4o，而且在成本上降低了25倍，展現(xiàn)了巨大的潛力和價值。

更多>同類內(nèi)容

極空間NAS新品“芯”世代即將發(fā)布，低功耗強性能引期待！

05-13

《消逝的光芒：困獸》重磅歸來，凱爾·克蘭攜新能力復(fù)仇戰(zhàn)喪尸！

05-13

蘋果macOS 16將嚴(yán)管應(yīng)用剪貼板訪問，保障用戶隱私安全

05-13

Sonos Arc Ultra升級AI語音增強，四級模式助力清晰對話

05-13

蘋果Vision Pro迎來visionOS 2.5更新，你收到了嗎？

05-13

榮耀Magic V5折疊屏新高度，驍龍8 Elite加持，厚度或低于9mm刷新記錄！

05-13

諾基亞160年傳奇：從手機王者到5G巨頭，品牌何去何從？

05-13

蘋果服務(wù)業(yè)務(wù)未來何去何從？摩根士丹利揭示兩種極端可能性

05-13

廣汽本田P7純電SUV首批交付，后驅(qū)長續(xù)航Pro版僅售19.99萬元起！

05-12

騰訊混元T1-Vision新升級，元寶功能讓圖片理解更“懂你”

05-12

茅臺高管詳解張藝興代言、產(chǎn)能規(guī)劃及i茅臺新動向

05-12

終于！關(guān)閉自動扣費，告別冤枉錢，舒心生活從此開始

05-12

日產(chǎn)汽車?yán)Ь臣觿。轰N量下滑凈利潤暴跌，裁員規(guī)模擴大至兩萬

05-12

2025年618大促攻略：淘寶京東時間表及滿減紅包全揭秘！

05-12

汽車以舊換新熱潮：千萬補貼申請，綠色智能消費成新趨勢！

05-12

點擊查看更多 +

全站最新

OpenAI發(fā)布醫(yī)療大模型測試集HealthBench，性能提升顯著

銘瑄RTX 5050顯卡8GB顯存?zhèn)浒?，英偉達RTX 50系列再添新成員？

銘瑄RTX 5050顯卡8GB顯存?zhèn)浒福ミ_RTX 50系列再添新成員？

極空間NAS新品“芯”世代即將發(fā)布，低功耗強性能引期待！

哈雷與MotoGP強強聯(lián)手，2026年全新全球摩托車錦標(biāo)賽即將啟幕！

佳能印度發(fā)言人：智能手機與AI浪潮不構(gòu)成對專業(yè)相機的致命威脅

美團騎手養(yǎng)老保險試點首批補貼到賬，靈活參保無門檻受好評

熱門內(nèi)容

本欄最新

極空間NAS新品“芯”世代即將發(fā)布，低功耗強性能引期待！

《消逝的光芒：困獸》重磅歸來，凱爾·克蘭攜新能力復(fù)仇戰(zhàn)喪尸！

蘋果macOS 16將嚴(yán)管應(yīng)用剪貼板訪問，保障用戶隱私安全

Sonos Arc Ultra升級AI語音增強，四級模式助力清晰對話

榮耀Magic V5折疊屏新高度，驍龍8 Elite加持，厚度或低于9mm刷新記錄！

蘋果服務(wù)業(yè)務(wù)未來何去何從？摩根士丹利揭示兩種極端可能性

網(wǎng)界 - 新財經(jīng) 新科技新未來 - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國 · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標(biāo)，是該商標(biāo)的唯一持有者，未經(jīng)授本公司授權(quán)，嚴(yán)禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

OpenAI發(fā)布醫(yī)療大模型測試集HealthBench，性能提升顯著

OpenAI發(fā)布醫(yī)療大模型測試集HealthBench，性能提升顯著