滾動資訊

AI語言模型上演“狼人殺”，誰才是推理之王？

時間：2025-03-08 18:49 作者：馮璃月

近日，國外知名科技媒體Tom's Hardware報道了一項別開生面的AI實驗。開發(fā)者Guzus創(chuàng)新性地搭建了一個平臺，讓多個AI語言模型在同一空間內(nèi)展開經(jīng)典的社交推理游戲“Mafia”，也就是人們熟知的“天黑請閉眼”或“狼人殺”的前身。

在這個平臺上，不僅每局游戲的勝負一目了然，連對話記錄也詳盡無遺。更有趣的是，Guzus還設計了一個排名系統(tǒng)，根據(jù)AI們在游戲中的表現(xiàn)，評選出最擅長扮演各種角色的模型。

“Mafia”的游戲規(guī)則簡單明了：一群村民中隱藏著兩名Mafia成員和一名醫(yī)生。白天，村民們需要通過推理和投票找出Mafia；夜晚，醫(yī)生可以保護一名村民，而Mafia則暗殺一人。若Mafia被全部找出，村民獲勝；反之，若所有無辜村民被殺，Mafia則取得勝利。

當這些AI模型被置于這樣的游戲規(guī)則之下，一場場充滿戲劇性的社交博弈隨即上演。在一場游戲中，AI們開始自我介紹并討論是否公開身份，然而Gryphe / Mythomax-l2-13b模型卻突然“自爆”，直接承認自己是Mafia的一員，并透露了自己的目標。

這一舉動立即引起了其他AI的警覺，Claude-3.7-sonnet模型迅速指出，這要么是真實身份的暴露，要么就是一種前所未有的奇怪策略。

然而，劇情并未就此結束。當Mythomax被淘汰后，它居然“拖下水”了自己的隊友Hermes-3-llama-3-1-405b，直接指認對方是自己的同伙。Mythomax試圖用夸張的“團結宣言”來轉(zhuǎn)移注意力，但這場AI間的社交混戰(zhàn)已經(jīng)讓人捧腹大笑，盡管它們的推理能力顯然還有待提高。

在這場AI的“Mafia”大戰(zhàn)中，Claude 3.7 Sonnet模型無疑是最耀眼的明星。Anthropic的最新AI推理模型在扮演Mafia角色時勝率高達100%，即便作為村民，其勝率也遙遙領先其他對手，達到了45%。

Guzus透露，他計劃不久后開放該游戲的Github代碼倉庫，希望這一邏輯能被應用于更多類型的游戲中。目前，該模擬并未在本地AI模型上運行，而是依賴于Openrouter API。但一旦代碼開放，項目有望改進為支持本地語言模型集群，前提是用戶的硬件能夠同時運行多個AI。

更多>同類內(nèi)容

GDC2025：EA揭秘死亡空間與鋼鐵俠游戲紋理創(chuàng)新技術

03-11

索尼開發(fā)AI游戲角色原型：埃洛伊能與玩家實時對話互動

03-11

AMD銳龍9 5900XT低調(diào)上市：16核Zen3架構，性能如何？

03-11

何小鵬：人形機器人產(chǎn)業(yè)深耕5年，未來或再投500億，L3級量產(chǎn)指日可待？

03-11

Win11 Copilot新版上線：Alt+空格喚醒語音助手，交互體驗再升級！

03-11

尼康Z50II攜手云創(chuàng)：定格生活美好，開啟創(chuàng)意攝影新篇章

03-11

AI賦能直播！00后主播DeepSeek助力一日銷售額破3億，跟風浪潮起

03-11

2025中國職場女性月薪近九千，職業(yè)探索意愿超男性引關注

03-11

華為MatePad系列新平板，鴻蒙NEXT Beta版招募開啟，你準備好了嗎？

03-11

東南大學率先上線阿里QwQ-32B模型，消費級顯卡即可本地部署！

03-11

微信安卓8.0.57內(nèi)測版來襲！有哪些新變化等你來發(fā)現(xiàn)？

03-10

蘋果海外高級訂閱解鎖新功能：輕松邀好友，獨享美食頻道

03-10

零跑B10預售火爆，1小時訂單破萬，朱江明稱史上之最！

03-10

廣東力推AI與機器人產(chǎn)業(yè)創(chuàng)新：整合產(chǎn)業(yè)鏈資源，打造全球創(chuàng)新高地

03-10

極摩客AD-GP1外置獨顯來襲：Oculink接口+AMD RX 7600M XT，性能如何？

03-10

點擊查看更多 +

全站最新

蘋果Apple One高級訂閱海外升級，新增“邀請”與“美食”兩大特權

微信安卓8.0.57測試版來襲！主要優(yōu)化哪些已知問題？

小米人形機器人CyberOne量產(chǎn)計劃是謠言？官方這樣說

微信朋友圈大升級：5分鐘長視頻隨心分享！

GDC2025：EA揭秘死亡空間與鋼鐵俠游戲紋理創(chuàng)新技術

企業(yè)應對職場“內(nèi)卷”：強制下班，以人為本的新策略？

熱門內(nèi)容

本欄最新

GDC2025：EA揭秘死亡空間與鋼鐵俠游戲紋理創(chuàng)新技術

索尼開發(fā)AI游戲角色原型：埃洛伊能與玩家實時對話互動

AMD銳龍9 5900XT低調(diào)上市：16核Zen3架構，性能如何？

何小鵬：人形機器人產(chǎn)業(yè)深耕5年，未來或再投500億，L3級量產(chǎn)指日可待？

Win11 Copilot新版上線：Alt+空格喚醒語音助手，交互體驗再升級！

尼康Z50II攜手云創(chuàng)：定格生活美好，開啟創(chuàng)意攝影新篇章

網(wǎng)界 - 新財經(jīng) 新科技新未來 - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國 · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標，是該商標的唯一持有者，未經(jīng)授本公司授權，嚴禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

AI語言模型上演“狼人殺”，誰才是推理之王？

AI語言模型上演“狼人殺”，誰才是推理之王？