近期,哥倫比亞大學(xué)數(shù)字新聞研究中心公布了一項(xiàng)針對(duì)AI搜索引擎的深度研究報(bào)告,引起了廣泛關(guān)注。該研究聚焦于當(dāng)前市面上八款主流的AI搜索工具,包括ChatGPT Search、Perplexity系列、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search以及Copilot,旨在通過(guò)一系列嚴(yán)格測(cè)試評(píng)估它們的準(zhǔn)確性和可靠性。
研究人員精心挑選了來(lái)自20家新聞機(jī)構(gòu)的200篇報(bào)道作為測(cè)試樣本,確保這些報(bào)道在谷歌搜索結(jié)果中排名靠前。隨后,他們利用相同的查詢(xún)語(yǔ)句,逐一測(cè)試這些AI搜索工具的表現(xiàn),重點(diǎn)關(guān)注它們能否正確引用文章內(nèi)容、新聞機(jī)構(gòu)名稱(chēng)及原始鏈接。
測(cè)試結(jié)果顯示,除了Perplexity及其付費(fèi)版本外,其余AI搜索引擎的表現(xiàn)均不盡人意??傮w而言,AI搜索引擎給出的答案中,有高達(dá)60%是不準(zhǔn)確的。更令人擔(dān)憂(yōu)的是,這些AI工具對(duì)于錯(cuò)誤答案的“自信”態(tài)度,使得問(wèn)題進(jìn)一步惡化。它們往往以不容置疑的口吻陳述錯(cuò)誤信息,甚至在受到質(zhì)疑時(shí),仍試圖通過(guò)邏輯自洽來(lái)維護(hù)其答案的正確性。
這項(xiàng)研究不僅揭示了AI搜索引擎在準(zhǔn)確性方面的不足,更引發(fā)了業(yè)界對(duì)于大語(yǔ)言模型可靠性的深刻反思。長(zhǎng)期以來(lái),人們一直擔(dān)心大語(yǔ)言模型可能會(huì)一本正經(jīng)地胡說(shuō)八道,而此次研究的數(shù)據(jù)結(jié)果無(wú)疑為這一擔(dān)憂(yōu)提供了有力佐證。這些AI工具在陳述錯(cuò)誤信息時(shí),往往表現(xiàn)得非常自信,這無(wú)疑增加了用戶(hù)誤信錯(cuò)誤信息的風(fēng)險(xiǎn)。
ChatGPT Search雖然回答了所有200個(gè)新聞查詢(xún),但其“完全正確”率僅為28%,而“完全錯(cuò)誤”率則高達(dá)57%。盡管表現(xiàn)不佳,但ChatGPT Search并非墊底。X公司旗下的Grok AI系列表現(xiàn)更為糟糕,其中Grok-3 Search的錯(cuò)誤率更是驚人地達(dá)到了94%。而微軟Copilot也問(wèn)題頻出,在200次查詢(xún)中,有104次拒絕回答,剩下的回答中,正確率也僅為16%,總體錯(cuò)誤率接近70%。
令人驚訝的是,盡管這些AI搜索工具存在諸多問(wèn)題,但它們的開(kāi)發(fā)公司仍在向用戶(hù)收取高額的訂閱費(fèi)用,每月費(fèi)用從20美元至200美元不等。更令人費(fèi)解的是,付費(fèi)版Perplexity Pro和Grok-3 Search雖然回答次數(shù)更多,但錯(cuò)誤率也隨之上升。這一現(xiàn)象無(wú)疑引發(fā)了用戶(hù)對(duì)于AI搜索工具性?xún)r(jià)比的質(zhì)疑。
此次研究揭示了當(dāng)前AI搜索引擎在準(zhǔn)確性和可靠性方面存在的問(wèn)題和挑戰(zhàn)。隨著AI技術(shù)的不斷發(fā)展,我們期待未來(lái)能夠看到更加準(zhǔn)確、可靠的AI搜索工具問(wèn)世,為用戶(hù)提供更加優(yōu)質(zhì)的信息服務(wù)。