近日,在一次備受矚目的公開(kāi)活動(dòng)中,人工智能巨頭OpenAI的首席執(zhí)行官薩姆·阿爾特曼分享了一個(gè)引人注目的觀察結(jié)果:他感受到,近年來(lái)人工智能的“智商”正以前所未有的速度飆升。阿爾特曼坦言,這只是一種直覺(jué)上的判斷,并不具備科學(xué)上的精確性,但他認(rèn)為,人工智能每年在智商上的進(jìn)步相當(dāng)于人類的一個(gè)標(biāo)準(zhǔn)差。
實(shí)際上,阿爾特曼并非首個(gè)嘗試用智商來(lái)衡量人工智能發(fā)展的人。在社交媒體平臺(tái)上,已有不少人工智能領(lǐng)域的意見(jiàn)領(lǐng)袖讓各種模型接受智商測(cè)試,并根據(jù)成績(jī)進(jìn)行排名。然而,這一做法在專家圈內(nèi)引發(fā)了廣泛爭(zhēng)議。許多專家認(rèn)為,智商作為衡量人工智能能力的指標(biāo),不僅不合適,甚至可能具有誤導(dǎo)性。
牛津大學(xué)研究技術(shù)與監(jiān)管的學(xué)者桑德拉·瓦赫特在接受采訪時(shí)表示,盡管用人類的衡量標(biāo)準(zhǔn)來(lái)描述人工智能的能力或進(jìn)步頗具吸引力,但這種做法無(wú)異于“蘋(píng)果與橘子的比較”。她解釋說(shuō),智商測(cè)試本質(zhì)上是一種相對(duì)而非絕對(duì)的智力測(cè)量方式,在邏輯和抽象推理方面或許有一定的參考價(jià)值,但它無(wú)法全面反映實(shí)際智力,即知道如何讓事物運(yùn)作的能力。
瓦赫特進(jìn)一步指出,智商測(cè)試是基于科學(xué)家對(duì)人類智力的理解而設(shè)計(jì)的,因此不能簡(jiǎn)單地套用到人工智能身上。她以汽車和潛水艇為例,強(qiáng)調(diào)這些工具在某些方面超越了人類,但這并不意味著它們擁有更高的智力。人類智力是一個(gè)極其復(fù)雜的概念,不能簡(jiǎn)單地將某一方面的性能與之等同。
智商測(cè)試的起源可以追溯到備受爭(zhēng)議的優(yōu)生學(xué)。參加智商測(cè)試的人需要具備強(qiáng)大的工作記憶能力,并熟悉西方文化規(guī)范,這為偏見(jiàn)留下了空間。有心理學(xué)家甚至將智商測(cè)試稱為“意識(shí)形態(tài)上可被操縱的機(jī)械智力模型”。
華盛頓大學(xué)研究倫理人工智能的博士候選人奧斯·凱斯認(rèn)為,人工智能在智商測(cè)試中表現(xiàn)優(yōu)異,更多地反映了測(cè)試本身的局限性,而非模型的真正實(shí)力。他指出,擁有幾乎無(wú)限內(nèi)存和耐心的模型很容易“玩弄”這些測(cè)試。智商測(cè)試作為一種衡量認(rèn)知、意識(shí)和智力的方式,其局限性在數(shù)字計(jì)算機(jī)發(fā)明之前就已經(jīng)被認(rèn)識(shí)到。
倫敦國(guó)王學(xué)院的研究員邁克·庫(kù)克也表示,智商測(cè)試盡管存在偏見(jiàn),但它是為人類設(shè)計(jì)的,旨在評(píng)估一般性的問(wèn)題解決能力,并不適合用于評(píng)估以與人類截然不同方式解決問(wèn)題的技術(shù)。他強(qiáng)調(diào),模型在智商測(cè)試中可能具有不公平的優(yōu)勢(shì),因?yàn)樗鼈儞碛泻A績(jī)?nèi)存和內(nèi)化的知識(shí),而且測(cè)試往往重復(fù)非常相似的模式。
庫(kù)克還提到,當(dāng)人類解決問(wèn)題時(shí),需要應(yīng)對(duì)更多的事情,而且在解決問(wèn)題時(shí)得到的幫助也比人工智能少得多。他以烏鴉使用工具從盒子里取出食物為例,指出這并不意味著烏鴉可以進(jìn)入哈佛大學(xué)。同樣地,當(dāng)人類解決數(shù)學(xué)問(wèn)題時(shí),不僅要正確閱讀題目,還要避免受到其他思緒的干擾。
AI Now研究所的首席人工智能科學(xué)家海迪·赫拉夫在接受采訪時(shí)指出,我們需要更好的人工智能測(cè)試方法。她強(qiáng)調(diào),在計(jì)算歷史中,我們從未將計(jì)算能力與人類能力進(jìn)行精確比較,因?yàn)橛?jì)算的本質(zhì)意味著系統(tǒng)一直能夠完成超出人類能力范圍的任務(wù)。這種直接將系統(tǒng)性能與人類能力進(jìn)行比較的做法是一個(gè)相對(duì)較新的現(xiàn)象,且極具爭(zhēng)議性。