近日,哈佛大學(xué)攜手谷歌在AI領(lǐng)域邁出了重要一步,他們宣布將聯(lián)合發(fā)布一個規(guī)模龐大的數(shù)據(jù)集,包含約100萬本公共領(lǐng)域的書籍。這一舉措旨在為AI訓(xùn)練提供豐富且合法的數(shù)據(jù)源。
據(jù)悉,AI訓(xùn)練所需的數(shù)據(jù)成本高昂,往往讓資金有限的機構(gòu)望而卻步。然而,哈佛大學(xué)此次推出的數(shù)據(jù)集,將覆蓋多種類型、語言和作者的作品,其中包括許多經(jīng)典作家的名著,如狄更斯、但丁和莎士比亞等人的作品。這些作品的版權(quán)已隨時間流逝而過期,因此可以被自由使用。
值得注意的是,早在今年3月,哈佛大學(xué)就已透露了其“機構(gòu)數(shù)據(jù)計劃(IDI)”,旨在構(gòu)建一個合法且可信的數(shù)據(jù)通道,以支持AI的發(fā)展。該計劃直到正式啟動后,才確認了微軟和OpenAI的資金支持。
作為IDI的執(zhí)行董事,格雷格·萊佩特表示,這一數(shù)據(jù)集的目標(biāo)是讓AI領(lǐng)域的競爭環(huán)境更加公平。通過向研究機構(gòu)、AI初創(chuàng)公司等各類機構(gòu)開放這一龐大的數(shù)據(jù)集,他們將有更多機會訓(xùn)練出大型語言模型,從而推動AI技術(shù)的進一步發(fā)展。