近日,卡內(nèi)基梅隆大學(xué)的一支研究團(tuán)隊在人工智能領(lǐng)域取得了創(chuàng)新突破,他們成功研發(fā)出一款名為LegoGPT的AI系統(tǒng)。該系統(tǒng)能夠根據(jù)用戶的文字指令,自動生成可實際搭建的樂高設(shè)計圖。
據(jù)了解,LegoGPT項目的詳細(xì)信息和代碼已全面開源,用戶可以通過訪問GitHub上的項目地址進(jìn)行了解和使用。該項目的GitHub鏈接為:https://github.com/AvaLovelace1/LegoGPT/
研究團(tuán)隊通過訓(xùn)練一種大型自回歸語言模型,使LegoGPT能夠預(yù)測并確定下一塊應(yīng)該放置的樂高積木。為了實現(xiàn)這一目標(biāo),團(tuán)隊為模型設(shè)計了復(fù)雜的算法,通過不斷預(yù)測下一個token的方式,逐步構(gòu)建出完整的樂高設(shè)計。
為了確保生成的樂高設(shè)計既實用又穩(wěn)固,團(tuán)隊還為LegoGPT增加了有效性校驗和物理感知回滾機制。這一機制能夠檢測并避免積木重疊或懸空等問題,保證最終的設(shè)計既符合用戶要求,又能實際搭建。
LegoGPT不僅能夠生成人手可搭建的設(shè)計,還支持機器人操作。這意味著,用戶不僅可以根據(jù)自己的想象來創(chuàng)造樂高作品,還可以通過機器人實現(xiàn)自動化搭建。
為了實現(xiàn)LegoGPT的訓(xùn)練,研究團(tuán)隊構(gòu)建了一個名為StableText2Lego的數(shù)據(jù)集。該數(shù)據(jù)集的構(gòu)建過程相當(dāng)繁瑣,它首先將文本提示轉(zhuǎn)化為ShapeNetCore網(wǎng)格模型,然后將其嵌入一個20×20×20的體素網(wǎng)格中,生成初步的樂高積木布局。之后,系統(tǒng)會對這些布局進(jìn)行變化,并剔除結(jié)構(gòu)不穩(wěn)定的設(shè)計。保留下來的樣本會從多個角度進(jìn)行渲染,并最終生成相應(yīng)的描述文本。
StableText2Lego數(shù)據(jù)集包含了超過47000個樂高建構(gòu)樣本,涵蓋了28000多種三維造型,如書架、桌子、椅子、汽車、船只和吉他等。這些豐富的數(shù)據(jù)為LegoGPT的訓(xùn)練提供了堅實的基礎(chǔ),使其能夠從文字描述中生成獨特且原創(chuàng)的樂高設(shè)計。
在使用LegoGPT時,用戶只需輸入文字描述,系統(tǒng)就會將描述轉(zhuǎn)化為樂高設(shè)計圖。然后,LegoGPT會按照從底部到頂部的順序,將這些設(shè)計編碼為文本token。系統(tǒng)會根據(jù)這些token生成指令,將樂高積木結(jié)構(gòu)與注釋相對應(yīng),使模型學(xué)會理解文本與積木組件之間的關(guān)系。
接下來,LegoGPT會采用自回歸的方式,逐步預(yù)測并放置下一塊積木。每次添加積木時,系統(tǒng)都會進(jìn)行嚴(yán)格的格式校驗和沖突檢測,確保積木的放置正確無誤。這一過程會持續(xù)進(jìn)行,直到設(shè)計完成。最后,系統(tǒng)還會對生成的設(shè)計進(jìn)行穩(wěn)定性測試,以確保其結(jié)構(gòu)穩(wěn)固。
如果系統(tǒng)在測試過程中發(fā)現(xiàn)結(jié)構(gòu)不穩(wěn),LegoGPT會自動回滾到最近的穩(wěn)定狀態(tài),并從該點繼續(xù)生成設(shè)計,直到完成一個穩(wěn)定且可行的樂高作品。