近日,科技界傳來一項(xiàng)新的合作成果,英偉達(dá)與麻省理工學(xué)院(MIT)攜手推出了Audio-SDS技術(shù),這是一項(xiàng)基于文本條件的音頻擴(kuò)散模型擴(kuò)展技術(shù),為音頻生成領(lǐng)域帶來了新突破。
音頻擴(kuò)散模型在近年來憑借其生成高質(zhì)量音頻的能力備受矚目。然而,這類模型的一個(gè)顯著局限在于難以對明確且可解釋的參數(shù)進(jìn)行優(yōu)化,這限制了其在實(shí)際應(yīng)用中的靈活性和廣泛性。
為了克服這一挑戰(zhàn),英偉達(dá)與MIT的科研團(tuán)隊(duì)首次將Score Distillation Sampling(SDS)方法引入到音頻領(lǐng)域。他們結(jié)合了預(yù)訓(xùn)練模型的強(qiáng)大生成能力與參數(shù)化音頻表示,從而無需依賴大規(guī)模特定數(shù)據(jù)集,即可應(yīng)用于FM合成器參數(shù)校準(zhǔn)、物理沖擊音合成以及音源分離等三大關(guān)鍵任務(wù)。
SDS技術(shù)此前已在文本生成3D圖像和圖像編輯領(lǐng)域得到了廣泛應(yīng)用。英偉達(dá)此次將SDS技術(shù)與音頻生成相結(jié)合,推出了Audio-SDS。該技術(shù)能夠利用預(yù)訓(xùn)練模型的先驗(yàn)知識,直接根據(jù)高級文本提示調(diào)整FM合成參數(shù)、沖擊音模擬器或分離掩碼,從而實(shí)現(xiàn)了更加靈活和精準(zhǔn)的音頻生成。
在實(shí)驗(yàn)中,研究團(tuán)隊(duì)采用了基于解碼器的SDS、多步去噪以及多尺度頻譜圖等方法。實(shí)驗(yàn)結(jié)果表明,Audio-SDS在主觀聽覺測試和客觀指標(biāo)(如CLAP分?jǐn)?shù)、信號失真比SDR)上均展現(xiàn)出了卓越的性能。
Audio-SDS的一大創(chuàng)新之處在于,它僅需一個(gè)預(yù)訓(xùn)練模型即可支持多種音頻任務(wù),從而極大地降低了對大規(guī)模領(lǐng)域特定數(shù)據(jù)集的依賴。這一特性使得Audio-SDS在音頻生成領(lǐng)域具有更廣泛的應(yīng)用前景。
然而,研究團(tuán)隊(duì)也指出了Audio-SDS目前仍面臨的一些挑戰(zhàn),包括模型覆蓋范圍有限、潛在編碼偽影以及優(yōu)化敏感性等問題。他們表示,未來將繼續(xù)致力于解決這些問題,以進(jìn)一步提升Audio-SDS的性能和應(yīng)用范圍。