輝達公布最新生成式AI模型 可用文字指令創作音樂、生成混音

發布時間:
更新時間:
輝達(NVIDIA)近期公布的最新生成式AI模型「Fugatto」,主要用於音樂創作、聲音組合上,使用者可透過給予文字指令快速建立歌曲風格、改變聲音口音與情感等,此款新AI模型也標榜能處理多種語言,且可使用自訂聲音來訓練AI生成內容,遊戲開發者也可藉此受惠。
輝達(NVIDIA)25日公布一款最新生成式人工智慧(AI)模型「Fugatto」(Foundational Generative Audio Transformer Opus 1),讓使用者可透過任何文字提示和組合音訊檔案,來生成、轉換音樂或形成混音,是首款能結合任意形式指令,並能展示「湧現特性(emergent property)」的基礎生成式AI模型。
輝達表示,過去有些AI模型已能創作歌曲或修改聲音,但不具備新產品的靈活性。而Fugatto不僅能讓使用者透過自訂或特定聲音,訓練AI生成的聲音素材,也可以處理聲音細節,進而衍生並創作不同風格的音樂,以及多種演奏方式與配音等,甚至還能產生因時間變化的聲音,如暴風穿過陸地時的風力撞擊聲等,因此Fugatto也被稱為「聲音萬用刀」。
除了音樂製作人能透過Fugatto快速創作歌曲雛形,遊戲開發者也能因應不同玩家需求,調整遊戲中聲音的呈現效果,並利用既有聲音素材創造更多應用資源。
由於Fugatto的開發團隊成員來自世界各地,其中包含印度、巴西、中國、約旦和南韓,也因此輝達標榜Fugatto具備多口音與多語言能力。
而其中一位Fugatto創始成員、NVIDIA應用音訊研究經理瓦萊(Rafael Valle),同時也是管弦樂指揮與作曲家,他表示希望創造一個像人類一樣能夠理解並生成聲音的模型;而Fugatto模型最讓他自豪的是,無論使用者描述什麼都能創造出來,例如能用小號發出狗吠的聲音,或是用薩克斯風發出貓叫的聲音。
不過,科技網站Mashdigi創辦人楊又肇認為,目前暫時還無法確認輝達是否計畫對外開放此模型,未來有可能仍會僅限於以學術研究性質開放特定領域使用。
李彥穎/編輯