輝達公布最新生成式AI模型可用文字指令創作音樂、生成混音

發布時間：2024/11/28 16:14 更新時間：2024/11/28 16:20

姜筑 / 綜合報導

輝達（NVIDIA）近期公布的最新生成式AI模型「Fugatto」，主要用於音樂創作、聲音組合上，使用者可透過給予文字指令快速建立歌曲風格、改變聲音口音與情感等，此款新AI模型也標榜能處理多種語言，且可使用自訂聲音來訓練AI生成內容，遊戲開發者也可藉此受惠。

輝達（NVIDIA）25日公布一款最新生成式人工智慧（AI）模型「Fugatto」（Foundational Generative Audio Transformer Opus 1），讓使用者可透過任何文字提示和組合音訊檔案，來生成、轉換音樂或形成混音，是首款能結合任意形式指令，並能展示「湧現特性（emergent property）」的基礎生成式AI模型。

輝達表示，過去有些AI模型已能創作歌曲或修改聲音，但不具備新產品的靈活性。而Fugatto不僅能讓使用者透過自訂或特定聲音，訓練AI生成的聲音素材，也可以處理聲音細節，進而衍生並創作不同風格的音樂，以及多種演奏方式與配音等，甚至還能產生因時間變化的聲音，如暴風穿過陸地時的風力撞擊聲等，因此Fugatto也被稱為「聲音萬用刀」。

除了音樂製作人能透過Fugatto快速創作歌曲雛形，遊戲開發者也能因應不同玩家需求，調整遊戲中聲音的呈現效果，並利用既有聲音素材創造更多應用資源。

由於Fugatto的開發團隊成員來自世界各地，其中包含印度、巴西、中國、約旦和南韓，也因此輝達標榜Fugatto具備多口音與多語言能力。

而其中一位Fugatto創始成員、NVIDIA應用音訊研究經理瓦萊（Rafael Valle），同時也是管弦樂指揮與作曲家，他表示希望創造一個像人類一樣能夠理解並生成聲音的模型；而Fugatto模型最讓他自豪的是，無論使用者描述什麼都能創造出來，例如能用小號發出狗吠的聲音，或是用薩克斯風發出貓叫的聲音。

不過，科技網站Mashdigi創辦人楊又肇認為，目前暫時還無法確認輝達是否計畫對外開放此模型，未來有可能仍會僅限於以學術研究性質開放特定領域使用。

李彥穎/編輯