24H直播

台籍研究員拜訪在美僑民 蒐集語料建置AI台語資料庫

發布時間: 更新時間:
現行AI資料庫多以各地主流語言建置,台語的語料相對稀少。美國MIT的台籍研究員張凱爲,近來建置AI台語資料庫,能夠結合智慧家電,提供台語使用者各種服務。他也親自拜訪當地僑民,蒐集台語語料。

華府台灣僑民,對著麥克風讀出台語語句,而這筆資料,隨即輸入AI台語資料庫。當前全球AI發展,大多以人口基數較大的語言建立資料。但在MIT的台灣籍研究員張凱爲認為,台語的數位平權也很重要。

麻省理工學院博士後研究員張凱爲表示,「因為對開發人工智慧的學者來講,台語是一個很有趣、 很有挑戰的語言,不像英語跟華語,在網路上有很多資料,台語的資料比較少。」

這套名為「TaigiSpeech」的資料庫,結合關鍵字比對大型語言模型,並進行虛擬標註,台語語料可以越過多種書寫系統,直接以語音型態,提供AI模型辨識。而這套技術,從台語出發,未來還能套用在其他語言。

麻省理工學院博士後研究員張凱爲指出,「在美國,我可以去認識不同的學者,國際上不同的學者,我就可以有這個機會跟大家說,台灣有台語這個語言很特殊,我希望把台語作為一個範例,我們如果能用最少的資料,教人工智慧聽懂台語,我們就可以用相似的技術,教人工智慧不同的語言。」

公視國際記者方子齊指出,「這座AI資料庫,以開源方式免費向全世界公開,未來也有機會應用在居家照護,以及智慧家電等用途 。」

華府台灣基督長老教會長老簡明子表示,「因為我們這裡用的台語詞彙,就是照我們以前來讀書前學到的,很多在美台灣人家庭是這樣,他們只懂台語跟英語,如果你用華語他們聽不懂,也沒辦法講,所以做出來的東西,可以讓很多不同的人,用台語的人、用華語的人都能使用,這部分我非常支持。」

在美台僑社群,保留家鄉不同的腔調,讓TaigiSpeech的現有的3000筆語料,更加豐富。這座AI台語資料庫,由MIT與台灣大學、中央研究院、陽明交通大學以及南加州大學合作。台美跨海研究,維護AI浪潮下,台語使用者的數位平權。

您的參與,
讓公共服務更完整!
閱讀、按讚,就能客製您的專屬推薦新聞
本網站使用 Cookie 技術提升體驗,詳見服務條款。繼續瀏覽即代表同意上述規範。