親愛的會員，您已經登出囉，如果需要繼續使用會員功能，還請您重新登入

不讓台灣語言缺席AI數位語料民間團體號召作家打造資料庫

發布時間：2025/7/4 19:31 更新時間：2025/7/4 20:57

林靜梅方雋淮 / 綜合報導

生成式AI席捲全球，但目前主流AI模型多以英文與簡體中文為主要訓練基礎，讓台灣的語言、價值觀在數位語料中嚴重缺席。IMA資訊經理人協會發起「台灣通用語料庫計畫」，希望打造自主、開放、可信的語料體系。

打開ChatGPT提問，民主國家採用的司法、行政、立法「三權分立好不好？」，得到的答案卻全是簡體字。

數位發展部指出，由於當前主流AI模型多以英文與簡體中文為主要訓練基礎，因此常常可以發現，AI答案不只文字，有時跟台灣觀點也有落差。

數位發展部次長林宜敬指出，「我們不能讓這種狀況發生，也就是全世界的AI模型都是由簡體中文語料去訓練，結果訓練出來的都會是跟我們不一樣的價值觀。」

為了避免台灣的華、台、客、原住民族語在數位語料缺席，導致AI難以理解台灣的語言與文化，IMA資訊經理人協會從民間發起「Taiwan Tongues」台灣通用語料庫計畫，在尊重智慧財產權的前提下，號召作家無償釋出文學作品，共同擴大台灣語料庫，以母語書寫的作家向陽已響應授權。

向陽表示，「這不只是台語跟新科技、新世紀的對話，而且也是台灣語言文化進一步邁向國際通行語言的最好機會。」

IMA資訊經理人協會理事長蔡祈岩指出，「這件事不是打高空，而是很重要的基礎建設，把基礎打好了，在這個土壤上，台灣的AI就會有很好的發展。」

不希望主流AI模型導致台灣掉落新的數位落差與文化邊緣化，目前台灣通用語料庫計畫已經有數十位作家授權，累計超過500萬字高品質語料陸續上架提供非商業使用，期待讓AI不再是中國或外國腔。

李彥穎/編輯

您的參與，
讓公共服務更完整！

閱讀、按讚，就能客製您的專屬推薦新聞

閱讀更多 #台灣有關的新聞

「主權AI」成全球新戰略，台灣如何跟上腳步？【獨立特派員】

2025/10/30 16:31

閱讀更多 #台灣有關的新聞

數發部台灣主權AI訓練語料庫上線1月逾11億詞元

2026/1/27 19:40

閱讀更多 #台灣有關的新聞

數發部首度釋出主權AI語料庫貼近台灣文化與語言

2025/12/24 19:40

閱讀更多 #台灣有關的新聞

禁廚餘養豬後廚餘篇：焚化之外，還有哪些其他方案？【我們的島】

2026/4/19 18:30

本網站使用 Cookie 技術提升體驗，詳見服務條款。繼續瀏覽即代表同意上述規範。