親愛的會員，您已經登出囉，如果需要繼續使用會員功能，還請您重新登入

數發部首度釋出主權AI語料庫貼近台灣文化與語言

發布時間：2025/12/24 19:40 更新時間：2025/12/24 20:41

陳佳鑫陳泓屹 / 綜合報導

AI浪潮下台灣面臨主權AI挑戰，因為華文語料多以簡體為主，為了讓AI模型的訓練更貼近台灣的語言和文化，數位發展部今（24）日首度發布台灣主權AI訓練語料庫，目前已有超過200個政府機關投入，上架2000多筆的資料集，希望透過主動釋出的作法，方便AI模型訓練學習，建立台灣文化在AI時代的話語權。

進入數位發展部剛發布的台灣主權AI訓練語料庫，申請後取得使用資格，如果搜尋「土豆」一詞，會發現教育部的辭典，呈現「土豆」在台灣是指「花生」，可是在中國卻代表的是「馬鈴薯」，差別很大。

不過，國際的AI模型訓練上，因為華文語料多以簡體為主，AI學習後會把「土豆」就解釋成「馬鈴薯」，為了避免這種情況的不斷發生，數位發展部24日發布台灣主權AI訓練語料庫，強調目前已有超過200個政府機關投入，上架2000多筆的資料集。

數發部資料創新司長莊明芬表示，「這些資料涵蓋了我們文化藝術語言、教育醫療地理交通等等，都是一些高品質的一個資料。」

像是文化部的國家文化記憶庫，提供台灣的族群文化、宗教民俗等資料，具有台灣獨特的文化風貌。教育部提供的語言辭典，涵蓋台語、客語等，強化AI模型，對台灣用詞的精準度。

文化部綜合規劃司魏秋宜說道，「主動積極的盤點跟提供資料，協助主權AI進行訓練，提升主權AI在台灣文化的這個銓釋能力。」

學者分析，政府積極開放台灣主權AI的訓練語料庫，除了在網路華文世界爭取繁體中文的主權，也是基礎建設的建構、語言主權的掌控，以及台灣文化價值的散播。

淡江大學資工系兼任助理教授/台灣數位理協會常務理事張榮貴指出，「你沒做，那更抓不到，那應該是說，我們把它整理，有計畫的釋出的話，那對於這些做模型的公司，如果知道這些訊息，那可能就會來拿去引用。」

數發部次長侯宜秀認為，「希望我們孩子們用的AI，是像台灣、像我們講話方式的AI，是分享我們價值的AI。」

數發部強調，語料庫透過合法授權，提供給AI模型訓練的工程師運用，這些給AI的教材，幫助AI模型更容易了解台灣，也學會更貼近台灣社會的語言表達能力，也希望公私協力提供資料，豐富語料庫。

許勝婕/編輯

您的參與，
讓公共服務更完整！

閱讀、按讚，就能客製您的專屬推薦新聞

閱讀更多 #數發部有關的新聞

數發部台灣主權AI訓練語料庫上線1月逾11億詞元

2026/1/27 19:40

閱讀更多 #數發部有關的新聞

數發部民意信箱收炸彈威脅信內文含簡體字警不排除境外IP

2025/3/18 19:31

本網站使用 Cookie 技術提升體驗，詳見服務條款。繼續瀏覽即代表同意上述規範。