數發部台灣主權AI訓練語料庫 上線1月逾11億詞元
發布時間:
更新時間:
為了強化人工智慧發展的核心基礎,數發部去(2025)年底,發布台灣主權AI訓練語料庫,廣納高品質的正體中文語料,上線1個多月以來,平台從初期的6億多個詞元,目前已經突破11億個詞元,正體中文的語料規模幾乎翻倍,讓AI模型在訓練過程中,更貼近台灣的語言使用。
來到長期深耕大型語言模組訓練的新創公司,了解訓練的過程,問到「台灣有哪幾個國家公園」的問題,有用到數發部發布的台灣主權AI訓練語料庫,可以明確回答數量、名稱,還有簡單的介紹;而如果只用國際語料庫訓練的模組,得到的答案,卻會出現合歡山這些不存在的國家公園。
APMIC技術副總宋豐价表示,「訓練個模型而言,我們需要的語料是非常之龐大的,那這樣子很巨量的語料的話,還是要仰賴政府去授權提供給我們會比較好,越符合我們平常溝通的方式,其實是越容易問到我們想要的答案。」
為了讓AI模型的訓練更貼近台灣的語言和文化,數發部去年底首度發布台灣主權AI的訓練語料庫,當時已有超過200個政府機關投入,上架2000多筆資料集,總計有超過6億組的詞元。如今上線一個多月,平台已經突破11億組詞元,正體中文的語料規模幾乎翻倍。
數位發展部資料創新司科長林哲豪指出,「語料的擴充,不僅提升整個主權AI模型,訓練所需要的一些在地化的語言跟文化的內涵,也是模型訓練重要的基礎來源。」
東吳大學兼任助理教授、資訊軟體服務商業同業公會副理事長張榮貴表示,「可以讓國外做模型的人拿去訓練,能夠去增加更多的正體中文的描述啦,文化涵意啦,我們的認知啦,這些對於模型以後反映出來,會比較平衡。」
學者分析,國際的AI模型訓練上,因為華文語料幾乎以簡體為主,正體中文較少,很容易出現抓到的資料是中國的解讀模式,容易出現偏差、錯誤,而台灣主權AI的訓練語料庫,可以提供台灣本土的思維模式,呈現台灣的文化價值,也可掌控語言主權。
姜筑/編輯
