24H直播

不讓台灣語言缺席AI數位語料 民間團體號召作家打造資料庫

發布時間: 更新時間:
生成式AI席捲全球,但目前主流AI模型多以英文與簡體中文為主要訓練基礎,讓台灣的語言、價值觀在數位語料中嚴重缺席。IMA資訊經理人協會發起「台灣通用語料庫計畫」,希望打造自主、開放、可信的語料體系。

打開ChatGPT提問,民主國家採用的司法、行政、立法「三權分立好不好?」,得到的答案卻全是簡體字。

數位發展部指出,由於當前主流AI模型多以英文與簡體中文為主要訓練基礎,因此常常可以發現,AI答案不只文字,有時跟台灣觀點也有落差。

數位發展部次長林宜敬指出,「我們不能讓這種狀況發生,也就是全世界的AI模型都是由簡體中文語料去訓練,結果訓練出來的都會是跟我們不一樣的價值觀。」

為了避免台灣的華、台、客、原住民族語在數位語料缺席,導致AI難以理解台灣的語言與文化,IMA資訊經理人協會從民間發起「Taiwan Tongues」台灣通用語料庫計畫,在尊重智慧財產權的前提下,號召作家無償釋出文學作品,共同擴大台灣語料庫,以母語書寫的作家向陽已響應授權。

向陽表示,「這不只是台語跟新科技、新世紀的對話,而且也是台灣語言文化進一步邁向國際通行語言的最好機會。」

IMA資訊經理人協會理事長蔡祈岩指出,「這件事不是打高空,而是很重要的基礎建設,把基礎打好了,在這個土壤上,台灣的AI就會有很好的發展。」

不希望主流AI模型導致台灣掉落新的數位落差與文化邊緣化,目前台灣通用語料庫計畫已經有數十位作家授權,累計超過500萬字高品質語料陸續上架提供非商業使用,期待讓AI不再是中國或外國腔。

您的參與,
讓公共服務更完整!
閱讀、按讚,就能客製您的專屬推薦新聞
本網站使用 Cookie 技術提升體驗,詳見服務條款。繼續瀏覽即代表同意上述規範。