OpenAI發行的ChatGPT、Google打造的Gemini及X的Grok等大型語言模型(LLM),已經是許多人日常高度依賴的工具。這些語言模型以生成式AI為提供民眾解答,但目前在使用時常會發生「AI幻覺」,如說出不存在的事件、人名等,讓使用者必須進一步驗證語言模型提供的內容。本月OpenAI發布文章,說明為什麼語言模型會產生幻覺(hallucinate)。
文章作者、OpenAI的研究員亞當(Adam Kalai)指出,即使語言模型功能越來越強大,但仍難以解決「幻覺」的其中一個原因,是目前評估模型表現的方式,仍鼓勵模型做出「猜測」行為。
亞當解釋,如同人類在進行測驗時,遇到不知道的題目,比起直接不作答,多數人會抱著也許能猜對的想法姑且猜猜看;而當模型被以「準確答對的機率」作為評量標準時,也會被鼓勵進行猜測,而非直接回答「不知道」。
作者以SimpleQA基準比較GPT5與OpenAI o4,分別詢問只有單一正確答案的問題,並將模型的回答區分為3種結果:準確、錯誤或棄權(模型不冒險猜測)。經過統計後發現,OpenAI o4會更傾向進行猜測,棄權率僅有1%,但錯誤率也會高達75%;GPT5則是棄權率高達52%,但錯誤率僅有26%,不過準確率也略低於o4。
亞當進一步說明,由於「準確率」是目前評價模型優劣的主流標準,因此雖然o4有很高的錯誤率,但因評估標準僅檢視「準確率」,因此o4仍被認定是評價較好的模型。也就是說,開發者在這種標準下,會更傾向建立「猜測」而非「退縮」的模型,讓模型傾向自信地給出錯誤答案,而非勇於承認不確定。
亞當指出,如果要改善模型產生「幻覺」的情況,必需調整模型評分標準機制,讓對自信錯誤(confidential error)的懲罰力道,大於不確定性錯誤(uncertainty error),並對適度表達不確定性的行為給予部分計分。
除此之外,作者也在文中推翻一般常見對幻覺的誤解,如:
- 幻覺並非不可避免,語言模型可以在不確定時棄權。
- 避免幻覺並非只能靠規模更大的模型,相反的,小型模型能更容易了解其限制。
- 幻覺並非神秘的故障(mysterious glitch),而是一種評估獎勵的機制。
- 模型無法達到100%準確,因為現實世界仍有許多問題本質沒有答案。