亞馬遜雲端服務大當機 AWS是什麼?為何突然故障?

AWS是什麼?
AWS(Amazon Web Services)是美國亞馬遜公司旗下的雲端運算服務供應商,受託管理全球眾多企業及政府部門的網站、檔案及資料庫等,並將自己定位為「網路服務的骨幹」。
BBC報導指出,網路上的各種App、遊戲與網站都需要地方存放資料、處理用戶請求和運行程式,AWS就提供儲存空間並協助管理,讓各公司無需自行維護昂貴的伺服器。據估計,如今全球有大約三分之一的網路服務依靠AWS才得以順利運作,主要競爭者只有微軟及Google的雲端平台。
網路效能監測公司Catchpoint創辦人達烏迪(Mehdi Daoudi)觀察,許多公司20年前都有自己的資料中心,但現今大多數公司都改為仰賴雲端服務供應商,不過由於近2、3年雲端服務成本逐漸上升,已有部分公司又回頭依賴自家設施。
為什麼會發生故障?
亞馬遜公司表示,這次問題出在AWS全球規模最大、最重要的雲端核心之一,也就是位於美國維吉尼亞州的US-EAST-1資料中心當機,導致「網域名稱系統」(Domain Name System, DNS)故障,使客戶無法存取在AWS一個名為DynamoDB的資料庫中儲存的資訊,但尚不清楚DNS故障的原因。
CNN比喻,DNS就像網路的定位引擎,可將對使用者友善、易辨認的網址(如https://news.pts.org.tw),轉換成其他網站與應用程式能理解的一串數字,也就是IP位址。若DNS故障,就會擾亂轉換過程。
當使用者點擊連結或打開App時,他們使用的設備會發送請求以連接到該指定網路服務;一旦DNS發生錯誤,雲端運算服務就彷彿失去方向感,即使資料都存在,但系統卻無法找到資料在哪裡,也無法將網路流量導向對的地方。
美國聖母大學門多薩商學院IT教授查普爾(Mike Chapple)說明,亞馬遜儲存的數據仍是安全的,只是在故障時找不到,導致應用程式暫時與數據分離,「就好像這些網站暫時失憶一般。」
資安服務公司NymVPN的首席數位長賈丁(Rob Jardin)認為,沒有跡象顯示這是惡意網路攻擊,比較像是亞馬遜主要資料中心之一出現技術故障,當系統超載或網路運作關鍵部分發生問題時,就會造成此類故障。
這次故障揭示網路中斷風險?
據CNN報導,AWS不常發生大規模故障,上一次發生類似狀況是在2021年。不過去(2024)年資安服務公司CrowdStrike才發生史上最大規模IT當機,導致大量航班、手術皆受影響。
根據追蹤網站Downdetector統計,這次的AWS故障有數千起用戶通報異常,是自2024年CrowdStrike當機事件後,全球規模最大的網路中斷。
《紐約時報》引述專家觀點稱,此次AWS大規模故障再次顯示,網路對亞馬遜等少數幾家主要雲端供應商的依賴程度過高,一旦其中一家當機,就可能影響數百萬用戶的使用。
賈丁也指出,網路最初的設計是去中心化且具備高度韌性,但如今的線上生態系卻過度集中在少數幾個雲端運算系統,一旦其中一個系統出現故障,造成的影響將既廣泛又快速。
NymVPN執行長哈平(Harry Halpin)在談到網路對少數雲端供應商的依賴程度時則說:「大家都覺得這很正常,但這並不正常。」