[綜合]cloudflare大爆炸 無名 ID:peYLY/bI 2025/11/19(三) 21:34:22.682 No.29189106
評分:0, 年:0, 月:0, 週:0, 日:0, [+1 / -1] 最後更新:2025-11-19 22:51:19

2025 年 11 月 18 日 11:20 UTC(本部落格中所有時間均為格林威治時間),Cloudflare 的網路開始出現嚴重故障,無法傳遞核心網路流量。這會向嘗試存取我們客戶網站的網際網路使用者顯示為錯誤頁面,指示 Cloudflare 網路內部發生故障。
發生該問題,並非由任何類型的網路攻擊或者惡意活動直接或間接導致。而是由於我們其中一個資料庫系統的權限變更所觸發,該變更導致資料庫將多個項目輸出至我們的 Bot Management 系統使用的「特徵檔案」中。該特徵檔案的大小隨之增加了一倍。然後,大小超出預期的特徵檔案被傳播至構成我們網路的所有機器。
在這些機器上執行的軟體會讀取此特徵檔案,以在我們的網路中路由流量,並讓我們的 Bot Management 系統能夠隨著不斷變化的威脅而保持最新狀態。軟體對特徵檔案的大小有低於其兩倍的限制。這會導致軟體發生故障。
最初,我們錯誤地懷疑看到的狀況是由超大規模 DDoS 攻擊引起,在此之後,我們正確地識別出核心問題,並能阻止大小超出預期的特徵檔案傳播,以及將其取代為早期版本。截至下午 14:30,核心流量大致已恢復正常。在接下來的幾小時內,隨著流量恢復上線,我們努力緩解對網路各部分造成的負載增加。截至 17:06,Cloudflare 的所有系統皆運作正常。
故障對我們的客戶和整個網際網路造成影響,我們對此深感抱歉。鑑於 Cloudflare 在網際網路生態系統中的重要性,我們的任何系統出現任何中斷都不可接受。我們的網路曾有一段時間無法路由流量,這讓團隊的每個成員都感到非常痛苦。我們知道今天讓您失望了。
其中一個模組 Bot Management 是造成今天服務中斷的原因。
除其他系統外,Cloudflare 的 Bot Management 還包括一個機器學習模型,我們可以使用該模型為每個通過我們網路的請求產生機器人分數。我們的客戶使用機器人分數來控制允許哪些機器人存取其網站,或不允許存取。
該模型將「特徵」組態檔案作為輸入。在這種情況下,特徵是指機器學習模型用於預測請求是否為自動化請求的個別特徵。特徵組態檔案是個別特徵的集合。
此特徵檔案每隔幾分鐘會重新整理,並發布至我們的整個網路,以便我們對網際網路流量變化做出回應。這讓我們能夠對新型機器人和新的機器人攻擊做出回應。因此,隨著惡意執行者快速變更手段,頻繁且快速地推出更新至關重要。
由於底層 ClickHouse 查詢行為發生變更(如下所述),產生此檔案導致其具有大量重複的「特徵」列。這樣一來,變更了先前固定大小的特徵組態檔案大小,導致機器人模組觸發錯誤。
遺憾的是,Bot Management 特徵檔案產生邏輯所執行的查詢類型,正是為了建構本節開頭提及檔案的每個輸入「特徵」。
然而,作為授予使用者額外權限的一部分,回應現在包含 r0 結構描述的所有中繼資料,實際上使回應中的列數增加了一倍以上,最終影響了最終檔案輸入中的列數(即特徵)。
在我們的代理服務上執行的每個模組都有許多限制,目的是為了避免無限制的記憶體取用,以及為了最佳化效能而預先分配記憶體。在此特定情況下,Bot Management 系統在執行階段可以使用的機器學習特徵數有限制。目前該限制設定為 200,遠高於我們目前使用的大約 60 項特徵。同樣,之所以存在限制,是因為出於效能原因,我們為特徵預先配置了記憶體。
當具有超過 200 項特徵的不良檔案傳播到我們的伺服器時,便會達到此限制,導致系統發生異常。進行檢查的 Rust 程式碼是未處理錯誤的來源,如(附圖)所示
這導致出現以下緊急情況,進而導致 5xx 錯誤。
thread fl2_worker_thread panicked: called Result::unwrap() on an Err value
今天是 Cloudflare 自 2019 年以來最嚴重的服務中斷。我們曾遇到過導致儀表板無法使用的服務中斷。一些服務中斷導致較新特徵在一段時間內無法使用。但在過去六年多的時間裡,我們沒有再發生過導致大部分核心流量停止流經我們網路的服務中斷。
今天這樣的服務中斷不可接受。我們已將系統架構設計為具備高度的失敗復原能力,以確保流量持續不間斷。過去,當我們遇到服務中斷時,總是會促使我們構建新的、更具復原能力的系統。
我謹代表 Cloudflare 全體團隊,對於今日網際網路故障帶來的困擾,致上誠摯的歉意。
https://blog.cloudflare.com/zh-tw/18-november-2025-outage/
無題 無名 ID:pyNRUBlk 2025/11/19(三) 21:39:44.712 No.29189135
panic就是壞文明
無題 無名 ID:5OWlGbEQ 2025/11/19(三) 21:40:27.603 No.29189141 >>291891262025 年 11 月 18 日上午 11:20(UTC),Cloudflare 的網路突然出現重大故障,無法正常傳遞核心流量。一般使用者在瀏覽使用 Cloudflare 的網站時,就會看到錯誤頁面,表示 Cloudflare 內部出了問題。
這次事件不是攻擊或惡意行為造成的,而是因為內部一項資料庫權限變更,引發資料庫把太多項目輸出到 Bot Management(機器人管理)系統所使用的「特徵檔案」裡,使檔案大小直接變成兩倍。這份超出預期大小的檔案接著被同步到全世界 Cloudflare 的所有伺服器上。
各伺服器上的軟體會讀取這份特徵檔,用來協助流量判斷以及辨識機器人,但軟體本身對檔案大小有限制,只能接受比原本小很多的檔案,結果造成軟體直接故障。
一開始 Cloudflare 誤以為是超大型 DDoS 攻擊導致,但很快查出真正原因,並阻止異常檔案繼續傳播,改回舊版本。約在下午 14:30,大部分流量恢復正常,後續數小時持續調整負載,到 17:06 全系統回復正常。
這次故障造成許多客戶及整個網路受到影響,Cloudflare 表示非常抱歉,也承認如此大規模的中斷是完全不能接受的。
造成問題的核心是 Bot Management 模組。這個系統靠機器學習為每個請求打「機器人分數」,需要讀取「特徵檔案」作為模型的輸入。這份特徵檔案會每幾分鐘更新,以快速應對新的 bot 攻擊手法。
這次因為資料庫查詢(ClickHouse)的回傳方式被改動,導致回傳內容多了很多重複資料,使特徵檔案瞬間膨脹到超過系統限制(200 個特徵,而平常只用約 60 個)。超標後,程式在讀取時發生錯誤並直接崩潰,造成大量 5xx 錯誤。
這是 Cloudflare 自 2019 年以來最嚴重的一次中斷。他們強調會從這次事件中改善系統,避免類似問題再次發生。
Cloudflare 最後向所有受到影響的使用者與網站致歉。
無題 無名 ID:hSGl3eAA 2025/11/19(三) 21:41:36.287 No.29189152
無題 無名 ID:LJALDTqU 2025/11/19(三) 21:42:34.017 No.29189159
無題 無名 ID:24QZOp2E 2025/11/19(三) 21:43:49.747 No.29189171
無題 無名 ID:AyHtZPZs 2025/11/19(三) 21:43:51.914 No.29189172
>>29189126白話文:
我們使用AI人工智慧來處理網路安全
阿 人工智慧出錯了!
痾 我們只能做復原哦~ 之後還會有什麼問題我們不知道哦~~
因為都是人工智慧處理哦 邱咪~
無題 無名 ID:g3o0ktq2 2025/11/19(三) 21:45:44.819 No.29189187
無題 無名 ID:N05jL5NU 2025/11/19(三) 21:47:00.303 No.29189196
>>29189126權限設定錯誤導致某個設定檔案
原本只要檢查60項
變成多很多 而且導致超過系統限制200
然後系統就崩潰了