Cloudflare ล่ม 18 พฤศจิกายน 2025: สาเหตุ-ผลกระทบและบทเรียนสำคัญ
Cloudflare outage ครั้งใหญ่ที่สุดในรอบ 6 ปีเกิดขึ้นเมื่อ 18 พฤศจิกายน 2025 เวลา 11:20 น. UTC (16:20 น. ไทย) ส่งผลกระทบเว็บดังทั่วโลกอย่าง ChatGPT, X (Twitter), Spotify และ League of Legends วิเคราะห์สาเหตุจากฐานข้อมูล ClickHouse และวิธีแก้ไข
สาเหตุรากฐานของ Cloudflare ล่ม 2025
การเปลี่ยนแปลงสิทธิ์เข้าถึงในฐานข้อมูล ClickHouse เมื่อ 11:05 น. UTC ทำให้ไฟล์ค่าตั้ง Bot Management ขยาย 2 เท่า เกินขีดจำกัด (จาก 60 เป็น 200+ ฟีเจอร์) ส่งผลให้ proxy หลัก (FL2) panic และเกิด HTTP 5xx errors ทั่วเครือข่ายลำดับเหตุการณ์ Cloudflare outage
- 11:05 น. UTC: ปล่อยการเปลี่ยนสิทธิ์ ClickHouse
- 11:20-11:28 น.: เริ่มล่มและรายงาน error
- 11:32 น.: เริ่มสอบสวน
- 11:35 น.: เรียกประชุมฉุกเฉิน
- 13:05 น.: Bypass Workers KV และ Cloudflare Access
- 14:24 น.: หยุดสร้างไฟล์ Bot Management ผิด
- 14:30 น.: แก้ปัญหาหลัก ปล่อย config ถูกต้อง
- 17:06 น.: ระบบปกติ (รวม 5 ชม. 46 นาที)
บริการ Cloudflare ที่ล่มหนัก
Cloudflare ล่มกระทบบริการหลักดังนี้:| บริการ | ผลกระทบ | รายละเอียด |
|---|---|---|
| Turnstile | ล้มเหลว 100% | ยืนยันตัวตนไม่ทำงาน |
| Workers KV | HTTP 5xx สูง | เก็บข้อมูลล้มเหลว |
| Cloudflare Access | ตรวจสอบสิทธิ์พัง | เข้าสู่ระบบไม่ได้ |
| Dashboard | เข้าสู่ยาก | Turnstile ล้ม |
| Email Security | สูญข้อมูล IP ชั่วคราว | ส่งมอบอีเมลสะดุด |
สถาปัตยกรรม Cloudflare และจุดล้มเหลว
คำขอผ่าน 3 ชั้น: HTTP/TLS → Core Proxy (FL2 + Bot Management) → Pingoraปัญหาอยู่ที่ Bot Management config ขยายเกิน limit ทำให้ FL2 proxy crash ไฟล์สร้างใหม่ทุก 5 นาที สร้างพฤติกรรมผันผวน ทีมสับสนคิดว่าเป็น DDoS
ผลกระทบต่อเว็บดังทั่วโลก
- ChatGPT: เข้าไม่ได้ชั่วคราว
- X (Twitter): ใช้งานล้ม
- Spotify: สตรีมมิ่งหยุด
- League of Legends: เซิร์ฟเวอร์ออนไลน์พัง
- DownDetector: ติดตาม outage ก็ล่ม
แผนปรับปรุงป้องกัน Cloudflare ล่มซ้ำ
Cloudflare ประกาศ 4 มาตรการหลัก:- ตรวจสอบ config เข้มงวดเหมือน user data
- Kill Switch ระดับโลกสำหรับ feature
- จำกัด resource หลักจาก single cause
- ทบทวน failure mode ทุก proxy module