Cloudflare ล่ม 18 พฤศจิกายน 2025: สาเหตุ ผลกระทบ บทเรียนสำคัญ
กลับหน้ารายการบทความ

Cloudflare ล่ม 18 พฤศจิกายน 2025: สาเหตุ ผลกระทบ บทเรียนสำคัญ

วิเคราะห์ Cloudflare outage 18 พ.ย. 2025 ที่ล่ม 5 ชม. 46 นาที กระทบ ChatGPT, Twitter, Spotify สาเหตุจาก ClickHouse config และ Bot Management ดู timeline, บริการที่พัง และแผนป้องกันซ้ำ

Network อัพเดต: 5 มกราคม 2569

Cloudflare ล่ม 18 พฤศจิกายน 2025: สาเหตุ-ผลกระทบและบทเรียนสำคัญ
Cloudflare outage ครั้งใหญ่ที่สุดในรอบ 6 ปีเกิดขึ้นเมื่อ 18 พฤศจิกายน 2025 เวลา 11:20 น. UTC (16:20 น. ไทย) ส่งผลกระทบเว็บดังทั่วโลกอย่าง ChatGPT, X (Twitter), Spotify และ League of Legends วิเคราะห์สาเหตุจากฐานข้อมูล ClickHouse และวิธีแก้ไข

สาเหตุรากฐานของ Cloudflare ล่ม 2025

การเปลี่ยนแปลงสิทธิ์เข้าถึงในฐานข้อมูล ClickHouse เมื่อ 11:05 น. UTC ทำให้ไฟล์ค่าตั้ง Bot Management ขยาย 2 เท่า เกินขีดจำกัด (จาก 60 เป็น 200+ ฟีเจอร์) ส่งผลให้ proxy หลัก (FL2) panic และเกิด HTTP 5xx errors ทั่วเครือข่าย

ลำดับเหตุการณ์ Cloudflare outage

  • 11:05 น. UTC: ปล่อยการเปลี่ยนสิทธิ์ ClickHouse

  • 11:20-11:28 น.: เริ่มล่มและรายงาน error

  • 11:32 น.: เริ่มสอบสวน

  • 11:35 น.: เรียกประชุมฉุกเฉิน

  • 13:05 น.: Bypass Workers KV และ Cloudflare Access

  • 14:24 น.: หยุดสร้างไฟล์ Bot Management ผิด

  • 14:30 น.: แก้ปัญหาหลัก ปล่อย config ถูกต้อง

  • 17:06 น.: ระบบปกติ (รวม 5 ชม. 46 นาที)

บริการ Cloudflare ที่ล่มหนัก

Cloudflare ล่มกระทบบริการหลักดังนี้:
บริการผลกระทบรายละเอียด
Turnstileล้มเหลว 100%ยืนยันตัวตนไม่ทำงาน
Workers KVHTTP 5xx สูงเก็บข้อมูลล้มเหลว
Cloudflare Accessตรวจสอบสิทธิ์พังเข้าสู่ระบบไม่ได้
Dashboardเข้าสู่ยากTurnstile ล้ม
Email Securityสูญข้อมูล IP ชั่วคราวส่งมอบอีเมลสะดุด
ผู้ใช้เห็นข้อความ "Please try again in a few minutes"

สถาปัตยกรรม Cloudflare และจุดล้มเหลว

คำขอผ่าน 3 ชั้น: HTTP/TLS → Core Proxy (FL2 + Bot Management) → Pingora
ปัญหาอยู่ที่ Bot Management config ขยายเกิน limit ทำให้ FL2 proxy crash ไฟล์สร้างใหม่ทุก 5 นาที สร้างพฤติกรรมผันผวน ทีมสับสนคิดว่าเป็น DDoS

ผลกระทบต่อเว็บดังทั่วโลก

  • ChatGPT: เข้าไม่ได้ชั่วคราว

  • X (Twitter): ใช้งานล้ม

  • Spotify: สตรีมมิ่งหยุด

  • League of Legends: เซิร์ฟเวอร์ออนไลน์พัง

  • DownDetector: ติดตาม outage ก็ล่ม

แสดงการพึ่งพา Cloudflare สูงของอินเทอร์เน็ตโลก

แผนปรับปรุงป้องกัน Cloudflare ล่มซ้ำ

Cloudflare ประกาศ 4 มาตรการหลัก:
  1. ตรวจสอบ config เข้มงวดเหมือน user data

  2. Kill Switch ระดับโลกสำหรับ feature

  3. จำกัด resource หลักจาก single cause

  4. ทบทวน failure mode ทุก proxy module

บทเรียนจาก Cloudflare outage 2025

เหตุการณ์นี้เกิดจาก change management ที่ไม่ดี ไม่ใช่ DDoS หรือ hack แสดงความสำคัญของ regression testing และ resilient design แม้ยักษ์ใหญ่ก็ยังต้องเรียนรู้เพื่อความเสถียรในอนาคต

D

DRITESTUDIO

บริษัท ไดรท์สตูดิโอ จำกัด - ผู้ให้บริการ Cloud, VPS, Hosting และ Colocation ในประเทศไทย