
วิเคราะห์เหตุการณ์ Cloudflare ล่มครั้งใหญ่ 12 ก.ย. 2025 จากบั๊กในระบบ Tenant API
วิเคราะห์เหตุการณ์ Cloudflare ล่มครั้งใหญ่ 12 ก.ย. 2025 จากบั๊กในระบบ Tenant API
ข่าวการขัดข้องของ Cloudflare เมื่อวันที่ 12 กันยายน 2025 เกิดจากข้อผิดพลาดในบริการ Tenant Service API ซึ่งส่งผลกระทบต่อ API หลายตัวและแผงควบคุม (Dashboard) ของ Cloudflare โดยสาเหตุหลักมาจากบั๊กในแผงควบคุมที่ทำให้เกิดการเรียก API ซ้ำซ้อนหลายครั้งอย่างไม่จำเป็น เนื่องจากการตั้งค่าผิดพลาดใน React useEffect hook ซึ่งทำให้ฟังก์ชันเรียก API ทำงานซ้ำในขณะที่ยังแสดงผลแผงควบคุมอยู่ ส่งผลให้ระบบ Tenant Service ถูกโหลดหนักจนล่ม
การล่มของ Tenant Service ส่งผลกระทบต่อการประเมินสิทธิ์การเข้าถึง API ทำให้คำขอ API ทั้งหมดล้มเหลวด้วยรหัสสถานะ 5xx และแผงควบคุมไม่สามารถใช้งานได้อย่างต่อเนื่องตลอดเวลาที่เกิดเหตุ ขณะที่ Cloudflare พยายามเพิ่มทรัพยากรและใช้มาตรการจำกัดการเรียก API ชั่วคราวเพื่อควบคุมโหลดของระบบ แต่ก็ยังเกิดปัญหาในเวอร์ชันที่แก้ไขจนต้องย้อนกลับการอัพเดต ส่งผลให้เกิดการล่มซ้ำอีกครั้งหนึ่ง
Cloudflare ได้ตอบสนองโดยการเพิ่มจำนวน pods ของ Tenant Service ที่รันบน Kubernetes เพื่อช่วยรองรับการประมวลผลมากขึ้น พร้อมทั้งติดตั้งการจำกัดความถี่การเรียก API ทั่วโลก (global rate limit) เพื่อลดโหลด นอกจากนี้ยังมีการวิเคราะห์รูปแบบการเรียก API และแก้ไขบั๊กในแผงควบคุมโดยการเพิ่มการหน่วงเวลาแบบสุ่มเพื่อป้องกันไม่ให้เกิดเหตุการณ์ Thundering Herd คือการที่ผู้ใช้ทั้งหมดพยายามเรียกใช้บริการพร้อมกันหลังจากระบบกลับมาใช้งานได้
Cloudflare ยังวางแผนปรับปรุงกระบวนการปล่อยซอฟต์แวร์ (deploy) โดยใช้ Argo Rollouts ที่สามารถตรวจจับปัญหาและย้อนกลับการอัพเดตโดยอัตโนมัติ เพื่อลดผลกระทบจากปัญหาแบบเดียวกันในอนาคต นอกจากนี้ ยังกำลังปรับปรุงระบบมอนิเตอร์และการแจ้งเตือนล่วงหน้าเพื่อเตรียมพร้อมรับมือกับโหลดและปัญหาได้ดีขึ้น รวมถึงปรับปรุงข้อมูลการเรียก API ให้สามารถแยกแยะระหว่างคำขอใหม่กับการเรียกซ้ำได้ เพื่อช่วยให้ทีมสามารถวิเคราะห์และแก้ไขปัญหาได้รวดเร็วขึ้น
สรุปคือ บั๊กภายในแผงควบคุม Cloudflare ที่ทำให้เรียก API ซ้ำซ้อนจนระบบ Tenant Service โหลดเกินกำลัง เป็นสาเหตุหลักของการล่มครั้งนี้ แต่ Cloudflare ได้ดำเนินมาตรการแก้ไขและปรับปรุงระบบเพื่อป้องกันไม่ให้เหตุการณ์นี้เกิดขึ้นอีก และมีแผนพัฒนาการปล่อยบริการและเครื่องมือมอนิเตอร์ให้ดีขึ้นในอนาคต