วิเคราะห์เหตุการณ์ Cloudflare ล่มครั้งใหญ่ 12 ก.ย. 2025 จากบั๊กในระบบ Tenant API
cloudflare

วิเคราะห์เหตุการณ์ Cloudflare ล่มครั้งใหญ่ 12 ก.ย. 2025 จากบั๊กในระบบ Tenant API

วิเคราะห์เหตุการณ์ Cloudflare ล่มครั้งใหญ่ 12 ก.ย. 2025 จากบั๊กในระบบ Tenant API

1 นาทีในการอ่าน
โดย DriteStudio
แชร์บทความ:

ข่าวการขัดข้องของ Cloudflare เมื่อวันที่ 12 กันยายน 2025 เกิดจากข้อผิดพลาดในบริการ Tenant Service API ซึ่งส่งผลกระทบต่อ API หลายตัวและแผงควบคุม (Dashboard) ของ Cloudflare โดยสาเหตุหลักมาจากบั๊กในแผงควบคุมที่ทำให้เกิดการเรียก API ซ้ำซ้อนหลายครั้งอย่างไม่จำเป็น เนื่องจากการตั้งค่าผิดพลาดใน React useEffect hook ซึ่งทำให้ฟังก์ชันเรียก API ทำงานซ้ำในขณะที่ยังแสดงผลแผงควบคุมอยู่ ส่งผลให้ระบบ Tenant Service ถูกโหลดหนักจนล่ม

การล่มของ Tenant Service ส่งผลกระทบต่อการประเมินสิทธิ์การเข้าถึง API ทำให้คำขอ API ทั้งหมดล้มเหลวด้วยรหัสสถานะ 5xx และแผงควบคุมไม่สามารถใช้งานได้อย่างต่อเนื่องตลอดเวลาที่เกิดเหตุ ขณะที่ Cloudflare พยายามเพิ่มทรัพยากรและใช้มาตรการจำกัดการเรียก API ชั่วคราวเพื่อควบคุมโหลดของระบบ แต่ก็ยังเกิดปัญหาในเวอร์ชันที่แก้ไขจนต้องย้อนกลับการอัพเดต ส่งผลให้เกิดการล่มซ้ำอีกครั้งหนึ่ง

Cloudflare ได้ตอบสนองโดยการเพิ่มจำนวน pods ของ Tenant Service ที่รันบน Kubernetes เพื่อช่วยรองรับการประมวลผลมากขึ้น พร้อมทั้งติดตั้งการจำกัดความถี่การเรียก API ทั่วโลก (global rate limit) เพื่อลดโหลด นอกจากนี้ยังมีการวิเคราะห์รูปแบบการเรียก API และแก้ไขบั๊กในแผงควบคุมโดยการเพิ่มการหน่วงเวลาแบบสุ่มเพื่อป้องกันไม่ให้เกิดเหตุการณ์ Thundering Herd คือการที่ผู้ใช้ทั้งหมดพยายามเรียกใช้บริการพร้อมกันหลังจากระบบกลับมาใช้งานได้

Cloudflare ยังวางแผนปรับปรุงกระบวนการปล่อยซอฟต์แวร์ (deploy) โดยใช้ Argo Rollouts ที่สามารถตรวจจับปัญหาและย้อนกลับการอัพเดตโดยอัตโนมัติ เพื่อลดผลกระทบจากปัญหาแบบเดียวกันในอนาคต นอกจากนี้ ยังกำลังปรับปรุงระบบมอนิเตอร์และการแจ้งเตือนล่วงหน้าเพื่อเตรียมพร้อมรับมือกับโหลดและปัญหาได้ดีขึ้น รวมถึงปรับปรุงข้อมูลการเรียก API ให้สามารถแยกแยะระหว่างคำขอใหม่กับการเรียกซ้ำได้ เพื่อช่วยให้ทีมสามารถวิเคราะห์และแก้ไขปัญหาได้รวดเร็วขึ้น

สรุปคือ บั๊กภายในแผงควบคุม Cloudflare ที่ทำให้เรียก API ซ้ำซ้อนจนระบบ Tenant Service โหลดเกินกำลัง เป็นสาเหตุหลักของการล่มครั้งนี้ แต่ Cloudflare ได้ดำเนินมาตรการแก้ไขและปรับปรุงระบบเพื่อป้องกันไม่ให้เหตุการณ์นี้เกิดขึ้นอีก และมีแผนพัฒนาการปล่อยบริการและเครื่องมือมอนิเตอร์ให้ดีขึ้นในอนาคต

หมวดหมู่:#cloudflare

ลิขสิทธิ์ © 2025 DriteStudio สงวนสิทธิ์ทั้งหมด

😒 😶 😂
Chat with us.