สาเหตุ Cloudflare ล่ม วันที่ 18 พฤศจิกายน 2025
Network

สาเหตุ Cloudflare ล่ม วันที่ 18 พฤศจิกายน 2025

สาเหตุ Cloudflare ล่ม วันที่ 18 พฤศจิกายน 2025

2 นาทีในการอ่าน
โดย DriteStudio
แชร์บทความ:

การล่มของ Cloudflare ในวันที่ 18 พฤศจิกายน 2025: บทวิเคราะห์เหตุการณ์ที่สำคัญที่สุด

เมื่อวันที่ 18 พฤศจิกายน 2025 ในเวลา 11:20 น. UTC (16:20 น. ตามเวลาไทย) Cloudflare ซึ่งเป็นบริษัทโครงสร้างพื้นฐานอินเทอร์เน็ตขนาดมหาชน ได้ประสบกับการล่มของระบบที่รุนแรงที่สุดมาตั้งแต่ปี 2019 การเหตุการณ์นี้ส่งผลกระทบต่ออินเทอร์เน็ตทั่วโลก ทำให้เว็บไซต์ที่มีชื่อเสียงไม่สามารถเข้าถึงได้ เช่น ChatGPT, X (ทวิตเตอร์), Spotify, League of Legends และเซิร์ฟเวอร์อีเมลนับพันรายการในสำนักงาน

เหตุการณ์ที่นำไปสู่การล่มของระบบ

ที่รากฐานของการล่มคือปัญหาด้านฐานข้อมูลที่ได้รับการปล่อยตัวในเวลา 11:05 น. UTC Cloudflare ได้ดำเนินการเปลี่ยนแปลงสิทธิ์การเข้าถึงในระบบฐานข้อมูล ClickHouse เพื่อปรับปรุงการจัดการสิทธิ์และความเสถียร เป้าหมายคือให้กระบวนการค้นหาฐานข้อมูลส่วนกลางทำงานภายใต้บัญชีผู้ใช้แต่ละรายแทนที่จะเป็นบัญชีระบบ

อย่างไรก็ตาม การเปลี่ยนแปลงนี้มีผลข้างเคียงที่ไม่คาดคิด กระบวนการสร้างไฟล์ค่าตั้งของ Bot Management ซึ่งเดิมมีคอลัมน์จากฐานข้อมูล "default" เท่านั้น ก็เริ่มส่งคืนข้อมูลซ้ำ ๆ จากฐานข้อมูล "r0" ด้วยเช่นกัน ผลลัพธ์นี้ทำให้ไฟล์ค่าตั้งของ Bot Management เพิ่มขึ้นเป็นสองเท่า เกินขีดจำกัดที่ตั้งไว้

ลำดับการล่มของระบบ

เมื่อไฟล์ค่าตั้งขยายเกินขีดจำกัด (เกินขีดจำกัด 200 ฟีเจอร์เมื่อเทียบกับการใช้งานปกติประมาณ 60 ฟีเจอร์) ระบบ Bot Management ซึ่งทำงานบนพร็อกซี่หลัก (FL2) ของ Cloudflare ก็เข้าสู่สถานะเกิด panic ขณะขยายหน่วยความจำ ส่งผลให้เกิด HTTP 5xx errors ที่กระจายไปทั่วเครือข่ายของ Cloudflare

ที่น่าสนใจคือไฟล์ค่าตั้งนี้ถูกสร้างขึ้นใหม่ทุกห้านาที โดยจำนวนแหล่งข้อมูล ClickHouse ที่ได้รับการอัปเดตสิทธิ์เพียงบางส่วนเท่านั้น ดังนั้นบางครั้งระบบได้ไฟล์ค่าตั้งที่ถูกต้อง บางครั้งได้ไฟล์ที่ผิด สิ่งนี้สร้างพฤติกรรมที่ผันผวนซึ่งทำให้ทีมของ Cloudflare สงสัยว่าอาจเป็นการโจมตี DDoS ขนาดใหญ่

ช่วงเวลา และการกู้คืน

  • 11:05 น. UTC: การเปลี่ยนแปลงสิทธิ์ในฐานข้อมูล ClickHouse ได้ถูกปล่อยตัว
  • 11:20-11:28 น. UTC: การล่มเริ่มต้น ข้อผิดพลาดชุดแรกได้รับการรายงาน
  • 11:32 น. UTC: การสอบสวนด้วยตนเองเริ่มต้น
  • 11:35 น. UTC: เรียกประชุมจัดการเหตุฉุกเฉิน
  • 13:05 น. UTC: ทีมของ Cloudflare ใช้ระบบแทน (bypass) สำหรับ Workers KV และ Cloudflare Access ทำให้ลดผลกระทบ[1]
  • 14:24 น. UTC: หยุดการสร้างและเผยแพร่ไฟล์ค่าตั้งของ Bot Management ใหม่
  • 14:30 น. UTC: ปัญหาหลักได้รับการแก้ไข ปล่อยไฟล์ค่าตั้งที่ถูกต้องไปยังเครือข่าย
  • 17:06 น. UTC: ระบบทั้งหมดได้รับการกู้คืนและกลับมาทำงานปกติ

ระยะเวลาทั้งหมดของการล่มคือประมาณ 5 ชั่วโมง 46 นาที

บริการที่ได้รับผลกระทบ

ระบบ CDN หลักและบริการความปลอดภัยของ Cloudflare ได้รับผลกระทบอย่างรุนแรง โดยส่งคืน HTTP 5xx errors ให้กับผู้ใช้ปลายทาง บริการที่ได้รับผลกระทบรวมถึง:

  • Turnstile: ระบบยืนยันตัวตนที่ล้มเหลวอย่างสมบูรณ์
  • Workers KV: บริการเก็บข้อมูล ที่ส่งคืน HTTP 5xx errors ในอัตราสูง[1]
  • Cloudflare Access: บริการเข้าถึงหลักแตกหัก ทำให้เกิดความล้มเหลวในการตรวจสอบสิทธิ์อย่างแพร่หลาย
  • Cloudflare Dashboard: ในขณะที่ส่วนใหญ่ยังคงทำงาน ผู้ใช้ส่วนใหญ่ไม่สามารถเข้าสู่ระบบได้เนื่องจาก Turnstile ไม่พร้อมใช้งาน[1]
  • Email Security: การประมวลผลอีเมลและการส่งมอบยังคงทำงาน แต่มีการสูญหายชั่วคราวของแหล่งข้อมูลด้านชื่อเสียง IP

นอกจากนี้ ผู้ใช้ปลายทางที่พยายามเข้าถึงเว็บไซต์ที่ได้รับการป้องกันโดย Cloudflare ยังต้องเผชิญกับข้อความแสดงข้อผิดพลาด ที่บอกว่า "Please try again in a few minutes"

โครงสร้างและสถาปัตยกรรมของ Cloudflare

เพื่อให้เข้าใจการล่มนี้ได้ดีขึ้น ต้องเข้าใจวิธีการที่ Cloudflare ประมวลผลคำขอ สำหรับแต่ละคำขอ การไหลผ่านมีลักษณะดังนี้:

  1. HTTP และ TLS Layer: คำขอเข้ามาประเมินผลโปรโตคอลและการเข้ารหัส
  2. Core Proxy (FL): คำขอผ่านไปยังระบบพร็อกซี่หลักซึ่งใช้ไฟล์ค่าตั้งเฉพาะ Bot Management คือหนึ่งในหลายโมดูลภายในพร็อกซี่หลัก ซึ่งทำงานบนเวอร์ชั่นพร็อกซี่ใหม่ (FL2)
  3. Pingora: ระบบสุดท้ายสำหรับการค้นหาแคชหรือดึงข้อมูลจากต้นทาง

ปัญหาเกิดขึ้นเมื่อไฟล์ค่าตั้งของ Bot Management ขยายเกินขีดจำกัดสัญญา FL2 proxy ทำให้เกิดข้อผิดพลาด

ผลกระทบต่ออินเทอร์เน็ตโลก

ผลกระทบของการล่มนี้ไม่จำกัดเฉพาะเซิร์ฟเวอร์ Cloudflare เท่านั้น แต่ส่งผลกระทบต่อเว็บไซต์และบริการที่ได้รับการป้องกันโดย Cloudflare รวมถึง:

  • ChatGPT: ไม่สามารถเข้าถึงได้อย่างชั่วคราว
  • X (ทวิตเตอร์): ไม่สามารถใช้งานได้
  • Spotify: บริการสตรีมมิวซิกล้มเหลว
  • League of Legends: เซิร์ฟเวอร์เกมส์ออนไลน์ไม่สามารถเข้าถึงได้
  • Down Detector: เว็บไซต์ติดตาม outages ก็ล้มเหลวเช่นกัน

ซึ่งแสดงให้เห็นถึงการพึ่งพาที่สูงของอินเทอร์เน็ตบนบริการโครงสร้างพื้นฐานกลาง เช่น Cloudflare

การปรับปรุงสำหรับอนาคต

เพื่อป้องกันไม่ให้เหตุการณ์นี้เกิดขึ้นอีก Cloudflare ได้ประกาศแผนการปรับปรุงหลายประการ:

  1. การปรับปรุงการตรวจสอบไฟล์ค่าตั้ง: ข้อมูลการค่าตั้งที่สร้างโดย Cloudflare จะเข้มงวดเช่นเดียวกับข้อมูลที่ผู้ใช้สร้าง
  2. ปุ่มฆ่า (Kill Switch) ระดับโลก: เปิดใช้งานเพิ่มเติมเพื่อปิดคุณสมบัติบนระดับโลก
  3. ลบสิทธิ์การใช้ทรัพยากร: ป้องกันการใช้ทรัพยากรหลักโปรแกรมจากสาเหตุเดียว
  4. ทบทวนรูปแบบความล้มเหลว: ตรวจสอบความรุนแรงของจุดอ่อนสำหรับโมดูลพร็อกซี่หลักทั้งหมด

บทสรุป

การล่มของ Cloudflare ในวันที่ 18 พฤศจิกายน 2025 เป็นเหตุการณ์ที่ร้ายแรงซึ่งส่งผลกระทบต่ออินเทอร์เน็ตโลก โดยเกิดจากสาเหตุที่ดูเรียบง่ายกว่า เพียงแต่เปลี่ยนแปลงสิทธิ์การเข้าถึงในฐานข้อมูล ซึ่งนำไปสู่ไฟล์ค่าตั้งขยายเกินขีดจำกัด และท้ายที่สุดทำให้ระบบพร็อกซี่หลักล้มเหลว

เหตุการณ์นี้ไม่ได้เกิดจากการโจมตี หรือกิจกรรมที่เป็นอันตราย แต่เป็นความล้มเหลวของโครงสร้างพื้นฐานภายในซึ่งแสดงให้เห็นถึงความสำคัญของการทดสอบการถดถอย (regression testing) การจัดการการเปลี่ยนแปลง (change management) และการออกแบบระบบที่ยืดหยุ่นเพื่อป้องกันความล้มเหลวเพียงครั้งเดีย

สิ่งนี้แสดงให้เห็นว่าแม้แต่บริษัทโครงสร้างพื้นฐานอินเทอร์เน็ตที่ใหญ่ที่สุด ก็ยังต้องเรียนรู้จากความผิดพลาดและปรับปรุงระบบของตนเพื่อให้มีความเสถียรมากขึ้นในอนาคต

หมวดหมู่:#Network

ลิขสิทธิ์ © 2025 DriteStudio สงวนสิทธิ์ทั้งหมด

😒 😶 😂
Chat with us.