قطعی گسترده کلودفلر در ۱۸ نوامبر ۲۰۲۵
«متیو پرینس»، همبنیانگذار و مدیرعامل کلودفلر، در یک پست وبلاگی جزئیات فنی حادثه روز گذشته را منتشر کرده است.
قطعی گسترده شبکه Cloudflare در ۱۸ نوامبر ۲۰۲۵
تاریخ حادثه: ۱۸ نوامبر ۲۰۲۵ – ۱۱:۲۰ UTC
نویسنده گزارش اصلی: Matthew Prince، مدیرعامل Cloudflare
مقدمه
در تاریخ ۱۸ نوامبر ۲۰۲۵، شبکه Cloudflare با یک اختلال بسیار گسترده مواجه شد. از ساعت ۱۱:۲۰ به وقت UTC، بسیاری از کاربران وب هنگام دستیابی به سایتهای مشتریان Cloudflare با صفحات خطای HTTP مواجه شدند، نشاندهندهٔ اختلال داخلی در زیرساخت این شرکت.
در بیانیهٔ رسمی Cloudflare تأکید شده است که این مشکل ناشی از حمله سایبری یا فعالیت مخرب نبوده است، بلکه به دلیل تغییرات انجامشده در مجوزهای یکی از سیستمهای پایگاه دادهشان رخ داده است.
شرح فنی مشکل
-
تغییر در سیستم پایگاه داده Cloudflare باعث شد که خروجی کوئری به فایل پیکربندی «ویژگیها» (feature file) مربوط به سیستم Bot Management دو برابر اندازهٔ معمول شود.
-
آن فایل بزرگتر از حد انتظار، به همه ماشینهای عضو شبکه منتشر شد. نرمافزار مسیریابی ترافیک که به این فایل وابسته بود، محدودیتی روی حجم فایل داشت — همین محدودیت با حجم بیشتر از حد معمول، موجب شکست ماژول شد و منجر به خطای HTTP ۵xx گردید.
-
این خطاها همزمان با نوسانهایی بودند؛ به این معنا که سیستم برای مدتی به حالت عادی بازمیگشت و سپس دوباره خطا میداد، چون تولید و انتشار فایل خراب بهصورت دقیقهای در حال انجام بود.
خدمات تحت تأثیر
پیش از بازیابی کامل، چندین سرویس کلیدی Cloudflare با اختلال مواجه شدند:
-
سرویس هستهای CDN و امنیت: خطاهای HTTP ۵xx افزایش یافت.
-
سرویس Turnstile (احراز هویت کاربران): بارگذاری نمیشد و کاربران قادر به ورود به داشبورد نبودند.
-
Workers KV: خطاهای HTTP ۵xx بهطور چشمگیری بالا رفتند؛ علت، خرابی پروکسی اصلی بود.
-
سرویس Access: شکست گستردهٔ احراز هویت برای کاربران + کند شدن یا متوقف شدن تغییرات پیکربندی.
-
داشبورد Cloudflare: اگرچه عمدتاً در دسترس بود، اما کاربران زیاد نمیتوانستند وارد شوند؛ دلیل، اختلال در Turnstile بود.
بازگردانی و جدول زمانی
-
در ساعت ۱۴:۳۰ UTC، نسخهٔ سالم فایل ویژگیها جایگزین شد و انتشار فایل خراب متوقف گردید. سپس ترافیک اصلی به حالت عادی بازگشت.
-
در ساعت ۱۷:۰۶ UTC، تمامی سرویسها به عملکرد طبیعی بازگشتند.
-
جدول زمانی کلیدها:
-
۱۱:۰۵ – تغییر کنترل دسترسی دیتابیس اعمال شد
-
۱۱:۲۸ – اولین خطاها شروع شدند
-
۱۳:۰۵ – سرویس Workers KV و Access از مسیر پروکسی جدا شدند
-
۱۳:۳۷ – تمرکز بر بازگردانی فایل سالم
-
۱۴:۲۴ – توقف انتشار فایل خراب
-
۱۴:۳۰ – رفع بخش عمدهٔ مشکل
-
۱۷:۰۶ – پایان رسمی اختلال
-
تحلیل کوتاه و درسهای مهم
این رخداد نشان داد که حتی شرکتهای زیرساختی عظیمی مانند Cloudflare نیز میتوانند با تغییرات ظاهراً کوچک در سیستمهای داخلی، دچار اختلال گسترده شوند. مهمترین نکات:
-
انتشار سریع تغییرات در کل شبکه میتواند پُرریسک باشد؛
-
سیستمهایی که به پیکربندی مبتنی بر فایل وابستهاند، باید با محدودیتهای حجم و فرایندهای کنترل خطا قوی طراحی شوند؛
-
شفافیت و انتشار سریع گزارش پس از حادثه، از جنبهٔ ارتباطی بسیار مهم است.
نتیجهگیری
اگر شما سایتی دارید که به خدمات CDN یا امنیتی بستگی دارد، این حادثه میتواند یادآوری باشد برای بررسی:
-
حالتهای بازیابی (Failover) و جایگزینهای خود را بازبینی کنید؛
-
پشتیبانگیری از سرویسهای مهم + اطلاعرسانی اختلالات را در برنامهٔ خود داشته باشید؛
-
سطح خدمات و تعهدهای SLA خود را مرور و مستندسازی نمایید.
منبع
برای مطالعهٔ متن کامل و دقیق گزارش Cloudflare، میتوانید به این لینک مراجعه کنید: