قطعی گسترده کلودفلر در ۱۸ نوامبر ۲۰۲۵

«متیو پرینس»، هم‌بنیان‌گذار و مدیرعامل کلودفلر، در یک پست وبلاگی جزئیات فنی حادثه روز گذشته را منتشر کرده است.

قطعی گسترده شبکه Cloudflare در ۱۸ نوامبر ۲۰۲۵

تاریخ حادثه: ۱۸ نوامبر ۲۰۲۵ – ۱۱:۲۰ UTC

نویسنده گزارش اصلی: Matthew Prince، مدیرعامل Cloudflare


مقدمه

در تاریخ ۱۸ نوامبر ۲۰۲۵، شبکه Cloudflare با یک اختلال بسیار گسترده مواجه شد. از ساعت ۱۱:۲۰ به وقت UTC، بسیاری از کاربران وب هنگام دستیابی به سایت‌های مشتریان Cloudflare با صفحات خطای HTTP مواجه شدند، نشان‌دهندهٔ اختلال داخلی در زیرساخت این شرکت.

در بیانیهٔ رسمی Cloudflare تأکید شده است که این مشکل ناشی از حمله سایبری یا فعالیت مخرب نبوده است، بلکه به دلیل تغییرات انجام‌شده در مجوزهای یکی از سیستم‌های پایگاه داده‌شان رخ داده است.


شرح فنی مشکل

  • تغییر در سیستم پایگاه داده Cloudflare باعث شد که خروجی کوئری به فایل پیکربندی «ویژگی‌ها» (feature file) مربوط به سیستم Bot Management دو برابر اندازهٔ معمول شود.

  • آن فایل بزرگ‌تر از حد انتظار، به همه ماشین‌های عضو شبکه منتشر شد. نرم‌افزار مسیریابی ترافیک که به این فایل وابسته بود، محدودیتی روی حجم فایل داشت — همین محدودیت با حجم بیشتر از حد معمول، موجب شکست ماژول شد و منجر به خطای HTTP ۵xx گردید.

  • این خطاها هم‌زمان با نوسان‌هایی بودند؛ به این معنا که سیستم برای مدتی به حالت عادی بازمی‌گشت و سپس دوباره خطا می‌داد، چون تولید و انتشار فایل خراب به‌صورت دقیقه‌ای در حال انجام بود.


خدمات تحت تأثیر

پیش از بازیابی کامل، چندین سرویس کلیدی Cloudflare با اختلال مواجه شدند:

  • سرویس هسته‌ای CDN و امنیت: خطاهای HTTP ۵xx افزایش یافت.

  • سرویس Turnstile (احراز هویت کاربران): بارگذاری نمی‌شد و کاربران قادر به ورود به داشبورد نبودند.

  • Workers KV: خطاهای HTTP ۵xx به‌طور چشمگیری بالا رفتند؛ علت، خرابی پروکسی اصلی بود.

  • سرویس Access: شکست گستردهٔ احراز هویت برای کاربران + کند شدن یا متوقف شدن تغییرات پیکربندی.

  • داشبورد Cloudflare: اگرچه عمدتاً در دسترس بود، اما کاربران زیاد نمی‌توانستند وارد شوند؛ دلیل، اختلال در Turnstile بود.


بازگردانی و جدول زمانی

  • در ساعت ۱۴:۳۰ UTC، نسخهٔ سالم فایل ویژگی‌ها جایگزین شد و انتشار فایل خراب متوقف گردید. سپس ترافیک اصلی به حالت عادی بازگشت.

  • در ساعت ۱۷:۰۶ UTC، تمامی سرویس‌ها به عملکرد طبیعی بازگشتند.

  • جدول زمانی کلیدها:

    • ۱۱:۰۵ – تغییر کنترل دسترسی دیتابیس اعمال شد

    • ۱۱:۲۸ – اولین خطاها شروع شدند

    • ۱۳:۰۵ – سرویس Workers KV و Access از مسیر پروکسی جدا شدند

    • ۱۳:۳۷ – تمرکز بر بازگردانی فایل سالم

    • ۱۴:۲۴ – توقف انتشار فایل خراب

    • ۱۴:۳۰ – رفع بخش عمدهٔ مشکل

    • ۱۷:۰۶ – پایان رسمی اختلال


تحلیل کوتاه و درس‌های مهم

این رخداد نشان داد که حتی شرکت‌های زیرساختی عظیمی مانند Cloudflare نیز می‌توانند با تغییرات ظاهراً کوچک در سیستم‌های داخلی، دچار اختلال گسترده شوند. مهم‌ترین نکات:

  • انتشار سریع تغییرات در کل شبکه می‌تواند پُرریسک باشد؛

  • سیستم‌هایی که به پیکربندی مبتنی بر فایل وابسته‌اند، باید با محدودیت‌های حجم و فرایندهای کنترل خطا قوی طراحی شوند؛

  • شفافیت و انتشار سریع گزارش پس از حادثه، از جنبهٔ ارتباطی بسیار مهم است.


نتیجه‌گیری

اگر شما سایتی دارید که به خدمات CDN یا امنیتی بستگی دارد، این حادثه می‌تواند یادآوری باشد برای بررسی:

  • حالت‌های بازیابی (Failover) و جایگزین‌های خود را بازبینی کنید؛

  • پشتیبان‌گیری از سرویس‌های مهم + اطلاع‌رسانی اختلالات را در برنامهٔ خود داشته باشید؛

  • سطح خدمات و تعهدهای SLA خود را مرور و مستندسازی نمایید.


منبع

برای مطالعهٔ متن کامل و دقیق گزارش Cloudflare، می‌توانید به این لینک مراجعه کنید:

Cloudflare outage on November 18, 2025