Cloudflare sập 19 dịch vụ – Lỗi siêu nặng

Ngày buồn, tháng nhớ, năm thương, gửi Xuka thân mến 😀

Ah, đoạn trên mình phét lác tí cho bon mồm, nôm na là hôm nay 02/11/2023, khoảng 19 dịch vụ của Cloudflare bị sập

2023 11 02 22 22 33

Ban đầu mình tính cập nhập vào bài viết cũ, mà sau khi nhìn lại, thấy ảnh hưởng nghiêm trọng quá, nên viết thành 1 bài mới cho tiện theo dõi

Các dịch vụ quan trọng bị sập bao gồm:

Dashboard
API
DNS Updates
Firewall
Tunnel
WARP
Workers
Zero Trust

Khi đã sập tới dashboard là coi như sập toàn bộ hệ thống một cách triệt để rồi, lỗi theo mình là siêu nặng, trên thèng bibica.net giờ không thể xóa cache, không thể vào để bật, tắt, thêm xóa DNS hay làm gì được cả, trang nào cơm gạo lúc này user vào đặt hàng hay gì thì đúng là ốm đòn

Kiểm tra cloudflarestatus thì được thông báo là “CÚP ĐIỆN” 😀 nói chung anh vẽ vời đủ các công nghệ nào là cân bằng tải, chống DDOS này nọ tầm thế giới …. mà cúp điện lại ảnh hưởng tới 19 dịch vụ đang chạy thì đúng là trò hề

Nghe còn hoang đường hơn con dâu luộc trứng, xong kiu trứng bị ngót mẹ ợ :]]

Chẳng thà họ gào là nhân viên cấp cao nghỉ việc, hack nội bộ hệ thống, nghe nó còn đáng tin và dễ hiểu, chứ mất điện thì khó mà ngửi nổi :]] tầm của Cloudflare nó là cấp độ thế giới, các kế hoạch dự phòng cho động đất, sóng thần, hỏa hoạn, cháy nổ …. là hiển nhiên 😛 chắc trừ khoản Batman với Supperman oánh lộn vỡ luôn DC không tính tới, còn lại đều phải nằm trong kế hoạch của họ 😀

Các vấn đề thường gặp như cúp điện, hư SSD, hỏa hoạn, hay bị hack ….  thì mình đều có nghe qua, nhưng đa phần mức ảnh hưởng nhẹ, tới 1 số ít khách hàng, ở 1 số ít location, còn ảnh hưởng tới gần 100% khách hàng như lần này của Cloudflare thì là lần đầu tiên mình thấy

Post Mortem on Cloudflare Control Plane and Analytics Outage

Sau khoảng 2 ngày khắc phục sự cố, Cloudflare đã có thông báo chính thức về lý do tại sao hệ thống của họ lại sập cmnl như thế

Họ cũng đã có kế hoạch cho những chuyện không thể tránh khỏi như thế này, tuy thế DC chính tại Oregon của họ là Flexential lại có những quyết định khó hiểu, khiến họ không kịp xử lý

Flexential có một cuộc bảo trì đột xuất hệ thống điện, cơ sở hạ tầng của Flexential thì ngoài chuyện có máy phát điện, họ còn có thêm 1 bộ phận dạng UPS để lưu điện, nôm na cũng đủ để họ có thể tự xử lý, hoặc có thể do bảo trì quá đột xuất, họ không kịp thông báo cho phía khách hàng (ở đây là Cloudflare)

Thời điểm đó theo như Cloudflare nói là vào buổi tối, ca trực của Flexential thiếu người

Và trong lúc Flexential bảo trì lại gặp đủ các vấn đề, kiểu dùng cái máy biến áp bị lỗi, cơ chế tự bảo vệ sẽ đóng tất cả các máy phát điện

Flexential mới lôi các UPS lưu điện ra để chạy tạm, trong lúc chờ khởi động lại máy phát điện

Vấn đề là bản thân Flexential cũng không lường trước được tình huống dùng cái máy biến áp lỗi -> sập máy phát điện, nên không quá chú trọng vào các thiết bị UPS, kết quả là UPS chỉ chạy được khoảng 4 phút, mà máy phát điện phải mất hơn 10 phút sau mới khởi động lại được

Câu chuyện cuối cùng thì như chúng ta đã biết, Cloudflare vì không được thông báo, và không thể xử lý được bất kì thứ gì, cho tới khi phát hiện ra các cụm server đã offline với thế giới loài người 😀

Nói văn vẻ Cloudflare nói họ sẽ có thêm bài học sau chuyện này, xin lỗi các khách hàng về sự cố lần này, và sẽ tạo thêm nhiều cơ chế bảo vệ khác nữa ….

Tạm kết

Câu chuyện Cloudflare và Flexential nghe thì có vẻ hơi hoang đường, nhưng nếu tình huống bạn quản trị web cho khách hàng, chắc cũng sẽ trả lời y chang như thế 😀

-> Cloudflare đùng cái sập, teo không có thông báo, nên không biết, cho tới khi chạy thấy lỗi 😀

Góc độ người dùng cuối thì mình không quan tâm lý do xảy ra chuyện này, mình chỉ quan tâm thời gian khắc phục hậu quả, thực tế thì cứ 1-2 năm, Cloudflare lại gặp 1 vài lỗi, có điều nó nhẹ, chỉ tầm 15-30 phút

Cách đây ít ngày họ lại gặp 1 lỗi liên quan tới cấu hình worker sai, làm rất nhiều hệ thống bị sập tầm 30 phút, giờ ăn thêm quả 2 ngày chập chờn vẫn chưa khắc phục xong thì theo mình là TỆ 😀

Sau vụ này cũng khá là hãi, chắc sẽ phải giảm bớt sự lệ thuộc vào Cloudflare, chứ gặp kèo này kăng thẳng wá :]]

Cập nhập 06/11/2023

  • Các dịch vụ đã hoạt động trở lại, một số dịch vụ không quan trọng hiệu năng đang giảm một tẹo
  • 2 POP gần Việt Nam là Hong Kong và Singapore đã hoạt động ổn định
  • Các POP khu vực khác đang được định tuyến lại khá nhiều

Ngắn gọn dễ hiểu thì nếu bạn ở Việt Nam, cơ bản mọi thứ đã chạy bình thường 😀 còn có ngáo tiếp không thì không rõ :]]

Cập nhập 12/11/2023

  • All Systems Operational

Tốc độ từ Cloudflare ổn định khi truy cập từ Việt Nam, truy cập vào thèng bibica.net, các trang đa phần load xong < 1s, thậm chí khi search cũng đạt tốc độ này

Cập nhập 24/12/2023

  • WARP đã ổn định trở lại

Về cơ bản, sau khoảng 1 tháng mọi thứ đã ổn định lại như trước khi Cloudflare sập 😛


Related Posts

Chính sách bình luận: Chúng tôi rất trân trọng các bình luận của bạn và cảm ơn thời gian bạn dành để chia sẻ ý tưởng và phản hồi.
Ghi chú: Những bình luận được xác định là spam hoặc chỉ mang tính quảng cáo sẽ bị xóa.

• Để cải thiện trải nghiệm bình luận, chúng tôi khuyến khích bạn tạo một tài khoản Gravatar. Thêm avatar vào tài khoản Gravatar sẽ giúp bình luận của bạn dễ nhận diện hơn đối với các thành viên khác.

✂️ Sao chép và 📋 Dán Emoji 💪 giúp bình luận thêm sinh động và thú vị!