Facebook giải thích nguyên nhân gây ra sự cố sập toàn cầu và lý do tại sao mất đến hàng giờ mới sửa xong
Nguyên nhân khiến cho Facebook bị sập cả mấy tiếng đồng vừa qua trên toàn thế giới là gì? Các bạn hãy cùng mình nghe lời giải thích của Facebook nhé.
Cách đây không lâu, Facebook dính phải sự cố sập quy mô toàn cầu gây ảnh hưởng không nhỏ tới trải nghiệm của người dùng. Không chỉ riêng Facebook, mà kể cả các dịch vụ liên quan của Facebook như Instagram, WhatsApp, Oculus, Messenger, nền tảng doanh nghiệp (platform for business), và mạng nội bộ của công ty Facebook cũng bị liên lụy theo. Điều này khiến cho nhiều người nghi ngờ rằng liệu có phải do Facebook đang bị tấn công? Tuy nhiên, nguyên nhân dẫn tới sự “bay màu” hàng loạt này đơn giản chỉ là do… quá trình bảo trì định kỳ của Facebook có vấn đề.
Theo như phó chủ tịch cơ sở hạ tầng Santosh Janardhan cho biết, một câu lệnh chạy trong quá trình bảo trì đã vô tình gây ra sự cố ngừng hoạt động của backbone được dùng để kết nối tất cả trung dữ liệu của Facebook đang nằm rải rác trên toàn thế giới.
Bản thân sự cố trên đã là lớn chuyện rồi, nhưng nguyên nhân khiến bạn không thể dùng được Facebook nằm ở chỗ thông tin routing của DNS và BGP điều hướng đến các máy chủ của Facebook đột nhiên biến mất. Theo Janardhan, đây chỉ là lỗi phụ do máy chủ DNS của Facebook có ghi nhận việc mất kết nối đến phần “backbone”, từ đó ngừng việc truyền thông tin routing của BGP (thông tin này được dùng để giúp các PC trên mạng Internet tìm được máy chủ của Facebook). Máy chủ DNS vẫn hoạt động, nhưng nó lại không thể truy cập được.
Việc thiếu kết nối mạng và mất DNS không chỉ ngắt server khỏi tầm kiểm soát của các kỹ sư của Facebook đang cố gắng khắc phục sự cố, mà còn vô hiệu hóa luôn cả những công cụ mà các kỹ sư thường dùng để sửa chữa và giao tiếp với nhau.
Theo như bài blog chia sẻ, các kỹ sư Facebook đã gặp phải một số trở ngại liên quan tới hệ thống bảo mật và vật lý của các phần cứng quan trọng. Mãi cho tới khi họ kích hoạt được “giao thức truy cập bảo mật”, backbone mới có thể hoạt động lại như bình thường, cũng như là các dịch vụ lúc đó mới được khôi phục lại từ từ.
Đây cũng là một phần của lý do tại sao hôm qua có một số người dùng phải tốn rất nhiều thời gian mới có thể vào lại được Facebook. Bởi vì việc khởi động lại tất cả mọi thứ cùng một lúc yêu cầu rất nhiều năng lượng và tính toán của máy tính, từ đó gây ra thêm nhiều sự cố crash máy khác nữa.
Tóm tắt:
- Nguyên nhân dẫn tới sập Facebook hàng loạt là do quá trình bảo trì định kỳ của Facebook có vấn đề
- Một câu lệnh trong quá trình bảo trì đã vô tình ngừng hoạt động của backbone được dùng để kết nối tất cả trung dữ liệu của Facebook
- Cộng thêm thông tin routing của DNS và BGP điều hướng đến các máy chủ đột nhiên biến mất đã khiến bạn không truy cập được Facebook
- Việc các kỹ sư đưa backbone và các dịch vụ hoạt động trở lại khiến một số người mất nhiều thời gian mới vào lại được Facebook
Mời các bạn tham khảo thêm một số thông tin liên quan tại GVN 360 như:
- Facebook bị tố giác khuyến khích việc thóa mạ người khác nhằm trục lợi
- Facebook sập toàn cầu trong 6 tiếng, kỹ sư phải trực tiếp đến trung tâm dữ liệu để cứu
Nguồn: theverge