10月5日0时40分左右,Facebook系统出现故障,所有系统宕机。不仅Facebook出现了系统故障,Facebook旗下的Instagram、WhatsApp、Messenger和Oculus也出现了系统故障,一直到当天7点左右都处于无法访问状态。互联网基础设施公司 Cloudflare 解释了 Facebook 在全球范围内瘫痪的原因。
由于系统故障,无法访问 Facebook 以及 WhatsApp 和 Instagram 等相关服务。如果这些服务名称的 DNS 解析失败,即使是一些支持该服务的基础设施 IP 地址也无法访问。 Cloudflare 表示,就好像有人一下子拔掉了数据中心的电缆并将它们从互联网上移除。
Cloudflare 于 10 月 5 日 1 点 51 分左右开始调查内部事件(Facebook DNS 查找返回 SERVFAIL),认为 DNS 解析器 1.1.1.1 可能由于 Facebook 系统故障而出现问题。经过调查,发现问题的原因是边界网关协议(BGP)。 BGP 是一种用于在 Internet 上的自治系统(即网络)之间交换路由信息的结构。简单地说,BGP 在互联网中扮演着一个角色,比如在输入目的地时显示路线的导航。
每个 AS 都有一个 AS 编号。所有 AS 编号都必须使用 BGP 宣布它们到 Internet 的连接路由。否则,此 AS 将不会被发现并连接到任何人。此外,Facebook、Instagram 和 WhatsApp 的 AS 编号可以在 AS32934 上查看。 Facebook 直接连接到互联网,无需通过互联网服务提供商,通过自己搜索 AS 号码。
因此,Cloudflare 会跟踪它在其全球网络上看到的所有 BGP 更新和公告。结果确认了系统错误,5日0:40左右在Facebook上报告了路由变更高峰。
DNS 服务器在 1:50 左右下线后不久,Cloudflare 工程师发现 1.1.1.1 无法解析 Facebook.com。可能会怀疑系统故障,因此 Facebook 和相关服务几乎不再连接到 Internet。
Cloudflare 透露 Facebook 停止宣布 DNS 前缀的路由。换句话说,至少 Facebook 的 DNS 服务器此时不可用。因此,Cloudflare 的 DNS 解析器 1.1.1.1 将无法响应请求 Facebook.com 或 Instagram.com IP 地址的查询。
根据 Cloudflare 的说法,Facebook 和相关服务很大,因此错误总是会导致延迟或限制,从而导致请求数量增加数十倍。事实上,1.1.1.1 中显示的 Facebook、WhatsApp、Messenger 和 Instagram 请求数量从 15:40 左右开始比平时增加了近 30 倍。为了防止与 Facebook 相关的 DNS 请求增加,世界各地的 DNS 解析器已停止解析与 Facebook 相关的域。
在 Facebook 垮台后,对 Twitter 和 Signal、Telegram 和 TikTok 等其他社交媒体平台的 DNS 查询也有所增加。 5日4时52分,Facebook的CTO在推特上向所有使用Facebook受到停电影响的人致以诚挚的歉意,称网络问题正在发生,团队正在努力尽快调试和恢复。 .据报道,系统故障正在影响互连所有数据中心的网络骨干网。
Facebook网络上的BGP活动于5日6点左右更新,6点20分左右确认可以在1.1.1.1验证Facebook.com名称。 6时28分左右,确认Facebook自我恢复。对于这次系统故障,Facebook CEO 马克·扎克伯格表示,Facebook、Instagram、WhatsApp 和 Messenger 现在重新上线,造成了麻烦,以及有多少客户使用他们的服务来维持与亲人的关系。他说他在考虑是否
至于 Facebook 的系统恢复,一位安全研究人员解释说,恢复延迟是因为远程用户无法修改更新,并且任何具有物理访问权限的人都没有网络和逻辑访问权限。但是,一开始并没有详细说明导致该故障的BGP Umdate故障发生的原因。 Facebook 工程团队后来发表声明称,失败是由于协调数据中心之间网络流量的骨干路由器的配置发生了变化。相关信息可以在这里找到。
Add comment