北京时间 10 月 21 日,美国当地时间周一,亚马逊 AWS 云服务发生重大故障,引发全球混乱,导致一些热门在线服务无法使用,航班延误,银行瘫痪。这究竟是怎么回事呢?
罪魁祸首
亚马逊 AWS 提供了工具和计算资源,使得约三分之一的互联网得以运作。它提供存储空间和数据库管理,使得企业无需维护自己昂贵的基础设施,同时还能将用户流量导向这些平台。
AWS 的服务销售方式可以概括为:“让我们替你管理企业的计算需求。”
但是在周一,一个十分普通的技术环节出了大问题:域名系统 (DNS) 错误,这是一种常见故障。
科技行业人听到这个情况可能会见怪不怪。这种常见错误也能引发巨大混乱。
“永远都是 DNS 的问题!”这是业内常说的一句话。
影响的服务
当有人点击应用或链接时,他们的设备基本上会发送一个请求,要求连接到该服务。DNS 本应发挥地图的作用,而 AWS 在周一却迷失了方向。Snapchat、Canva 和英国税务海关总署等平台仍然在那里,但它看不到它们的位置,无法将流量引导给它们。
故障原因
这些故障的发生原因多种多样。通常是维护问题或服务器故障。有时则是人为失误,比如某处的配置出错,极端情况下也可能是网络攻击,尽管目前尚无证据表明此次事件源于攻击。
亚马逊 AWS 表示,故障发生在该公司位于弗吉尼亚州北部的庞大数据中心区域 US-EAST-1,这是其运营历史最久、规模最大的数据中心集群。
US-EAST-1 是 AWS 最繁忙的数据中心之一,许多全球性的应用程序和网站都托管于此。问题的核心在于“DynamoDB API 的 DNS 解析”,这意味着系统无法正确找到名为 DynamoDB 的关键数据库服务的网络地址。解析失败会导致依赖该数据库的应用程序无法访问数据,从而引发连锁反应,造成服务中断或出现严重错误。这也解释了为何即使底层服务器可能仍在正常运行,用户却无法访问相关服务。
当 DNS 解析中断时,无论网站或服务的后端基础设施多么强大,用户的浏览器都无法定位到所需内容。这使得 DNS 成为网络架构中一个至关重要但极其敏感的环节。任何对 DNS 的干扰都可能导致大规模网络瘫痪,影响范围从单个网站到整个地区的互联网服务。亚马逊目前正在全力修复这一根本问题,但部分服务在问题解决后仍可能存在“重大错误”,需要时间恢复正常。
这也是过去五年中,亚马逊 US-EAST-1 数据中心区域至少第三次引发大规模互联网瘫痪。亚马逊并未解释为何该数据中心屡次出问题。
依赖一家公司
众多专家一致指出,周一的事件恰如其分地说明了将业务完全依赖单一服务提供商的风险。AWS 作为行业巨头,承载着数百万企业的运营命脉。专家们的观点固然正确,但问题在于,能达到 AWS 同等规模的服务商实在寥寥无几。
专家和学者表示,这一问题凸显了日常数字服务的高度互联性,以及它们对少数全球云服务提供商的依赖。一次小小的故障就可能对商业运营和日常生活造成巨大冲击。
“这次中断再次凸显了我们对相对脆弱的基础设施的依赖。”欧洲网络安全公司 ESET 全球网络安全顾问杰克 摩尔 (Jake Moore) 表示。
在英国,根据宕机追踪公司 Downdetector 英国网站的数据,劳埃德银行、苏格兰银行,以及电信服务提供商沃达丰和英国电信均受到影响,英国税务海关总署的网站也未能幸免。
“这个问题的主要原因在于,所有这些大公司都依赖着同一家服务提供商。”萨里大学计算机科学系研究主任尼桑 萨斯特里 (Nishanth Sastry) 表示。
拥有 Downdetector 的 Ookla 公司表示,此次事件导致超过 400 万用户报告了服务问题。
保险经纪公司 McGill and Partners 的美国网络业务负责人瑞安 格里芬 (Ryan Griffin) 表示:“对大型企业而言,数小时的云服务中断就意味着数百万美元的生产力和收入损失。”