亚马逊断电开始小规模,滚雪球般进入12小时事件

亚马逊网络服务已经从一个长达12个小时的事件中几乎完全恢复过来,该事件似乎只影响了少数客户,但很快就滚雪球般地卷入了一个更大的事件,该事件导致昨天Reddit,Imgur和其他主要站点瘫痪。

亚马逊云中断,AWS

亚马逊网络服务已经从一个长达12个小时的事件中几乎完全恢复过来,该事件似乎只影响了少数客户,但很快就滚雪球般地卷入了一个更大的事件,该事件导致昨天Reddit,Imgur和其他主要站点瘫痪。

AWS尚未透露导致失败的原因,但该公司 发布频繁更新 一整天。它指出,根据AWS的最佳实践在多个可用性区域中分配工作负载的最佳实践来架构系统的客户,遇到问题的可能性较小。

AWS下降: 亚马逊EBS故障导致Reddit,Imgur等失败

我们在此之前: 一年后亚马逊停运:我们更安全吗?

AWS在周一太平洋时间上午11点之前不久就报告了一个问题,当时它说在US-East-1地区单个可用性区域中的“少量”弹性块存储(EBS)卷正在经历性能下降。 EBS是与Elastic Compute Cloud(EC2)结合使用的块存储服务。

大约一个小时后,AWS删除了该语言,并指出只有少数客户受到影响。下午2:20 PT,AWS表示已恢复了大约一半的受影响卷,并指出使用多个可用区的客户应该不会受到影响,而AWS过去一直在鼓吹这种情况。

虽然AWS在整个下午继续恢复受影响的EBS数量,但下午6:30左右。当AWS报告从Elastic Load Balancer(ELB)关联IP地址的错误率升高时,似乎出现了后续问题,该问题在一小时后得到解决。 ELB在系统内或多个可用区之间传输工作负载。

到今天初,最新状态更新报告表明AWS已通过电子邮件与某些仍受该事件影响的客户联系,可能不得不采取行动。随着EBS卷全天继续重新镜像过程,其他客户可能会遇到卷输入/输出(I / O)延迟增加的情况。

不过,EBS数量并不是昨天停运期间受到影响的唯一服务。周一太平洋时间上午11点后不久,关系数据库服务(Amazon RDS)的客户数量也有所下降,大约两小时后就恢复了。截至周二太平洋时间凌晨4点,AWS报告说,它仍在努力将全部功能恢复为RDS。

与EBS问题一样,AWS提醒客户,如果他们启用了时间点还原选项,那么他们可以使用另一个可用性区域中受影响的数据库的备份来启动新的数据库实例。

作为应用程序开发和部署平台的AWS Elastic Beanstalk服务在启动,更新和删除环境方面也遇到了延迟,该问题在与EBS问题同时解决。

自从昨天的宕机以来,在一些圈子中一直在谈论将AWS工作负载分布在多个可用性区域中,以提高云部署的容错能力。 AWS在公司运营数据中心的各个地区(例如,北弗吉尼亚州的美国东部地区)提供了多个可用区。它说,可用区彼此隔离,以提高对此类问题的容忍度。

但是《网络世界》的读者Biju Chacko评论说,他经历了多次可用区故障。 “这显然是AWS的一个破坏-他们建议的冗余策略不起作用,” 他在评论中写道.

这是AWS在过去两年中经历的第三次重大停机。 6月下旬,导致大西洋中部地区断电的强风暴是造成断电的部分原因,然后由于AWS系统内的错误和瓶颈而加剧了断电。该事件发生后,该公司发布了详细的验尸报告。

看到: 亚马逊将故障,漏洞和瓶颈归咎于亚马逊

2011年4月,AWS经历了另一次重大停机,导致Reddit,Foursquare,HootSuite,Quora等停机,长达四天。

网络世界的员工作家Brandon Butler涵盖了云计算和社交协作。可以通过[email protected]与他联系,并在Twitter上的@BButlerNWW上找到他。

这个故事“亚马逊停电始于小规模,滚雪球式进入12小时事件”最初是由 网络世界.

有关:

版权© 2012 IDG通讯,Inc.