Amazon S3 的事故报告出来了… Typo…

vps网友提供 03-03 讨论归档 20

https://aws.amazon.com/message/41926/

At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended.

本文由 vps网友提供,转载请注明出处

本文链接: https://www.vpsvsvps.com/discuss/a/1676471804119486464.html

标签:
xiaq
03-04

这里的 Playbook 指的应该是事故处理的手册

donghui
03-04

一不小心就删错

taowen
03-03

说明运维自动化的抽象层次还是太低了,这么大的厂,居然还能用 ansible 搞这么底层的事情。还以为 AWS 的运维已经脱离了 bash 的低级趣味呢

holyghost
03-03

@121121121 gitlab 那哥们就看了

121121121
03-03

@holyghost 为什么要看视频?

vindurriel
03-03

>> Removing a significant portion of the capacity caused each of these systems to require a full restart
应该有办法改进吧

matrix67
03-03

playbook 的话肯定是 ansible 吧。 salt 不叫这个名字。

okampfer
03-03

尤记得上次 gitlab 的 rm -rf /

bingwenshi
03-03

@21grams 用了脚本,但是参数写错了

eyp82
03-03

应该是用了 ansible 之类的东西

billlee
03-03

r#8 @21grams 用了脚本, using an established playbook, 还是错了

vingz
03-03

并不能所有的维护过程都变成自动化啊

21grams
03-03

命令输错了? 难道不应该做成脚本吗?

nealfeng
03-03

@just4test

第一次会仔细看,以后就不会那么仔细了。比如用 sudo 命令的时候。

stevele
03-03

那也得用啊

vus520
03-03

@just4test 想不到 aws 跟我渣司的程序员一样,看着不爽就是一顿潇洒任意的 rm

just4test
03-03

所以删除服务器这种事没有机器人管么?
'''
操作被拒绝。该操作将影响以下子系统:
索引子系统: 30%容量被移除,余下容量不足以支撑线上压力
放置子系统: 20%容量被移除,余下容量不足以支撑 N+1
要强制执行此命令,使用 --fuckyou 参数重试。
'''

acoder2013
03-03

Amazon 的工程师也是 just so so 啦, 23333333

XiaoFaye
03-03

很难想象这种批处理命令不需要 Review 。。。

holyghost
03-03

不知道这哥们要看多少个小时的无聊小视频