“把上海、广州两个站点网络全断掉!”
“趁他们晚饭不注意的时候,注入攻击!”
“还要在凌晨3点大家睡觉的时候,再攻击一波!”
……
这是华为云最近破获的一次“阴谋”,时间就在春节前夕。
之所以这波攻击不容小觑,是因为如果阴谋一旦得逞,华为云内部系统的运行将面临严重的后果。
攻击者的计划,在3个月前就已经开始。
经过密谋协商,他们决定在春节前后“干票大的”,近1个月来发动组合攻击20余次。
动机很简单:春节期间,各种短视频、社交媒体,包括自拍软件等应用流量激增,理论上是多数云服务厂商流量最高、最易出故障的时候。
一旦攻击成功,就会有大量互联网服务出现不稳定、甚至影响更大的情况。
尤其像除夕抢红包这类活动,8点到凌晨1点正是流量峰值期,故障多一秒钟用户都无法忍受。
所幸,这次攻击结果并未达到目的。
华为云反应非常迅速,将排查问题的时间限制在3分钟内、并利用5分钟进行修复,最终在8分钟内就处理好了系统故障,全程没有影响到云上业务的运行。
不免让人好奇,为何华为云会任由这些攻击反复发动?
毕竟对于华为云来说,这群攻击者已经不是“初次来犯”。
手段从人为攻击到利用系统“自动”攻击,类型从断网、故障注入到各种最新的攻击“武器”,都被他们尝试过。
但即使面对未知攻击,华为云却依旧能迅速处理。
不止这类春节前夕的攻击,面对各种类型的攻击,他们都能及时察觉系统异常、迅速定位并解决问题,将整个过程压缩到10分钟内。
而这又是为何?
原来,这个秘密谋划三个月、攻击华为云上千次的攻击者团队,竟是华为云内部的一支“秘密团队”,名曰“蓝军”。
他们不停地设计最新的攻击弹药,随时对华为云系统进行突袭。
至于作为防御方的红军团队,则是随时处于待命状态,一旦察觉蓝军攻击便第一时间进行修复。
两个团队之间没有任何沟通,什么时候触发攻击也不可知。
除了人为攻击,蓝军甚至还用上了混沌工程,系统会随机、自动地去攻击红军维护的系统,近一年攻击总数多达2000+次。
而在这类攻击背后,所有的动作都只有一个目的——
提升华为云系统的稳定性和应急能力。
即使在春节,系统的维护和防御也不会停止:华为云专门成立了一支“特战队”。
“特战队”的规模上百人,都是已经应对过无数次攻击、“身经百战”的全栈工程师。
从现在一直到元宵节,“特战队”队员们按三班倒的形式,7×24小时全职投入春节运维保障。
这样一来,即使攻击者想“趁虚而入”,从流程上来说也不会太过轻松。
但这还仅仅是解答了第一个疑问。
为何华为云面临攻击,能迅速稳定地处理整个流程?
可以说,这次蓝军的攻击,正好撞在了早有准备的红军“枪口”上。
早在三个月前也就是11月5日,红军就已经开始排查系统风险,并通过流量预估来进一步降低故障发生率。
事实上,这已经不是传统意义上的运维团队了。
无论是日常排除风险故障、维持系统稳定的红军,还是春节值守的“特战队”,都来自华为云内部一只“训练有素”的团队——SRE。
SRE这个概念,最早定义是“用软件工程的方法从事运维活动”。在华为云这里还要更精细一点,诞生出了“确定性”的方法论,来达成“高可用”的目标。
一言以蔽之,就是在设计产品时就考虑高可用的架构、并将风险控制做到动态清零、再加上智能化运维平台,来控制不确定性的风险,达成确定性的风控质量。
SRE团队自主研发了一个智能运维平台,用数据驱动的方法,将运维过程变得标准化、自动化。具体而言,这个平台不仅能实时记录运维数据,还能度量全流程各个环节的质量,真正做到缩短问题发现、故障定位和修复的时间。
如今,平台的监控指标数量已经达到160亿/小时,运维系统用户数达到10000+,变更频率每分钟2次,兼顾智能运维和日志记录等功能。
在智能运维平台以外,SRE团队还会借助流量预估等工作,来进一步提升系统的可用性,降低风险发生的概率。
具体来说,是通过特定的算法模型,结合指标对资源使用情况进行预估。
在华为云背后,有一个博士军团,其中有专门的算法创新实验室,研究人员会协助流量预估人员进行算法调优,像近期实验室一篇关于用强化学习求解虚拟机调度问题的论文,已经被顶级期刊Pattern Recognition接收。
同时,还会借助云操作系统和全域调度等技术,高效“压榨”并分配有限的流量资源,包括采用“瑶光”智慧云脑,负责整个云的资源分配、部署、调动和供给,以及结合全域调度等技术,进一步精细化资源的利用效率等。
目前,华为云系统的故障发生率也被压制在0.01%以下,即一年故障发生的时间保持在53分钟以内。
事实上,华为云今年投入春节保卫战的人力,前后已经接近1000人。
其中整个SRE团队几百人,更是一直处于“全员在线”的备战状态。
某种程度上,他们与传统行业里的员工一样,是保障我们生活便利的春节值守人。
只不过维度从线下的物理世界转变到了线上的数字世界。
在运维行业干了20多年的张智认为,春节的味道其实并没有变,只是换了个地方过年。
以前春节主要是在物理世界,但现在数字世界的春节可能比物理世界更热闹。现在我在数字世界上,也可以跟朋友一起过春节、抢红包、刷视频。
见证过不少同行灾难发生的他,认为这份值守不可或缺:
你不知道风险什么时候会发生。但SRE可以真正降低遇到风险的可能性。
从其他岗位转到SRE的石胜兵,虽然调侃了一下这个身份在春节中的特殊性:
SRE算是华为云背后的角色。我们其实很少在像春节这样的节日中“露面”,因为真出现的时候,往往都“不是一些好事”。
但这份工作却让他感受到“新的春天”:
我在华为工作了二十年,来这个团队一年半。原以为上个岗位就是职业生涯的最后一个,现在感觉新的春天到来。
一方面体现在SRE本身,它是华为云最年轻的团队。
另一方面,随着行业快速成长,年轻的SRE正成为云服务质量保障的中坚力量。
其实这种对数字生活的保障,也并非孤例。
平时出行的电子公交卡、一键打车,吃饭时的数字支付、生病时的在线预约,再到网购和线上游戏聚会,回想起来我们已经离不开数字化的生活。
而若再往前看一些,从最早提出的“智慧地球”,到后来AI发展带起的“全真互联网”,再到现在的“元宇宙”,行业热词一直与数字世界息息相关。
具体到技术上,包括这几年“数字人”的爆发、随着AI发展再度被带起来的XR设备也在说明,我们的生活确实正不知不觉地与数字世界发生融合。
在数字世界中,云服务反而从一种新兴的技术,成为了不可或缺的基础设施。
换而言之,我们的一切互联网服务和数字产品,最终都由云带来,并运行在云上,甚至我们在成为数字虚拟世界的一份子时,本身也会被加载到云中。
传统物理世界的水电、桥路和房子,被还原到数字世界中去后,也不过是存储在云上的一些数据。
在这种趋势之下,云服务的稳定性就变得和数字世界中的基建稳定性一样重要,反映到春节中则更是如此。
如今的特殊时期,我们反而比以往更依赖于数字春节的保障。
而这一次,华为云的攻防演练和红蓝对抗披露,不仅是一次先进经验和机制的分享,更提醒我们关注日益依赖的「数字世界的基础设施」。
“