双十一刚过,云服务商宕机导致大面积故障的新闻就引爆全网,再一次引发全网关于云计算安全可靠的大讨论。

在一个充满着复杂性、不稳定性和不确定性的乌卡时代,云故障频发似乎已发展成一种“常态”,让企业对于云计算逐渐产生诸多顾虑。但随着数字经济和产业数字化的提速,上云与用云已是企业推动数字化转型不断深入的重要抓手,成为不可阻挡的趋势。Gartner预测,至2025年或将有90%的企业关闭传统数据中心,企业各种行业应用开发将全面走向云化。

因此,企业在乌卡时代不能对云望而远之,而需要迈向全面云化的同时,重视多云战略的投入,并在选择云服务时更加看重云服务的稳定可靠。

数字化转型不可逆

企业切莫对云望而远之

近年来,在数字经济浪潮的助推下,加速上云被公认为是垂直行业的大势所趋。

在新应用、新场景、新技术不断涌现的今天,企业的数字化转型进程已不可逆,越来越多企业借助数字化转型在市场竞争中获得成功。这其中,云计算扮演着关键的数字底座角色。凭借着弹性、灵活、高效、合规与可控等优势,云计算如今成为企业数字化转型中综合应用AI、大数据等新技术的最佳载体,为企业业务高效发展提供持续的动力。

归根结底,在数字经济的大浪潮下,云计算改变了资源使用的模式,带来商业效率的根本性提升。虽然云服务商也会有各种故障发生的情况出现,但云计算的诸多特性决定了其仍然是最为可靠的数字底座,上云是企业数字化转型进程中的最佳选择。

以金融行业为例,极为看重安全、可靠的各种金融机构均没有放慢拥抱云计算的步伐。最新的《金融科技发展规划(2022—2025 年)》明确鼓励各类金融机构基于“云”发展业务系统、技术测试、信息安全等,支持金融机构“上云”部署,利用云计算资源开展业务。

[MD:Title]

例如,借助云计算的优势,邮储银行新一代分布式核心系统实现为6亿多用户提供日均20亿笔的处理能力,将联机交易处理效率提升一倍、批处理效率提升33%,在日趋激烈的市场竞争中为用户提供了稳定、快速的金融服务。

可以说,金融机构上云是垂直行业积极上云的一个缩影。事实上,随着企业上云与用云步伐的加快,多云战略已经成为企业数字化转型中的核心战略。企业愈发倾向于通过多云战略来分散云计算的风险,实现资源的合理分配以及风险防范。

多云战略提速

企业需看重什么

Flexera《2022年云状态报告》显示,89%的受访企业选择了多云战略。

无疑,多云战略已成为企业数字化转型的共识。在云故障不可避免的今天,出于“避免鸡蛋放在一个篮子里”的考虑,企业选择多个云计算服务商是降低风险、实现资源合理分配的最佳途径。

但每个云计算服务商都有着不同的特征,企业要想通过多云战略来充分利用每个云计算服务商的独特优势,实现跨云的无缝治理、资源利用等并不容易。Gartner就认为多云能够降低对单一云服务商的依赖性,也会增加运营的复杂性和成本,企业在多云战略中需要优先考虑主要云服务商和制定工作负载的归属策略,实现应用在云端的合理部署与使用。

特别是那些大规模核心业务上云的企业,多云战略中对于主要云服务商的选择更为关键。这些企业通常希望主要云服务商既能够支持云原生、人工智能、大数据等先进的数字化技术,更希望云服务商基础设施稳定性、可靠性、安全性具备高水平,以确保云上部署的各种业务应用的安全与可靠。

[MD:Title]

例如,《银行业信息系统灾难恢复规划》规定,AB类业务灾难恢复要求在5级以上,业务中断需要低于15分钟。现实情况中,很多金融机构出于对监管和用户体验的要求,往往对于业务中断的要求会远远高于《规划》的规定。

因此,在企业的多云战略中,主要云服务商的运维与灾备能力至关重要。众所周知,云服务商的数据中心等基础设施随着规模不断增大、部署应用复杂性提升和业务快速变化,数据中心设备故障、应用故障等带来的风险也随之增长。

云服务商一是需要具备先进的运维能力,在运维管理等层面有能力去预测、发现故障,降低故障可能带来的风险;二是需要具备强大的灾备能力,一旦发生故障或者灾难,可以快速实现业务恢复,避免因故障造成业务的停顿。

以华为云为例,得益于华为从高可靠性、高可用性的运营商业务起家,可用性保障基因深入骨髓,华为云一直重视灾备安全,可以提供同城AZ (Availability Zone)内、跨AZ、异地跨Region的两地三中心容灾方案和1000公里以上的城市级容灾能力。

更加重要的是,华为云SRE团队在华为云高速成长的过程中不断实践,结合政企运维经验,形成了确定性运维的理念,正在对数据中心运维领域产生深远影响。

确定性运维

为不确定的云时代带来确定

稳定、可靠是云时代最为核心的竞争力之一。

华为云的稳定、可靠背后离不开其SRE团队的长期努力。所谓SRE(Site Reliability Engineer,站点可用性工程师)是DevOps模式的一种组织实现形式,强调研发和运维团队的组织级协作,构建PRR、EB等质量保障的流程机制,打造全栈工程师来应对业务快速迭代和敏态发展所带来的运维挑战。

从2017年开始,华为云致力于实践SRE的实践。伴随着华为云业务的高速成长,华为云SRE团队在实践中不断成长,并结合华为政企运维经验,形成了确定性运维的理念,并逐步演进为包括“质量文化”、“高可用架构”、“动态风险治理体系”和“高度智能运维框架”的确定性运维体系,面向云服务全生命周期的质量看护,实现现网可预期的高可用质量结果。

在“高可用架构”方面,华为云SRE确定三个维度:即软件有确定性的失效率,且在控制范围之内;确定性的恢复时长,在故障出现后可以快速恢复;确定性影响面,确定故障的爆炸半径,缩小故障影响面。通过“高可用架构”,华为云可以让前端的云服务具备高可靠和高可用的能力,并且故障发生时,确保故障不跨AZ扩散。

[MD:Title]

在“动态风险治理体系”方面,华为云SRE将AI能力引入到运维之中,实现于运维风险冒泡和及时清除;持续提升监控、定界与快速恢复能力;构建混沌工程等主动运维能力;用数据智能支撑持续的自我改进。

在“高度智能运维框架”方面,华为云SRE依托数据中台,结合先进的算法,实现智能告警、智能故障定界、自动恢复等。

此外,华为云还推出确定性运维成熟度模型,帮助业内同行基于运维模式,对运维流程、工具、人力进行治理进行评估,从而有效地规划和制定运维策略。

如今,在确定性运维理念的驱动下,华为云在业务高速发展中不断提升了服务效率,并且为用户带来了确定性的服务质量、更好的服务体验。

综合观察,墨菲定律告诉我们:“如果某件事情可能出错,那么它就一定会出错”,云计算也不能免俗。云服务商过去、现在都有故障发生,将来也会出现故障。面向未来,随着基础服务在功能层面上走向驱动,云服务商之间的竞争焦点一定是质量的竞争,安全、稳定、高质量的云服务意味着信赖,也将决定着用户的选择。