在系统和应用程序分散在企业和云中的时代,IT领导者须重新考虑其灾难恢复计划。
多年以来,编写灾难恢复计划一直是IT部门的责任,但是现在须重新调整这些计划,以针对边缘计算和云计算环境进行故障转移。有哪些新功能?组织如何修改其计划?
规则1:IT团队无法控制边缘计算
考虑到采用了边缘计算和其他分布式计算策略,IT团队不能使用围绕数据中心构建的标准集中式灾难恢复计划来控制这些分布式计算。例如,在使用机器人技术和自动化进行的日常制造中,由生产线主管和制造人员来运行机器人,并负责让这些资产在不使用时在锁定区域内安全可靠。在许多情况下,这些制造人员还可能自己安装和监视/维护设备,或与供应商合作。这些人员在安全性或资产保护以及维护/监视方面没有IT背景。同时,在IT之外安装新的边缘计算网络和解决方案会使可能发生故障的IT资产数量成倍增加。需要在某个地方记录灾难恢复和故障转移计划并对其进行培训,以便涵盖这些资产。发生这种情况的合逻辑的地方是在IT 灾难恢复和业务连续性计划中。
要修改该计划,IT团队须与这些不同的分布式计算小组开展合作。关键是让每个人都参与进来,并致力于记录灾难恢复和故障转移计划,然后定期参与和测试。
规则2:云计算应用意味着云计算灾难恢复交付
在2018年,Rightscale公司对近1,000名IT专业人员进行了调查,发现他们所在公司采用的云平台平均数量接近4.8个。
有趣的是,会有多少个公司记录了灾难恢复程序来处理云平台的中断。当专家查看客户使用的云计算供应商时,就想到了这个问题,发现几乎大部分云计算供应商的合同中都有条款,如果发生灾难,采用这些条款可以免除责任。
要点:如果企业的IT部门尚未这样做,则应将其合作的每个云计算供应商都写入灾难恢复计划中。供应商答应进行备份和恢复的服务等级协议(SLA)是什么?如果出现故障,企业(或其供应商)的灾难恢复计划是什么?企业是否与供应商达成协议,以每年测试企业在云上用于灾难恢复故障转移的应用程序?
规则3:人身安全很重要
企业的IT团队越倾向于边缘计算,找到进入生产工厂或现场办公室的途径,物理安全就越来越与灾难恢复联系在一起。如果偏远沙漠地区的现场办公室过热,服务器出现故障怎么办?或者未经授权的员工进入制造工厂的重要区域并篡改机器人的操作该怎么办?企业的灾难恢复计划应包括在分布式物理位置(而不仅仅是在中央数据中心)对设备和设施进行定期检查和测试。
规则4:灾难恢复通信须变得更好
几年前,一家银行的数据中心所在地发生了一次地震,IT部门停机中断,虽然数据中心受到的损害很小,但是整个区域的网络和通信都已中断,因此分支机构的员工须通过保留人工分类帐来处理客户交易,以便在系统服务返回时将其输入系统。
在这段时间里,客户询问一名柜员出了什么问题,她表示,“我们的服务器都受到了影响。”这个消息在整个社区和媒体中广泛传播,很多客户蜂拥而至,试图关闭账户。
当更多的人控制IT资产(例如边缘计算)时,这种情况会加剧。这就是为什么拥有良好的沟通如此重要的原因,它解释了在灾难中谁与谁沟通了什么内容,与谁沟通,并且每个人都坚持这样做的原因。
通常,沟通行为应该是企业的公共关系团队实施。该团队与高层管理人员进行协调,并向社区和媒体发布有关灾难的声明。
如果在员工心中没有牢固地建立和巩固这种沟通渠道,那么企业可能会发现与实际的灾难相比,企业将更多的时间花在从错误的沟通中进行灾难恢复上。
规则5:灾难恢复须适用于多个地区
随着边缘计算和远程办公室的兴起,毋庸置疑,灾难恢复不能集中在一个位置或数据中心。特别是如果企业将云计算用于灾难恢复,需要选择具有多个地理位置的云计算提供商。这样可以在主数据中心或云计算数据存储位置发生故障的情况下,将故障转移到正常运行的位置。这些故障转移数据中心方案应包括在灾难恢复计划中并对其进行测试。
规则6:须重新校准灾难恢复测试计划
如果企业要将更多的IT交付给云计算,并部署更多的边缘计算,则应将新的灾难恢复测试方案添加到企业的计划中,以此来针对这些新位置进行灾难恢复文档和测试。企业想知道其灾难恢复须适用于很多公司的灾难恢复方案。
规则7:首席代表须为灾难恢复提供更多的口头服务
向云计算和边缘计算的迁移使灾难恢复变得复杂。这意味着大多数组织都需要审查和修订其灾难恢复计划。对于大多数组织而言,灾难恢复和评审和修订需要花费时间,而这并不是大多数组织的工作重点,而且往往落后于需要退出的大量项目。由于云计算和边缘计算技术给IT带来的变化,首席信息官需要向管理层和董事会说明这些变化对灾难恢复的影响,以及需要投入精力和时间修改灾难恢复计划。
规则8:边缘计算和云计算供应商参与灾难恢复应使其安全
如前所述,大多数云计算供应商在合同中并未对灾难恢复和故障转移给予太多保证。在与云计算供应商签署合同之前,供应商灾难恢复承诺和支持应成为招标书的一部分,也是重要的讨论点。
规则9:网络冗余至关重要
许多组织将重点放在灾难发生时的系统和数据恢复上,而很少将重点放在网络上。但是,考虑到当今全球互联网和广域网的作用,网络灾难恢复故障转移和冗余也应该内置到灾难恢复计划中。