如果企业已经定义了它们的灾难恢复需求并验证了供应商的功能,那么draas将能够更容易地应对服务中断。
autonation花费了数年时间试图建立一个能够激发信心的灾难恢复计划。它已经经历了多次失败的迭代尝试,包括一个完整的内部部署凯发在线的解决方案和一个完全在云中的凯发在线的解决方案。这家总部位于佛罗里达州劳德代尔堡的汽车零售商在全美16个州经营着300家门店,最终发现,它需要的是一种以灾难恢复服务为特色的混合模式。
“内部和公共云灾难恢复模式都很昂贵,也没有经过彻底地测试,而且往往是那些真正经过规划了的灾难实施让我们面临了风险,”autonation的信息技术和运营副总裁adam rasner表示,两年前,他被请来对灾难恢复计划进行修改。
公共云方法的代价高昂:如果要维持三个月的灾难性停机恢复服务,估计需要300万美元。“完全在云计算中采用灾难恢复可能还有点为时过早,”rasner说,并指出尽管云计算提供商在最近几年已经相当成熟了。
autonation还拥有自已的碰撞中心、拍卖行,并于2018年推出了自己的精密零部件生产线。该公司推出了一项新的灾难恢复计划,融合了基于主机托管和即服务模式的灾难恢复功能,75%的应用程序将从丹佛的一个托管设施恢复,25%的应用程序将从亚马逊的aws恢复。这些环境是由draas提供商cohesity及其辅助数据管理平台进行协调的,后者可以备份和复制虚拟服务器、应用程序和数据到托管设施和aws。cohesity还可以用于管理故障转移和恢复。
rasner说:“在灾难中只要按下开关就能自动启动虚拟机的能力让我能够在晚上睡得更好。”
什么是灾难恢复即服务?
draas市场是一个复杂的环境。市场上有数百个draas提供商,它们都在使用不同的方法和功能来复制和托管服务器和数据。
一些draas服务专注于虚拟服务器,而另一些也会使用备份物理服务器;有些依赖于现场备份设备,有些则不需要。这是一个不断增长的市场,因为企业总希望第三方供应商在发生自然灾害或服务中断时能够提供更加完美的故障转移服务。市场研究公司technavio预测,2018年至2022年间,全球draas市场将以36%的复合年增长率进行增长。
对于巴尔的摩市miles & stockbridge公司的cio ken adams来说,draas是一种完全拥抱云计算的方式,但已经可以满足这家拥有480名员工的律师事务所的合规要求了。iso标准要求律师事务所需要将数据保存在三个不同的地点。作为云的早期采用者,adams很早就接受了即服务模型,并看到了将其用于灾难恢复的机会。
miles & stockbridge使用了clearsky data的按需平台和设备来访问和存储本地和弗吉尼亚州托管设施中的虚拟服务器和数据,并会将数据发送到第三个位置:amazon aws上的虚拟缓存服务器,adams称之为他们最后的保险。
“clearsky最初只是我们的一个存储平台,后来我们才决定试着把凯发在线的服务器放在其具有固态驱动器的设备上。并且没有对服务器的性能造成影响,我们也得到了额外的保护,使服务器--而不仅仅是数据--在多个位置可用,”他表示。
弗吉尼亚州的设备几乎是实时更新的,而aws版本的数据会稍微陈旧一些,以便节省流量。他说,灾难恢复现在变得很容易了。“你只需按下适用于vmware的clearsky控制台上的一个按钮,就可以从一个环境转移到另一个环境。”
adams拥有来自两个不同isp的专用光纤线路来连接clearsky设备,因此它们可以轻松应对诉讼支持等应用的苛刻需求。然而,他说,他们的负担其实并不像想象的那么大,因为一些应用程序,比如公司的文档管理凯发在线的解决方案,已经转移到了saas上面,这就为他们提供了内置的灾难恢复功能。
哪些应用适合draas?
康涅狄格州斯坦福德的技术研究和咨询公司isg的首席顾问spencer suderman表示,随着对draas兴趣的日益浓厚,越来越多的玩家开始进入这个市场,it团队不得不开始考虑服务器和数据的需求。虽然一些服务器和应用程序可能很容易地移植到基于云的“即服务”灾难恢复环境当中,但是其他服务器和应用程序可能会有所阻滞,因为它们是专有的,或者与其他应用程序高度依赖的。
suderman说,如果it一开始就认为将应用程序放到云中是困难的,那么添加draas肯定也会是复杂性的。例如,虚拟服务器中的容器化应用程序可能无法正确地进行故障转移或恢复。“虚拟服务器仍然具有一定的依赖性,”他说。而且,即使应用程序能够正常工作,数据传输也可能会出现问题。“假设你的目标恢复时间是6小时。而你在100m bit/sec的链路上有tb级的数据,那么下载所有的这些数据可能需要23个小时。你将无法满足你的rto,”他说。
autonation的rasner发现,适用于draas的应用程序的范围在汽车行业是有限的,在汽车行业,遗留应用程序通常是定制的,或者有很多触角伸向其他应用程序,比如已有13年历史的autonation crm系统。rasner表示,aws最适合于现成的、独立的应用程序,比如autonation的权益挖掘工具,它可以帮助服务团队确定客户是愿意完成一项昂贵的维修,还是愿意购买一辆新车。aws还提供超过40天的备份。rasner说,当旧应用程序被刷新或重构时,它们将被添加到aws的灾难恢复环境中。
isg的suderman建议你可以与draas供应商进行密集的规划以及每月,每两个月或每季度的演练。“灾难恢复可能是计划中最无法得到保证的服务之一,”他预计,将一些责任移交给提供商只会使情况变得更糟。“每个人都在谈论灾难恢复,但是你为真正的灾难所做的计划的广度和深度是什么?对draas演练将告诉你环境的真实可用性。”
注意事项:你所有的应用程序是否都在一个地方,并且都位于可以快速启动的虚拟机上?你的数据是最新的吗?你的组织可以承受多久的停机时间,你的提供商是否了解你的应用程序和数据优先级?
如果你在一个高度管制的行业中,可能最重要的问题是:你对灾难恢复站点是否具有可视性?“如果您正在使用基于云的基础架构,那么你可能无法确定应用程序具体的运行位置,”suderman说。
draas入门
总部位于巴尔的摩的食品制造商tic gums的高级it经理vishal "steve" mathur正在计划公司的draas之旅。他的第一步是重做公司的广域网基础设施,该基础设施依赖于一条mpls线路以连接到公司的三个站点。他表示:“当我们的mpls线路瘫痪时,所有三个网站都将被关闭,因为此时我们就无法连接到office365或salesforce的互联网了。”
现在,tic gum已经拥有了内置的冗余线路,从三个独立的isp连接过来的三条线路,每个站点上都有独立的防火墙,为支持基于云的备份、存储和灾难恢复提供了高可用性。“以我们现有的基础设施,恢复业务可能只需要几天时间,如果不是几周的话,”mathur表示。
尽管该公司最初认为它将在aws或微软azure等平台上实现灾难恢复,但mathur设计了一个记分卡,将expective的draas产品的优先级放在了其他产品之前。“我们一直在回答的最大问题是:‘我们能从大公司那里得到什么样的服务和支持?’”他说:“从长远来看,我们想要更多的人际关系和支持。”
该公司与expedient进行了密切合作,以确定需要恢复的核心应用程序堆栈,重新设计这些应用程序的工作也已经完成了80%。“今年,我们将把这些应用迁移到expedient的数据中心,”mathur说。tic gums的draas rto不到两个小时。
“我们将能够根据标准的操作程序来启动灾难恢复,并能够通过一个电话将所有内容重新恢复到expedient,”他说。
mathur已经制定了每年两次的测试draas的目标,并可以相应地调整标准操作程序。服务器将根据演习的结果从一层移动到另一层(每层表示服务器可以宕机多少小时),演习是与expedient合作完成的。mathur只需要从他的团队中指定一个系统管理员:“95%的灾难恢复任务留给了提供商,”他说。
autonation的rasner也警告其他it专业人士不要过于大意。“你仍然需要按下按钮并宣布一场灾难的发生。而且还有一些事情需要进行测试、验证,在某些情况下,还需要人工干预,”他说。
此外,他说,“draas也不是万能的。”你需要对每个应用程序和基础设施进行评估,而公司也需要考虑资本支出与运营支出之间的适宜性。你该如何证明这一点:“在灾难恢复中,你所做的一切都是在不断地复制,你可以通过draas来这样做,而不会导致所有沉重的基础设施成本的贬值,也不需要增加任何投资。”
总的来说,rasner对他的draas体验非常满意:“我们已经对它进行了测试,它坚如磐石。尽管到达这里的过程有些痛苦,但我们的灾难恢复情况比过去好得多了。”