2012-06-16 08:07:31
来 源
中存储
容灾
某些大型金融机构之所以能够在两天内恢复营业,其主要原因是它们不仅象一般公司那样在内部进行数据备份,而且在数英里外的数据备份中心也保留着数据备份。

2.1 概述

常言道,“知己知彼,百战不殆”。要实现容灾,首先要了解我们的“敌人”- 灾难。

那么,哪些事件可以定义为灾难呢?典型的灾难事件是自然灾难,如火灾、洪水、地震、飓风、龙卷风、台风等,还有其它如原先提供给业务运营所需的服务中断,如设备故障、软件错误、电信网络中断和电力故障等等。此外,人为的因素往往也会酿成大祸,如操作员错误、破坏、植入有害代码和恐怖袭击。现阶段,由于我国很多行业正处在高速发展的阶段,很多生产流程和制度仍不完善,加之缺乏经验,这方面的损失屡见不鲜。事实上,我国2003年遭遇的“非典”,某种意义上也是灾难。对此,我们认为需要做到两点:一是建立切实可行的应急机制,这主要包含一套基于充分且清楚地将风险予以分类定义的业务持续计划,二是在危机突然降临时,此计划能被有效执行。

对于IT系统,除了上述的灾难之外,与系统相关的计划外宕机也可视作灾难(见图1)。

停机原因分析
图1.停机原因分析-北美

自“9.11”之后,全球各企业均认识到灾难防范保护的重要性。某些大型金融机构之所以能够在两天内恢复营业,其主要原因是它们不仅象一般公司那样在内部进行数据备份,而且在数英里外的数据备份中心也保留着数据备份。这些备份都是通过数据备份软件和数据复制软件进行的。采取了这种措施后,一旦工作现场发生意外,企业就可以立即使用另一套数据。华尔街的金融机构重新对灾难恢复的步骤做了评估,并认识到灾难恢复只是技术手段之一,它们开始强调 Business Continuity - 业务连续性(更多BCM内容可参考BCM业务连续性管理概述及应用系列文章),而不仅仅是 Disaster Recovery - "灾难"恢复。因为过去的"灾难"恢复计划并没有强调全局性及对整个市场的影响,而如何维持业务的连续运作将成为企业运营风险评估中至关重要的一环。事实证明,只有对数据存储备份制定完备、持续且可执行的容灾计划,特别是业务连续计划,才能为人们提供万无一失的数据安全保护。

严格的说,容灾计划包括一系列应急计划,如业务持续计划(BCP-Business Continuity Plan),业务恢复计划(ERP-Business Recovery Plan),运行连续性计划(COOP-Continuity of Operations Plan),事件响应计划(IRP-Incident Response Plan),场所紧急计划(OEP-Occupant Emergency Plan),危机通信计划(CCP-Crisis Communication Plan),灾难恢复计划(DRP-Disaster Recovery Plan)等等。

业务持续计划(BCP)

它是一套用来降低组织的重要营运功能遭受未料的中断风险的作业程序,它可能是人工的或系统自动的。业务持续计划是高层管理人员的首要职责,因为他们被委任于保护公司的资产及公司的生存。业务持续计划的目的是使得一个组织及其信息系统在灾难事件发生时仍可以继续运作。为了能对灾难事件有适当的对策,严密的计划及相关资源的投入是必须的。

业务恢复计划(BRP)

它也叫业务继续计划,涉及紧急事件后对业务处理的恢复,但与BCP不同,它在整个紧急事件或中断过程中缺乏确保关键处理的连续性的规程。BRP的制定应该与灾难恢复计划及BCP进行协调。BRP应该附加在BCP之后。

操作连续性计划(COOP)

COOP 关注位于机构(通常是总部单位)备用站点的关键功能以及这些功能在恢复到正常操作状态之前最多30天的运行。由于COOP涉及到总部级的问题,它和BCP是互相独立制定和执行的。COOP的标准要素包括职权条款、连续性的顺序和关键记录和数据库。由于COOP强调机构在备用站点恢复运行中的能力,所以该计划通常不包括IT运行方面的内容。另外,它不涉及无需重新配置到备用站点的小型危害。但是COOP可以将BCP、BRP和灾难恢复计划作为附录。

危机通信计划(CCP)

机构应该在灾难之前做好其内部和外部通信规程的准备工作。危机通信计划通常由负责公共联络的机构制定。危机通信计划规程应该和所有其它计划协调,以确保只有受到批准的内容公之于众,它应该作为附录包含在BCP中。通信计划通常指定特定的人员作为在灾难反应中回答公众问题的唯一发言人。它还可以包括向个人和公众散发状态报告的规程,例如记者招待会的模板。

计划(IRP)

事件响应计划建立了处理针对机构的IT系统攻击的规程。这些规程用来协助安全人员对有害的计算机事件进行识别、消减并进行恢复,这些事件的例子包括:对系统或数据的非法访问、拒绝服务攻击、或对硬件、软件、数据的非法更改(如有害逻辑:病毒、蠕虫或木马等)。本计划可以包含在BCP的附录中。

灾难恢复计划 (DRP)

正如其名字所表示的,DRP应用于重大的、通常是灾难性的、造成长时间无法对正常设施进行访问的事件。通常,DRP指用于紧急事件后在备用站点恢复目标系统、应用或计算机设施运行的IT计划。DRP的范围可能与IT应急计划重叠,但是DRP的范围比较狭窄,它不涉及无需重新配置的小型危害。根据机构的需要,可能会有多个DRP附加在BCP之后。

场所紧急计划 (OEP)

OEP在可能对人员的安全健康、环境或财产构成威胁的事件发生时,为设施中的人员提供反应规程。 OEP在设施级别进行制定,与特定的地理位置和建筑结构有关。设施OEP可以附加在BCP之后,但是独立执行。

BCP关注在中断期间和之后维持机构的业务功能。业务功能的一个可能的例子是工资的支付处理或客户的信息处理。BCP可以专门为某个特定的业务处理编写也可以涉及到所有关键的业务处理。IT系统在BCP中被认为是对于业务处理的支持。在某些情况下,BCP可能没有涉及到对过程的长期恢复并使其回到正常运行状态,而只是包含过渡的业务连续性需求。灾难恢复计划、业务继续计划和场所紧急计划可以附加在BCP之后。在BCP中设定的职责和优先顺序应该和其在操作连续性计划(COOP)中的一致以消除可能的冲突。

按一般惯例,备用站点维持机构(通常是总部)要支持长达30天的运行,直到整个系统恢复到正常状态,COOP正是为了达到这个要求而制定的。BCP涉及到在重大中断期间和之后维持业务处理所需的业务功能和IT系统。BRP记录了机构在备用站点进行业务处理的持续规程。与BCP不同,BRP不涉及在紧急事件期间对关键处理的连续性维持。DRP是指设计用于重大和通常是毁灭性灾难之后的目标系统、应用程序或计算机设施的恢复,它是以IT为主的计划。两个计划都提供了IT系统的恢复和继续规程。由于包括了对无需重新部署到备用站点的小型中断进行系统恢复的规程,所以这类计划比DRP的范围更广泛。计算机事件响应计划建立了使安全人员可以确定、防止和恢复针对机构IT系统进行的计算机攻击的规程。OEP则提供了在人员的健康和安全以及环境或财产等受到威胁的紧急情况下,设施工作人员所遵循的指导方针。计划的制定者之间必须进行协调以确保各自的策略和规程能够互为补充,必须将所有有关计划、系统和处理的变化情况反馈给系统和相应处理计划的制定者。

上一节 下一节

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。