2010-07-28 13:13:06
来 源
中国存储网
容灾
备份是一个老生常谈的话题,但真正能做好的企业并不多。对于一个分布式企业生产数据管理系统来说,其备份与应急恢复系统的建立能够完善备份与应急方案机制,增强系统应对各种

备份是一个老生常谈的话题,但真正能做好的企业并不多。对于一个分布式企业生产数据管理系统来说,其备份与应急恢复系统的建立能够完善备份与应急方案机制,增强系统应对各种风险的能力,确保其安全、稳定、高效地运行。

为了确保企业生产数据管理系统中数据的完整性和安全性,以及应用的不间断稳定性,我们针对系统的应急和备份特点,对现有市场中的备份产品进行了分析、调研、测试和研究,并针对如何在确保数据安全的基础上提高业务连续运行能力,降低企业运营风险,提出了一套备份与应急恢复解决方案。

流行的备份技术

目前,国内外流行的备份技术包括磁盘镜像技术、网络盘存储镜像技术、双机热备技术、集群运行技术、数据后备+增量数据备份技术等。

磁盘镜像技术简单实用,备份效率高,但不能解决除磁盘外的服务器故障问题,也不能解决操作系统中病毒,或者人为数据破坏等问题。

网络盘存储镜像技术采用网络数据存储、数据复制、iSCSI及网络启动等多项技术,为应用系统提供从系统到数据全方位的保护和快速恢复。它的优点是按物理存储块进行读写,可以备份任何系统、软件、程序(包括基于各种方法加密的内容)。

双机热备是常用的灾备方法,一般分为两种:一种是基于共享的存储设备方式,另一种是没有共享的存储设备方式,常称为纯软件方式。但因为它是一种共享的逻辑备份复制,所以,部分加密软件虽可做备份,但无法恢复运行,门户管理软件TWS就是这样的系统。

集群运行技术主要用来做系统负载均衡运行,但也可以作为系统备份技术,是一种实时灾备系统。但这种技术需要有应用软件的支持才能部署运行,所以,实际实施中会有一定的限制。

数据后备+增量数据备份与双机热备的纯软件方式类似,但它不是一个同步运行的系统。

我们的企业生产数据管理系统是一套实时的系统,我们对其系统面临的各种风险因素做了全面分析,明确了备份与应急恢复的要求,对以上应急和数据备份技术进行了有针对性的全面调研,并在此基础上提出了备份与应急系统的总体技术解决方案

如何选择方案

我们的企业生产数据管理系统采用集中+分布的体系架构,服务器涉及几十台Windows服务器和十几台Sun Solaris数据库服务器,存储采用SAN架构方式,网络使用企业内部网,其应用主要是专用的应用软件,运行在Windows平台上,后台数据管理是Oracle数据库。应急恢复与生产数据备份的目标是实现应用系统的7×24小时稳定运行、生产数据在任何情况下都不能丢失,系统出现故障时能够以本地和远程异地两种方式快速恢复。根据服务器上运行的软件,我们分为以下两种情况进行讨论。

1. 应用服务器的应急恢复

应用服务器要实现7×24小时稳定运行,当应用服务器(包括操作系统和应用环境)受病毒攻击或其他因素干扰而无法运行或出现主机瘫痪等灾难时,能够在本地和远程异地启动应急服务器系统接管灾难服务器。经过充分的调研,我们发现,“网络盘存储镜像”是目前市场上比较先进的应急和备份技术,能够有效地满足其系统应用服务器应急恢复的要求。其工作原理是在主应用服务器和应急应用服务器的存储盘之间通过网络进行实时增量镜像复制,并进行多版本快照保存,但当某个油田应用服务器发生灾难时,通过网络恢复在本地或异地的应急服务器上保存的某个版本的镜像备份,实现本地或远程应用服务器的接管。由于“网络盘存储镜像”通常都保存多版本快照,因此,可以有效地防止病毒。

2. 数据库服务器的备份与恢复

对数据库服务器的备份与恢复,目前市场上的商业产品通常有两种技术实现方式:一种方式是使用数据库准同步技术,在逻辑层实现生产数据库和备份数据库之间的准同步而达到备份的目的;另一种方式是通过网络盘存储镜像技术,在生产数据库和备份数据库之间实现物理层的复制与恢复。当本地生产数据服务器发生故障时,由本地或总部异地的数据库备份系统替代原主服务器快速恢复生产数据应用。对于这两种方式,我们进行了实际测试和性能对比,以及用户的可操作和维护性,最终我们选择使用数据库准同步技术实现数据库服务器的备份与恢复。

实现哪些功能

备份与应急恢复与其他任何保险策略一样,当没有灾难出现时,我们根本无法意识到备份与应急恢复系统所起到的作用,无法回收备份与应急恢复系统建设所需的大量投资。但从系统安全性角度考虑,我们又必须为关键的业务支撑系统建设最有效的备份与应急恢复解决方案。为此,备份与应急系统在实现中提供以下功能:

1. 应用服务器的应急恢复(Windows平台)

·操作系统与应用环境在线实时复制与恢复。包括在线实时增量复制/恢复操作系统和应用环境和数据;按用户指定的应用和数据目录进行复制和恢复;支持多版本快速回滚启动恢复。

·操作系统与应用环境的本地应急恢复。在本地主机存储发生损坏或因任何其他(如病毒)软件原因发生故障时,应急系统上能网络启动操作系统和应用环境,以快速恢复业务运营;实现多版本快速回滚启动,以消除可能的病毒故障。

·操作系统与应用环境的异地应急恢复。将本地应急系统的系统、环境和数据远程同步到异地应急系统中心;支持数据加密后传输,保证异地操作的数据安全;在本地主机发生故障时,需要异地应急系统的备用主机能从异地应急系统上启动操作系统和应用,以快速恢复业务运营。

2. 数据库服务器的备份与恢复(Solaris平台)

·Oracle数据库在线实时备份与恢复。能够对生产数据库(Oracle)进行在线实时的增量备份和恢复;备份系统对生产系统和数据库无干扰,即不需要安装非原厂家的Agent软件,或者安装的软件对生产系统无负面影响。

·Oracle数据库的本地应急恢复。在本地主机存储发生损坏或因任何其他软件原因发生故障时,能立即从应急系统上启动Oracle数据库,以快速恢复业务运营;保持备份数据和源数据的一致性和完整性,并能立即可用;支持不同 Solaris操作系统版本上的数据库(即Solaris 8 上的数据库和 Solaris 9上的数据库)之间的备份与恢复。

·Oracle数据库的异地应急恢复。将本地应急系统的Oracle数据同步到异地应急系统中心;支持数据加密传输,保障数据安全;在本地主机发生故障时,需要异地应急系统的备用主机能从异地应急系统上启动Oracle数据库,以快速恢复业务运营。

备份与应急恢复系统的实现,将大大提高企业生产数据管理系统应用服务器和数据库服务器的灾备能力,能够及时、准确地实时动态备份和恢复,保证其系统的数据安全和业务的连续性。

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。