2014-03-21 00:00:00
来 源
中存储
数据中心
当数据中心的设备运行出现问题时,尤其是软件问题,怎样才能不中断业务来解决问题呢。在冗余比较完备的数据中心,可以通过业务切换到备用系统上,对主用系统设备进行重启解决问题,然后再将业务切回。

数据中心的业务要求7*24小时运行,任何一次的业务中断都会给用户带来不可估量的损失。当然只要是电子设备,就可能会出问题,几乎无法避免。数据中心设备在运行的过程中会出现各种各样的问题,有些问题并不会立即影响业务,但不解决,长期带着隐患运行就会存在隐患,所以需要在不影响业务的情况将问题解决。有时由于设备故障导致业务异常,就需要立即解决,采用合理的技术就可以在最短的时间内解决问题,将业务中断时间缩短到最小。当数据中心的设备运行出现问题时,尤其是软件问题,怎样才能不中断业务来解决问题呢。在冗余比较完备的数据中心,可以通过业务切换到备用系统上,对主用系统设备进行重启解决问题,然后再将业务切回。但是因为版本升级导致的协议复位、链路震荡、设备重启等原因,都会对在线业务产生一定的丢包影响。这里介绍的几种软件升级技术,都是从出问题的设备自身来考虑设计的,具备这些技术的设备,才能堪称得上是高端大气上档次的设备。

补丁

补丁是指对于大型软件设备在使用过程中暴露问题而发布的解决问题的小程序。设备软件程序不可能十全十美的,免不了会出现BUG,通过补丁可以对这些出现的BUG进行修复。这就像棉衣服破了直接就扔掉太可惜了,缝个补丁还可以继续穿,一样还可以保暖。我们缝衣服可以将衣服脱下来缝,也可以直接穿着缝。设备软件的补丁也可以分为两类:冷补丁和热补丁。所谓的冷补丁,指的是设备补丁打上后,补丁功能无法生效,需要重启设备才能生效。热补丁指的是设备打上补丁后,补丁功能可以直接生效。有些是在设备初始化时设置产生的软件BUG,热补丁无法生效,只能通过冷补丁的方式解决。冷补丁和直接升级版本的效果一致,都会由于设备重启而导致业务长时间中断。所以绝大多数情况下,都要尽量提供热补丁。平时我们使用Windows PC准备关机时,有时就会收到提示下载补丁软件,这些补丁软件只有在下次重启时才能真正生效。而平时使用过程中,也会收到一些补丁安装提示,这些补丁都属于热补丁,安装上就可以生效。补丁功能是用来解决数据中心设备软件问题的一种最普遍的方式。

进程升级

补丁只能是在原有软件基础上很小的修改,对修改代码量有要求,还有很多比如代码设计时使用了静态函数、循环任务、定时器等,由于这些在软件初始化时就已经设置好,在软件运行过程中再打补丁,补丁就无法生效了,这时很多人想到了进程升级,Windows和Linux操作系统都支持进程热升级,很多网络、存储设备的操作系统也都支持进程升级。进程是正在运行的程序实体,包括这个运行的程序中占据几乎所有的系统资源。进程具有一定独立功能的程序,通常运行着设备的某一功能。这个功能出问题了,就可以通过进程升级的方式解决问题。进程升级虽然会影响这个进程的业务,但仍是一种不停机的升级方式,也被称为热升级。如果出问题的进程与业务无关,则升级此进程对业务毫无影响。相比补丁,进程升级可修改的程序几乎没有什么限制,几乎可以重新编写都可以,所以当设备的某一个功能有出现问题时,通过升级其对应的进程就可以搞定问题。

ISSU

ISSU(In-Service Software Upgrade,不中断业务升级)是一种能够在保持业务不中断的情况下,完成软件版本升级。数据中心设备的生命运行周期一般是5年,很多时候会出现多种问题,往往通过补丁和进程升级都无法搞定。比如:MPLS VPN功能,设备要实现这个功能通过一个进程是处理不完的,往往需要多个进程协同工作,而且涉及到一些宏定义变量的修改,这些没有办法通过升级进程和补丁解决,这时只能通过升级软件版本解决。ISSU就是这样一种软件升级技术,要实现ISSU,需要设备具备主备运行模块或者双系统,由于ISSU升级是将设备从原来的软件版本上升级到新版本,如果两个版本差别过大,也将无法完成ISSU.在做ISSU升级之前,系统软件会对新旧两个软件版本进行评估,看是否能做ISSU,若是可以就可以直接按照ISSU的升级步骤来操作。对于已经出现问题的设备,要进行ISSU升级,涉及到问题模块的重启,所以还是会短暂影响业务,但相比直接重启进行软件升级,这种方式可以大大减少业务中断的时间,更多的时候还是可以做到业务不中断升级。目前在网络设备上普遍都支持ISSU功能,服务器因为只有一个CPU,还无法做到ISSU.不过现在的服务器都是多核的,核之间完全独立,这样就是实现一个核的单独升级,这种升级就像是一个小的ISSU功能,对一个核上的软件进行升级。这样基于CPU一个核来升级软件,在实际中应用的还不多,这里面在软件实现上还有很大难度,毕竟这样各个核之间的软件将会不同,会出现很多不兼容的问题,目前仅存在于实验室科研过程中。

具备了补丁、进程升级和ISSU三大功能,数据中心的维护人员几乎可以放心的去睡大觉了,再也不用担心设备出问题后该如何解决了。一旦设备出现异常,通过这三大技术基本可以在不影响业务的情况下,解决绝大部分的软件问题。这几种技术也是数据中心维护人员必须要掌握的操作技能,才能让数据中心业务长期不间断稳定运行。当然,我们也看到这些技术也有使用限制,比如ISSU就要求新旧两个软件版本跨度不能过大,否则无法升级,这时就只能进行正常的软件升级了,设备就要执行重启,引发业务长时间中断。随着这些技术的不断完善,希望这样的情况越来越少出现。

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。