2015-05-30 14:08:25
来 源
企业网D1Net
数据中心
7月24日,阿尔及利亚航空公司的一架客机从瓦加杜古飞往阿尔及利亚首都阿尔及尔中坠毁,在此之前的7月23日,台湾复兴航空一架客机在澎湖马公机场坠毁……在飞机坠毁后的第一时间,就是寻找飞机上的黑匣子,因为黑匣子记录着飞机坠毁前的飞机各种运行参数和飞行

中存储网7月31日报道,那么对于数据中心Data Center也一样,如今的数据中心Data Center已经承载着太多的重要业务,人们的生活早已经离不开数据中心Data Center,它已经成为了人们生活的一部分,万一数据中心Data Center发生故障将给人们带来很多不便和经济损失。因为每当数据中心Data Center发生故障后,既然可以通过一部分历史记录去还原故障的发生原貌,对数据中心Data Center的未来发展建设都会很有借鉴意义。

当然,绝大多数的数据中心Data Center都是运行在固定的建筑当中,不过也有一部分可以移动的数据中心Data Center,这些移动的数据中心Data Center在工作时也基本是在固定的位置,这就和飞机有最大的不一样。飞机发生坠毁一切设备都无法再继续工作,现场也会被破坏,而数据中心Data Center是在固定的位置,故障现场依然可以被很好地保留着,这就为故障分析提供了很好的参考依据。从以往数据中心Data Center发生的故障来看,主要有三类:自然灾害;人为故障;设备故障,这三个方面。90%以上的故障都来自于这三个方面。

对于地震、火灾、雷击等天然灾害,从故障现场的受损情况就可以分析出来。比如雷击,会产生强大的冲击电流,打到设备上,就会引起设备器件短路,产生瞬间的高压,使电路急剧生温,轻微的可引起设备短路故障,严重的还能引起火灾。对于这些自然灾害,数据中心Data Center也有很多的技术手段可以最大程度上避免灾害的发生,针对每一种自然灾害数据中心Data Center都需要加以重视,才能躲避开这些自然灾害。比如增加机柜和机房地面的固定螺丝,安装避雷针,增加放火报警系统和防火器材。当出现这些自然灾害时,减少对数据中心Data Center的冲击。

人为故障占到了数据中心Data Center的故障中的70%,其中也可以分为有意的和无意的。有意的是指明知道一部分操作会造成数据中心Data Center故障,仍执意去做的,这些人往往希望通过造成数据中心Data Center运行瘫痪,而达到不可告人的目的。常见的有黑客、情报人员、商业机密小偷等等,他们攻击的对象往往是数据中心Data Center里的数据,通过造成数据中心Data Center故障来达到窃取或损坏数据的目的。无意的是指本意并不想破坏数据中心Data Center,不过由于自己的技术积累经验不够或者疏忽,自己的操作引发了数据中心Data Center故障,这种故障占到了人为故障的80%以上。数据中心Data Center是一个复杂庞大的系统,不可能一个人面面俱到都精通,当接触到自己不熟悉或不了解的地方,操作往往引发意想不到的结果,因此加强对人的管理尤为重要。在对数据中心Data Center做任何调整时,都要从全局考虑,集中最优秀的技术人员,将人为操作风险降低。这类事故往往也很容易留下证据记录,给事故分析带来方便。几乎所有的数据中心Data Center都有门禁系统、视频监控系统,任何人的出入都有记录,很容易查到。有不少的数据中心Data Center提供远程的访问,那么所有的访问操作在数据中心Data Center后台数据中心Data Center都有记录,访问者对数据中心Data Center业务调整、修改配置、甚至重起设备等任何操作都会记录在案,只要数据中心Data Center不是全面的毁灭,这些记录都会在后台的数据库中查到,通过记录的时间和访问的人就可以查明人为事故的原因。

设备运行故障也是数据中心Data Center故障的一类,大型的数据中心Data Center拥有数千台设备很普遍,这些电子设备难免运行中出现故障。万一出现故障,就需要对设备进行分析,很多现场操作人员并不具备分析问题的能力,为了恢复业务,只能重起设备,或者将业务切割到别的备份设备上。当故障设备上没有业务或者已经重起了,其上很多时时记录都会冲掉,这样给故障分析带来难度。很多时候故障的表现也并非集中在某一台设备上,心急的操作人员可能将所有设备全部重启或将业务全部割离,假设设备能提供详细的历史记录,那么对于故障分析非常有帮助。数据中心Data Center不怕出故障,怕的是出了故障后找不到原因,这相当于给数据中心Data Center埋了一个定时炸弹。其实在很多高端设备上已经增加了一部分可以记录历史信息的模块,比如采用NVRAM、EEPROM等非忆失性器件时时记录设备运行的各种参数,当设备发生故障后,哪怕是设备发生了断电,这些器件依然可以正常运行,记录下来设备运行的各种参数,这些数据往往是故障后分析参考的最重要数据来源。当数据中心Data Center出现故障后,有的设备可以提供故障时设备运行的各种数据参数,非常具有说服力,有时也是证明自己设备没有问题的重要信息,而万一在故障后,一部分设备没有可分析的数据记录,根本分不清是不是自己的问题,这样的设备很快就会被数据中心Data Center所弃用。假设通过数据分析是自己设备的问题,那么设备商依然可以根据这些数据去优化设备设计,从而避免这类故障的再次发生,让设备运行更加稳定。

数据中心Data Center也有各种各样的监控手段和历史信息记录,这些技术为数据中心Data Center的稳定运行提供了保障,也是不断推动数据中心Data Center完善的重要举措。如同飞机上的黑匣子,数据中心Data Center也有自己的一套故障定位信息获取解决方案,这些信息可以在一定程度上有效还原故障时数据中心Data Center的完貌,通过对这些数据分析,不仅可以找到故障原因,还可以根据这些故障对数据中心Data Center进行优化,避免发生二次故障。

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。