企业空间 采购商城 存储论坛
首页 > 数据中心 > 正文

追踪青云QingCloud故障全过程及IDC数据中心防雷详解

2015-07-05 20:09来源:中国存储网
导读:6月6日下午,QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用。设备重启后2小时31分GD1业务恢复,系统数据和用户的业务数据未出现任何丢失。

青云Qingcloud介绍

青云QingCloud成立2年,其IaaS产品上线半年即已获取B轮2000万美元融资,并创下中国云计算行业单笔融资额最高的记录。其原因是青云在技术和产品性能上的极大优势(尽管在团队看来这还仅仅是第一步)。

1)通过云端SDN实现了私有网络(VPC),可以用虚拟路由器以及交换机对主机进行组网,并与其他用户实现100%的二层隔离;
2)支持多种VPN及隧道协议如:OpenVPN、PPTP、GRE、L3GRE(未来还将实现L2TP+IPSec),帮助企业设计及实现混合云(Hybrid Cloud),便捷地将现有IT环境同云端资源协调成一个整体的IT环境;
3)提供秒级资源调度响应以及提供按秒计费,最大程度发挥虚拟资源的弹性优势;
4)虚拟资源的性能可以达到或接近物理设备的水平,通过分布式块存储系统实现高性能IO(140MB/S),确保支撑90%以上的重量级企业IT应用;
5)通过实时副本、备份等多重方式保障数据安全;
6)设计实时P2P机器人社区协作确保故障无害;
7)无限开放全部功能API。

青云故障过程

因广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障,6月6日下午,QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用。设备重启后2小时31分GD1业务恢复,系统数据和用户的业务数据未出现任何丢失。

关于2015年6月6日青云QingCloud广东1区(GD1)机房电力故障的说明

因广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障,昨天下午QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用,对此我们向受影响的用户表示深深的歉意。现将事故完整过程报告如下:

13:48,我们收到GD1硬件及网络告警,并发现官网及控制台无法访问;工程师马上进行系统状态检查,发现GD1所有硬件设备出现重启;随即我们与GD1所在的IDC运营商沟通询问机房情况,同时排查其他可能导致设备重启的原因,并着手恢复管理服务(KS);其间,我们收到大量用户反映GD1业务中断;

14:08,操作切换DNS以恢复官网及控制台;

14:23,我们从IDC运营商处获知由于机房所在地区出现雷暴天气,机房因雷击引起UPS异常,机柜瞬时断电再加电,从而导致了青云的全部物理设备异常关机与重启;

14:38,GD1的管理服务恢复,Bots系统恢复,开始恢复用户主机;用户可以访问GD1资源;DNS完全生效,官网及控制台访问恢复;

15:15,内网DNS Server恢复;系统持续检查环境和帮助用户恢复业务;

16:19,GD1业务完全恢复,进一步检查后,于16:30分发布恢复公告。

本次严重故障从设备重启到用户业务恢复共耗时2小时31分钟,系统数据和用户的业务数据未出现任何丢失。

故障发生后,我们同IDC运营商“睿江科技”就事故原因和技术细节进行了持续沟通,并责成睿江科技出具真实、严谨的故障报告,力求全面了解机房电力系统和防雷系统发生故障的真实原因,以便在未来规避类似事件的再次发生。

截止目前,我们已经获取睿江科技提供的《关于20150606XX机房故障说明-青云》报告一份(附后),其中就雷击引起的电力故障进行了初步说明。通过报告,我们可以了解到的信息如下:

电力系统:直击雷导致电力系统出现瞬时浪涌,UPS启动自我保护(报告中提到的“UPS瞬时波动”),从而释放电流导致瞬间断电。

防雷系统:机房配备了强电、弱电、UPS及列头柜四级防雷,雷击主要是直击雷和感应雷两种,本次发生的是直击雷,现有防雷设施很难防护,从而导致雷电直接影响到电力系统,导致UPS断电保护。

但我们对其中的细节披露和专业解释仍存在以下疑问:

  1. 目前建筑防雷系统已相当成熟,可以防感应雷、直击雷和侧击雷。专业的IT基础设施中的四级防雷系统更应该是如此,本次事故中机房的防雷系统为何未能成功防护直击雷?
  2. 专业的IT设施防雷系统同民用防雷系统相比防护标准更加严格,本次事故的发生究竟是因为防雷系统失效还是因为防雷标准达不到专业IT设施标准?
  3. 防雷系统中包含浪涌保护器,在正常情况下,防雷系统和浪涌保护器会释放掉因雷击产生的瞬时脉冲,从而保证UPS不会产生瞬断。那么昨天的事故中是否存在浪涌保护器失效,未能释放掉因雷击产生的瞬时脉冲,进而导致UPS的断电保护?

就上述疑问,我们正在同睿江科技进行持续沟通以获得真实可信的故障原因分析,也会向用户完整、透明地披露相关信息。

针对本次恶劣天气导致的事故,我们通过重新审视了故障发生和排除的全过程,认为我们的技术能力和服务能力还有以下些可以进一步改进的地方:

故障信息和故障排除进展的通告要更加及时。在昨天的事故中,我们首先将精力更多地投入到故障定位和排除上,在14:20才给出第一个故障通告,导致很多用户因缺乏信息产生焦虑。我们充分认识到及时、透明的信息通告的重要性,因此需要检讨在本次故障通告方面做的不够及时。为此我们制定了未来紧急情况下保障信息通知更加及时、准确的方案。我们会在第一时间通过网站、控制台及“青云QingCloud服务健康状态监控”网站(http://status.qingcloud.com)发布和更新系统异常及故障排除进展的通告,也会更及时地通过短信和邮件等形式向受影响的用户推送相关信息,以保证用户能更及时和准确地了解服务状态。我们非常理解在出现故障时用户面临着巨大的业务端压力,因此由衷地感谢用户们在了解故障信息后对我们给予的理解和支持;

在任何故障情况下,保障官网及控制台正常访问。目前我们的官网及控制台是通过DNS切换的方式确保在所在区出现网络不可达或系统故障的情况下尽快恢复访问。未来我们会制定更快速有效的办法进一步确保官网及控制台的正常访问;

在出现全部设备重启等极端故障情况下,更快地恢复管理服务和业务系统。本次在设备重启后,我们是通过Bots系统和人工操作结合的方式恢复了GD1的管理服务和用户业务,未来我们会编写更加智能的软件脚本,保障在极端情况下,业务系统能够更快速地恢复,将可能造成的损失降到更低;

提高IDC服务保障水平。我们会同目前公有云四个区所在机房分别就电力、暖通、网络等各个专业系统的基础设施水平、运营管理流程规范等方面进行更加严格和全面的检查,并同IDC运营商一同定期进行灾难演练,最大程度避免基础设施故障的发生;同时进一步加强同IDC运营商之间的信息沟通效率,确保第一时间了解任何异常情况;

容灾保护能力提升。将实现关键业务的容灾能力作为长期努力的目标,通过连接各个区的环网的建设和运营等手段实现更好的容灾能力。

综上,我们会全面审核故障处理流程,以应对机房断电等最极端的事故为标准进一步提升QingCloud系统的可用性,让信息传递更加及时和透明,通过自动化手段提高切换和业务恢复速度,让曾经发生的故障成为我们不断进步的和提高服务能力的源泉。

青云QingCloud

附 《关于20150606XX机房故障说明-青云》 

被雷劈了咋办 详解数据中心防雷问题

最近各地气候异常,随着地震、水灾、干旱、地陷、雷击等灾难事件的频发,各种预警及防范措施也在相继出台。每年的4~10月份是雷电活动频繁期,数据中心内的设备众多,更是不能掉以轻心。

追踪青云QingCloud故障全过程及IDC数据中心防雷详解

夏季的数据中心除了要承受酷暑的考验之外,还要抵挡频繁的雷电冲击,每逢这个时候,网络设备遭受雷击的事件便一浪接一浪,轻则造成个别网络设备受损,重则导致整个局域网一下子就瘫痪了。

很多数据中心的管理者认为日常的雷击电压不能击坏设备,但是我们需要知道的是即使雷击所造成的感应电压不足于一次击坏网络设备,但经过长年累月的过压冲击,也会引起网络设备零件的老化,让网络设备使用寿命急剧下降,而旧设备就更加容易遭受破坏,严重地影响网络的性能稳定。介于对数据中心带来的这些灾难结果,今天我们就数据中心的防雷技术进行详细的分析及探讨。

遭雷劈的原因

  • 地形复杂,丘陵地带容易形成对流性天气抬升;
  • 气候特点属于潮湿,导致雷雨容易吸收空气,直接对流放电;
  • 高层建筑越来越多。同时,雷电增多和全球变暖两者有密不可分的关系。

雷电入侵数据中心的途径:

一、直击雷是雷电直接击在建筑物上,产生电效应、热效应和机械力而导致建筑物损坏。建筑物受到直接雷击后,强大的雷击电流沿着接地引下线,经接地体入地后地电位会瞬间升高,产生高电位,引起地电位反击,损坏设备或造成人员伤亡。

二、雷电感应是雷电放电时,在附近导体上产生静电感应和电磁感应,它能使金属部件之间产生火花。雷电感应可以来自对地雷击,也可以来自云间放电,其中对地雷击由于距雷击点较近,产生的感应浪涌电压较大,作用半径也大,一般500米范围的电子信息设备均是其破坏对象;云中放电的感应浪涌电压虽然较小,但发生概率较高。静电感应是由于雷云先导的作用,使附近导体上感应出与先导通道符号相反的电荷,雷云主放电时,先导通道中的电荷迅速中和,在导体上的感应电荷得到释放,如不就近泄入地中就会产生很高的电位。电磁感应是由于电流迅速变化在其周围空间产生瞬变的强电磁场,使附近的导体产生很高的电动势。

三、雷电波的入侵是由于雷电对架空线路或金属管道的作用,雷电波可能沿着这些管线侵入室内,危及人身安全、损坏设备。根据雷电电磁脉冲防护理论和实践经验证明,电子信息设备损坏的主要原因是雷电感应浪涌电压造成的。它可以通过各种引线把感应浪涌电压波引入电子信息设备内部,破坏其芯片和接口。

数据中心非常注重的就是供电的持续性,因此防雷工作就不能忽视,性能比较优秀的网络设备本身就自带有防雷保护功能,在电源进来的线路上,就有用来吸收高压突波的线路设计。虽然产品带有防雷保护的功能,但是就雷电产生的感应电压有几千伏特或者上万伏特甚至更高,无论哪个品牌的路由器,单单路由器本身自带的防雷功能只可能解决一部分雷电所造成的危害,想进一步减少雷电引起的危害就要配备相应的防雷设备。

防雷保护措施

  • 应装设独立避雷针或架空避雷线,是被保护的建筑物及风帽,放散管等突出屋面的物体均处于接闪器的保护范围内。
  • 排放爆炸危险气体,蒸汽或粉尘的放散管,呼吸阀和排风管等的管口外的以下空间应处于接闪器的保护范围内。
  • 独立避雷针的杆塔,架空避雷线的端部和架空避雷网的各支柱处,应至少设一根引下线。对用金属制成或有焊接,绑扎连接钢筋的杆塔,支柱,以利用其作为下引线。
  • 独立避雷针,架空避雷线应用独立的接地装置,每一引下线的冲击接地电阻不宜大于10Ω。在土壤电阻率高的地区,可适当增大冲击接地电阻。
  • 当树木高于建筑物且不在接闪器保护范围之内时,树木与建筑物之间的净距不应小于5cm。

防雷产品分析

一、接闪器

避雷针是最早的接闪器,也是目前世界上公认的最成熟的防直击雷装置。避雷带、避雷网、避雷线是避雷针的变形,其接闪原理是一致的。对避雷针的接闪原理的认识是有一个发展过程的,现在的滚球法理论比较全面地解释了接闪器吸引雷电的各种现象,被国内外标准所采纳。

消雷器消雷器是国内近年来有非常大影响的防雷产品。它是希望改变接闪器的材料和形状来产生电流中和雷云中的电荷,让雷云在消雷器的保护范围内无法建立起接闪所需的场强,以达到消雷的目的。由于消雷器所声称的效果完全满足了人们所希望的防雷效果,因此一段时间内消雷器风靡国内市场。

特殊避雷针还有一些避雷针承认自己接闪雷电,但其保护范围特别大,而且不会因为加装了避雷针而增大雷击概率。这一类产品在市场上的份额不大,没多少人去深究其技术原理的可行性。但在标准中规定任何接闪器都只能按滚球法校核保护范围。

二、引下线

一些厂家不在接闪器上作文章,却在引下线上采取措施,他们认为接闪器接闪时大量的雷电流通过引下线入地,会在周围的导体中产生感应雷,因此推出有屏蔽作用的引下线。必须指出:感应雷主要是由雷云的静电感应引起的,只屏蔽引下线作用并不大,而是要加强所有导线的屏蔽效果,才能削弱感应雷。

其实,在国标《建筑物防雷设计规范》(GB50057-94)中,对金属引下线的规定就已采取了降低引下线电磁干扰的措施,如多根引下线的分流作用,均匀对称的布置在建筑物四周可相互抵消内部电磁场,利用建筑物的钢筋框架这个很好的屏蔽笼(法拉第笼)接闪引下雷电流等。因此,普通金属引下线的方法在技术经济上都是可行的。

三、低压电源避雷器

通信站80%的雷击事故是由雷电波侵入电源线造成。因此,低压交流避雷器发展非常迅速,而以MOV材料为主的避雷器在市场上占有统治地位。

保护电路MOV避雷器的失效有短路和开路两种形式,强大的雷电流可能将避雷器击坏,形成开路故障,这时避雷器模块的外形往往会被破坏。避雷器也可能因时间长材料老化而动作电压下降,当动作电压下降到低于线路工作电压的水平时,避雷器通过交流电流增加,避雷器发热,最终会破坏MOV器件的非线性特性,导致避雷器部分短路烧毁。电源线路故障造成的工作电压升高也可能产生类似情况。避雷器的开路故障不影响电源供电,要检查动作电压才能发现,因此避雷器需定期检查。

避雷器的残压只是避雷器的技术指标,真正加在设备上的过电压还要在残压的基础上加上避雷器与电源线、地线连接的两段导线电感产生的附加电压,因此正确的安装避雷器也是降低设备过电压的重要措施。

四、通信线路避雷器

通信线路避雷器的技术要求较高,因为除了满足防雷技术要求外,还须保证传输指标符合要求。加上与通信线路相连的设备耐压很低,对防雷器件的残压要求严格,因此在选择防雷器件时较困难。

理想的通信线路防雷器件应是电容小、残压低、通流大、响应快。最简单的电路是在高频芯线上并联一个小磁芯电感,就可以构成高通滤波的避雷器。对于点频通信天线也可采用四分之一波长的短路线构成带通滤波器,防雷效果更好,但这两种方法都会将天馈线上传送的直流短路,其应用范围有限。

五、接地装置

接地是防雷的基础,标准规定的接地方法是采用金属型材铺设水平或垂直地极,在腐蚀强烈的地区可以采用镀锌和加大金属型材的截面积的方法抗腐,也可以采用非金属导体做地极,如石墨地极和硅酸盐水泥地极。更合理的方法是利用现代建筑的基础钢筋做地极,有事半功倍之效。

由于过去对防雷认识的局限性,片面强调降低接地电阻的重要性,导致一些厂家推出各种接地产品,声称能降低地电阻。如降阻剂、高分子地极、非金属地极等。

接地电阻主要受土壤电阻率和地极与土壤接触电阻有关,在构成地网时与形状和地极数量也有关系,降阻剂和各种接地极无非是改善地极与土壤的接触电阻或接触面积。但土壤电阻率起决定作用,其它的都较易改变,如果土壤电阻率太高就只有工程浩大的换土或改良土壤的方法才能有效,其它方法都难以凑效。

选用防雷产品的注意事项

一、设计是否有利于用户并且容易安装

理想的产品应该是一个小型、紧凑并且能够安装在现有的空间内,同时易于安装。

二、一次能够处理的最大电流

最大电流(即峰流)是指一个电涌防护器的处理最大电流的能力。Bellcore实验室为了保护它高度计算机化的实验中心,进行了广泛的调研,确定了电涌防护器处理最大电流的能力和所需的技术参数,一个20千安的电涌防护器即可满足要求,起到防电涌、保护设备的作用。由此可见,在任何建筑物内的分支线供电箱处安装一个80千安的电涌防护器,便足以解决任何可能出现的电涌问题。对多雷击区的贵重电气设备,应在建筑物进口的交流配电箱处安装一个较大的防护器,型号从160千安到400千安。

三、吸收能量的能力

电涌防护器吸收能量的能力以焦耳(joule)来衡量,焦耳值越高,电涌防护器的使用寿命越长。

四、钳制电压的能力

也就是将过电压钳制到电器设备所能承受的安全范围之内的能力。计算机被设计在一定电压范围内使用,如果超出了这个范围就会导致计算机的损坏。因此电涌防护器必须把过电压钳制到安全水平,1998年6月1日开始实施的GA173-1998标准规定用于220/380伏电力系统的计算机防雷保安器(电涌防护器)的钳制电压应小于或等于2000伏。

五、符合国际和国家标准

电涌防护器应符合国际标准,包括UL1449、ANSI/IEEE、NEMA和IEC。在我国同样有相应的标准,公安部公共信息网络安全监察局要求:所有用于保护计算机的防雷保安器(本文中称为电涌防护器),都必须根据GA173-1998的标准通过检测并获得销售许可证后,方可销售。

六、产品的可靠性及客户单

了解客户单以及厂家从事产品生产的历史有助于了解厂家的信誉和其产品的可靠性。

七、质量保证

保质期限的长短体现了制造商对其产品是否能不出问题、能长久的保护设备的自信心。一旦产品出现问题,客户是否能得到快速免费的服务,也是用户应考虑的因素之一。

时至盛夏,暴雨、雷电天气较多,由于数据中心通信和供电电缆多从室外引入数据中心,易遭受雷电的侵袭,数据中心建筑的防雷设计尤其重要,而在通常的站区建筑设计中往往忽视这一点,数据中心的建筑防雷除应有效地保护建筑自身的安全之外,也应为设备的防雷及工作接地打下良好的基础,只有建立多层次的计算机防雷系统,才能确保计算机信息系统的安全运行,最大限度地防御和减轻雷电灾害对计算机信息系统造成的危害和损失。

继续阅读
中国存储网声明:此文观点不代表本站立场,如有版权疑问请联系我们。
相关阅读
产品推荐
头条阅读
栏目热点

Copyright @ 2006-2019 ChinaStor.COM 版权所有 京ICP备14047533号

中国存储网

存储第一站,存储门户,存储在线交流平台