查看原文
其他

观点 | ​数据中心应急管理体系建设的思考

金融电子化 金融电子化 2022-10-19

欢迎金融科技工作者积极投稿!

投稿邮箱:newmedia@fcmag.com.cn

                                           ——金融电子化

文 / 中国农业银行安全保卫部    王小刚

2021年7月18日,河南郑州出现罕见持续强降雨天气。强降雨导致当地多区域电力、电信等基础设施受到影响。受断电影响,7月21日,中国移动公告称,河南部分地区受极端天气影响,枢纽机房断电,目前无法正常办理移动业务。同日,河南本地一家名为海腾数据的服务商也在官网挂出数据中心受影响的通知。该公司称,机房由柴油发电机紧急供电,附近油站因道路积水导致无法及时供油,考虑到存储油量有限,市电恢复时间不确定,建议用户紧急备份数据或远程关机以避免数据受损。


“水电煤”是生活必需品,数据网络作为新一代的“水电煤”,一旦发生服务器宕机,将引发严重的后果。数据中心作为数据存储、运行的基础设施,和发电厂、自来水厂一样举足轻重。此次郑州因极端暴雨造成停电停网,继而进一步导致城市关键基础设施业务中断,这给商业银行数据中心应急管理带来深刻的启示和思考。


数据中心应急灾害事件盘点

历史上,亚马逊、三星以及欧洲云计算巨头OVH的数据中心都遭遇过重大事故,甚至部分事故引发了不可挽回的严重后果。


2014年4月,三星在韩国首尔郊区果川的机房发生重大火灾。三星官网因此暂时瘫痪,部分手机用户的服务也受到了影响。2015年10月,Windows Azure上海数据中心发生故障,故障由服务器所在机房着火断电引起,导致Azure基础设施离线无法提供正常服务,受影响的用户包括金融、互联网、房地产等行业。2017年4月,北京邮电大学网络数据中心突发火灾。起火原因系UPS蓄电池组故障引起。由于北邮的网络信息中心机房是北京多所高校的校园网上游节点机房,此次起火导致包括中国政法、北京理工、北航等多所北京高校网络中断。2018年11月,韩国三大电信运营商之一KT位于首尔市中心的大楼发生火灾,事故原因为地下电缆隧道起火。火灾烧毁16.8万股电话线和220套光缆。由于通信设备受损,此次事故导致韩国的警察、医院、金融等社会基础设施被迫停转。2020年8月,澳洲电信Telstra位于英国首都伦敦的托管数据中心由于UPS故障引起火灾并引起宕机。当地消防部门共调集了4辆消防车和25名消防员到场救援。2021年3月,欧洲云计算巨头OVH位于法国斯特拉斯堡的机房发生严重火灾,这场大火彻底摧毁了五层高、占地500平方米的SBG2数据中心,并导致相邻SBG1服务器发生损坏。本次火情导致约360万家网站出现故障,约1.5万名客户的资料可能受到影响,部分客户数据完全丢失且无法恢复,其中包括法国政府的部分数据。


数据中心应急灾害事件分析

灾害,是指能够对人类和人类赖以生存的环境造成破坏性影响的事物总称,包括一切对自然生态环境、人类社会的物质和精神文明建设,尤其是人们的生命财产等造成危害的天然事件和社会事件,主要包括地震、洪水、飓风、暴雨、火灾等。


数据中心机房作为海量数据的关键载体,是信息化的核心场所,其复杂性、特殊性和重要性不言而喻,一旦发生灾害或者事故,造成宕机,影响业务正常运营,将产生极为严重的经济后果和社会后果。随着国内商业银行数字化转型和线上化趋势进一步加快,银行数据中心如何避免重大安全事故和人身伤亡,保证基础设施稳定运行将是一个重要挑战。


1.数据中心消防安全隐患分析。数据中心可能面临的灾害类型众多,本文以数据中心最多发频发和导致严重后果的消防安全隐患来分析,其原因和处置难点主要分为以下几种。


一是设备故障——机房内配电系统、用电设备、电脑、UPS系统、空调等设备始终处于24小时的工作状态,易产生疲劳和老化故障。二是电气线缆故障,电气线路短路、过载、接触电阻过大等易引发火灾。三是可燃材料,机房内使用或存在各类易燃可燃材料。四是雷击等强电侵入导致火灾。五是静电,通信设备的运行及工作人员所穿的衣服等都能产生静电。如果机房接地处理不当,形成高电位,可能发生静电导电产生火花并引燃周围可燃物发生火灾。


2.数据中心火灾隐患处理难点分析。基于数据中心的特殊性,一旦发生火灾隐患则难以处理。其难点主要如下。


一是环境封闭,易产生热量积累。数据中心由于对环境的温度、湿度及洁净度要求较高,所以采用封闭空间的方式建造。如《数据中心设计规范》(GB50174-2017)6.3.3条明确指出“主机房不宜设置外窗。”由于密闭无窗,热烟气无法通过窗户顺利排出。


二是设备大量采用化工产品,易产生有毒烟气。数据中心在设计之初使用了大量的服务器、电线、电气设备等,这些材料在燃烧过程中,会产生许多有毒或有刺激气体,对人身健康有巨大的影响。


三是各类电器使用量大,线路复杂。近年来的新建数据中心几乎都是高压配电机柜,用电量越来越多,常有负载超过连线和电路结构的承载能力,引发积热、打火、断路、数据损失,甚至电气火灾等事故发生。此外,由于长期高负荷运转,部分电气线路的绝缘保护层会因为高温而加速老化,易形成阴燃。


四是气体灭火系统带来的管理难题。由于数据中心的特殊性,数据中心机房消防系统多采用气体灭火系统。气体灭火系统有诸多优点,如灭火效率高、不易产生二次伤害等。但气体灭火系统也有其不足,首先是容易发生误喷,由于工程本身的误差,难以完全杜绝。其次是对管理要求高,例如气体灭火设施按现有设计,预警时间为30秒,如果场内人员无法及时逃离,极易造成人身伤亡。


打造以消防安全为中心的应急管理体系

从必要条件来分析,从外部形势看,传统上我国对消防工作的范围仅限于灭火和防火,2008年汶川地震以后,我国及时总结经验教训、整合力量,着手组建以消防为中心的国家应急救援体系。2018年3月21日,中央印发《深化党和国家机构改革方案》,公安消防部队不再列武警部队序列,全部退出现役,成建制划归应急管理部,发挥应急救援主力军和国家队的作用,承担防范应对各类灾害事故风险、保障人民群众生命财产安全的重要职责。


从行业发展看,近年来,随着银行业数字化转型进程的逐步加快和全社会安防体系的建立完善,银行安全防范重点逐步转移到线上反欺诈和线下安全生产领域。因此,银行数据中心作为重要的关乎国计民生的重点场所,应主动顺应外部政策形势变化和行业转型发展工作需要,积极打造以消防安全为中心的应急管理工作体系。


从充分条件来分析,首先,从数据中心面临的各类灾害风险的可能性和重要性来看,地震、洪水、暴雨等灾情重但发生概率小,人员伤亡可能性小,相对来说,消防工作特别是电气设备防火和灭火始终位居重中之重。其次,从消防工作职责来看,范围涵盖各类自然灾害应急处置职责,参与各类自然灾害应急响应和处置是应有之义。最后,从现实可行性来看,近年来国家各级消防部门大力推进微型消防站建设,从农业银行的工作实际来看,目前,各级行、各级数据中心都已按要求或通过自建或物业,组建和配备了较为完善的微型消防站人员和装备。综上所述,数据中心具有建立和完善以消防为中心的应急管理体系的能力和基础。


根据上述因素,笔者认为,商业银行数据中心应急管理体系建设应着力做好以下几方面工作。


一是着力做好应急风险评估和分级。国家《数据中心设计规范》(GB50174-2017)将数据中心按照使用性质、重要性、损害程度划分为三级,其中A级数据中心宜按容错系统配置,B级数据中心宜按冗余要求配置,并对不同级别数据中心在数据保障时间、选址、抗洪等均有不同要求。数据中心在建设时,应严格比照相关国家和行业规范,充分考虑各类灾害发生的可能性和发生概率,将数据中心主要系统按照关键系统、必要系统和可选系统做好分类,做好各类主要风险分类分析和风险评估,以便有针对性的做好响应准备。


二是着力抓好科技设施建设。一个良好完善的应急安全体系应当包括警卫、消防、安防三个方面,从另一方面则是物防、技防和人防。警卫主要负责外围警戒,包括人员筛查、人员分类、门禁分区授权等等。消防主要包括内外部各类消防设备设施的建设使用、早期发现、应急处置等。安防主要是各类视频监控摄像头及各类物联网设备设施的使用管理等等。三者并无绝对划分,而是各有侧重,相互配合共同组成应急体系。农业银行近年来大力推进消安一体化建设,打通消防安防壁垒,大力建设电气火灾监测报警系统建设,力图通过监测电压、电流的变化实时发现风险,消灭数据中心最大的电气隐患,在试点行均取得了良好的应用效果。


三是着力做好应急人员配备。再好的设备设施,都要由专业的人来操作使用,这在平时或许看不出什么不同,在关键时刻就会有较大的区别,这一点在公共安全领域表现的尤其明显。对数据中心来说,应积极招聘一些具有公共安全、应急管理、消防等专业或相关工作履历的人员,让专业的人做专业的事,依托物业公司和“微型消防站”建设,着力建设一支训练有素的应急人员队伍,有针对性地开展各类注入灭火、反恐、防洪、反抢劫等应急发现和应急处置,如此才能有备无患、常备常安。


四是着力做好应急预案制定和培训演练。一个好的应急预案应该是考虑周全、灵活性高而且简便容易执行,应当充分考虑灾害情况和自身的状况、薄弱环节、可调配的资源等,并且在日常培训演练中反复灌输,让员工熟知熟记,从而能在灾害来临时有条不紊、从容应对。在本次郑州暴雨灾害中,倘若相关数据中心能够及时关注气象局暴雨红色预警,加强应急物资储备,做好突发极端情况应急准备,充分考虑一旦市电切断,自储油料不足,社会救援不及等极端情况,或许就不会造成那么大的社会影响和经济损失。

图    中国农业银行总行机关消防演练现场


五是着力做好灾备中心建设。对于商业银行来说,灾备管理是业务连续性管理和应急管理交集中的一种极端特殊情况,专门针对IT风险。从某种意义上,灾备管理从属于应急管理的大范围之下。数据中心作为银行IT业务的核心场所,应着力做好灾备中心建设,同步完成灾备中心的系统、网络和环境等基础资源配置和运行维护,按照相关备份策略按时完成数据备份。当灾难发生后,灾难恢复组织机构的各层人员立即响应,在生产系统成功切换到灾备中心运行后,要按照生产中心的规章制度、操作流程、技术规范来管理,保障生产系统安全稳定运行。以农业银行为例,近年来积极推动“两地三中心”灾备项目,通过定期开展培训演练和压力测试等措施,从而为全行灾备管理和IT应急管理奠定了良好基础。


(栏目编辑:张丽霞)




往期精选:

(点击查看精彩内容)


● 观点 | 普惠信贷产品助力乡村振兴提速增效

● 观点 | 科技聚活水,共建新皖乡

● 观点 | 金融科技赋能,深耕江淮沃野——做乡村振兴的实践者

● 观点 | 基于隐私计算的数据流通平台互联互通思考

● 观点 | 建设低碳数据中心,打造绿色金融科技新底座









《金融电子化》新媒体部:主任 / 邝源  编辑 / 傅甜甜 潘婧

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存