查看原文
其他

实战 | 数据中心IT设备硬件智能化运维探索与实践

金融电子化 金融电子化 2022-09-24

欢迎金融科技工作者积极投稿!

投稿邮箱:newmedia@fcmag.com.cn

                                           ——金融电子化


文 / 上海浦东发展银行信息科技部    王广平  彭克坚  胡滨

在2021中国(北京)数字金融论坛上,中国人民银行副行长范一飞指出,数据中心是数字金融发展底座,金融业要顺应数字技术发展新趋势,从数据中心增效、算力体系扩能、网络通信提速三方面着力打造布局科学、安全可靠的数字基础设施,筑牢金融转型与创新发展的“数字底座”。


当前,数字化越来越成为推动经济社会发展的核心驱动力,并对传统金融行业带来了革命性影响。以云计算、大数据为代表的新技术的深入应用,使得金融机构对数据资源存储、计算和应用的需求不断提升。数据中心作为金融机构的“心脏”,在新形势下的转型与发展尤为关键。传统数据中心迫切需要实现与新技术的融合发展,加快向新型数据中心演进的步伐。


在AI、大数据蓬勃发展的时代,新的业务需求也在推动着数据中心的发展。一般来说,中小型数据中心都有数以万计的IT设备,大型数据中心的IT设备数量甚至超过10万台。面对巨量设备,IT人如何才能实现运维效率的提升。


传统运维模式下,各品牌有独立的IT设备管理平台,而数据中心设备品牌和类型多造成了管理平台多,管理不清晰,缺少集中统一的硬件运维平台。


综合考虑未来数据中心硬件管理演进方向,上海浦东发展银行信息科技部深耕前沿技术,依托带外管理手段,结合大数据、分布式技术,建设一套可以纳管服务器、网络、存储等各类型IT设备的硬件管理平台,实现数据中心运维模式转变,进一步契合当下环境,打造了从人维转向智维、从被动转向主动的规模化IT设备运维体系,达到快速感知硬件设备故障、快速获取设备信息、快速记录设备维护等良好效果,为行内各项业务的稳定运行铸好基础。


改进传统监控模式,提高运维效率 

通过直接监测IT设备独立的带外管理口,采集硬件信息以及内部传感器动态数据。借助该平台采集的设备详细数据,统计分析故障情况,用数据将传统的运维转向运营,保障各类业务正常运行,为数据中心智能化、无人化提供全栈式基础能力。 


1.“运筹帷幄”——远程监控排障,减少人员机房出入 

依托平台可以实施开关机、重启、固件升级、挂载介质、日志下载等操作,全程录屏敏感行为,无需进入机房即可安全运维。故障定位效率更是实现了大幅度提升,定位故障节点时间从2小时降低至5分钟,节省大量跨专业及与厂家沟通的时间。


2.“鞭辟入里”——精细巡检,杜绝巡检盲区 

自定义设备巡检周期,万台设备巡检时长从2小时降至5分钟,巡检耗费人力从5人降低至1人,单台设备巡检次数由1次/天提升至144次/天,全天设备巡检次数115万台次,远大于人工巡检次数,设备告警发现率由50%左右提升至100%。巡检范围覆盖硬盘、内存、阵列卡、设备面板灯、风扇、插槽以及电源模块等部件,及时发现告警并以邮件、电话等形式自动推送至设备管理人员,解决了人力巡检不精细、肉眼有疏漏等问题。


从设备、机柜、机房、业务以及固件版本、设备配置变更等多维度自动化监测IT设备,数据采集时效性强、准确度高,图表形式的可视化监测界面让监控工作变得直观简便。


3.“一目了然”——总览全局,全方位可视化大屏运维 

提供设备、机房、机柜、业务、监测、能耗、资产、网络等多维度的大屏展示,为管理者提供统一视角的管理工具,辅助管理者快速获取相关信息,实现管理决策有据可依。

 图1    大屏视图列表


数字化管理,支撑运营决策 

1.“如数家珍”——全生命周期的IT设备资产管理 ,支撑采购

涵盖IT设备的上线、维护、变更、下线、报废等阶段的全生命周期管理,管理设备达到万台,贯通CMDB平台,实现设备初始配置到变更信息的联动,具体包括:机架、空间、位置变更,部件变更,网络配置变更、维保管理、序列号变更等,及时把控机房IT设备动态,预警相关风险。


依托平台采集数据,统计分析各阶段IT设备数据,包括资产运行状态、故障率、剩余空间、能耗、维保等,支持自定义报表,直观反馈设备/部件故障率、品牌故障率、库存设备占比等信息,为设备选型、配件采购提供数字依据。

 图2    设备故障率展示


2.“节能减排”——双管齐下,全力打造绿色机房

借助平台加强对机房能耗的管理,从“设备”视角,掌控看不到的能耗数据,辅助设备上架决策,提高机柜利用率;联动动环系统动态调整机房整体温度,节省机房能耗。


实时采集设备的能耗、温度数据,全方位实时监测机房、机柜、设备、业务的能耗信息,为决策、预测提供可靠依据,机柜利用率从50%提升至70%以上,排查能耗异常设备并实时告警,精准控温,减少15%以上的能源消耗,降低PUE,打造绿色数据中心。 


系统联动,打造一体化运维体系愿景

在信息科技发展的背景下,依托大数据、云计算、人工智能、物联网等新技术,进一步完善行内数据中心运维手段,打通硬件管理平台DCM与3D大屏系统、巡检机器人系统的联动接口,创建大数据+AI+自动化驱动下的无人值守机房运维模式,建立故障快速响应和自动化处理机制。

 图3    3D大屏联动效果

 

图4    机器人联动巡检


从研究机器人参与智能巡检,再到未来探索AR/VR等可视化运维工具,融合现有行内运维流程,打造一体化的运维体系。我们将扎实走好每一步,提高运维质量,保障业务高效运转,为建设数字化银行不断赋能。

 

未来展望

5G、大数据、人工智能、图像识别等新技术的蓬勃兴起,推动着数据中心管理技术的发展,势必会给数据中心的数字化运维带来质的突变。如何利用新技术促进运维转型,是值得每个运维人思考的问题。






往期精选:

(点击查看精彩内容)


● 实战 | 商户客户地理大数据营销法

● 实战 | 核心系统资源有效管理探索及研究

● 实战 | 5G 技术对商业银行的影响分析及创新实践探索

● 实战 | 人工智能在非结构化数据场景中的科技赋能

● 实战 | 数字孪生技术在数据中心运营场景的应用






《金融电子化》新媒体部:主任 / 邝源  编辑 / 傅甜甜 潘婧

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存