文 / 中国工商银行金融科技研究院
在云原生时代,随着云计算、微服务等技术的广泛运用,系统更新迭代速度不断加快,运维数据规模爆炸式增长,传统的运维方式越来越无法满足7×24小时稳定可靠运行的要求。为实现运维架构的转型升级,工商银行紧跟业界AIOps发展趋势,以“数据+技术”双要素为驱动,整合优势开发资源研究攻关,从无到有构筑了云原生智能运维平台,提供涵盖故障管理、变更管理、成本管理、运维支持四大类运维管理新模式能力的AIOps智能运维服务,全面推进运维智能化转型。
打造一站式故障管理体系,迈进“1-3-5”故障处理目标
面对运维复杂度指数级增长和用户稳定性要求不断提升的现状,工商银行针对指标、日志、链路等运维数据构建了标准化归集的能力,并通过运维数据分析中心支撑故障异常识别、排查定位和应急修复全流程功能的建设,新增“火警图”统一运维大屏实现一站式端到端敏捷管理,向着“1-3-5”故障处理目标持续迈进,即1分钟发现、3分钟定位和5分钟恢复(如图1)。
图1 一站式故障管理体系架构
在故障异常识别方面,工商银行以运维基础数据为着眼点(如图2),一是建立指标、日志、链路运维三大可观测支柱的监控元数据存储中心,实现涵盖系统、中间件、应用、业务和客户端的多维立体化监控能力覆盖;二是基于统计学、无监督学习、深度学习算法实现基带检测、离群检测、波形检测、突变对比和波动对比等通用化异常检测算法中台,提供指标配置、在线可视化调参、告警标注、异常告警邮件发送等全栈服务,有效弥补了传统阈值一刀切、无法自适应不同时间段状态差异的不足;三是深度定制了开源度量分析及可视化工具,支持基础设施和应用程序实时运行情况的全景式展现,并提供个性化配置服务满足应用“千人千面”的需求。
图2 云原生可观测支柱
在故障分析方面,工商银行采用自动化、智能化“两手抓”策略,实现问题快速分析和定位。一是打造一体化诊断中心,集成了丰富的诊断指标类型,目前已支持日志诊断、数据库诊断、接口诊断等13大类总计58种原子诊断能力。同时基于故障树分析法打造诊断树功能,支持应用结合自身业务特点及运维需要自定义串、并联组合编排诊断规则,模拟人工操作完成问题的排查分析,并可根据故障复盘和混沌演练结果持续保鲜(如图3)。二是打造智能根因下钻分析服务,基于智能异常检测算法,结合链路拓扑、交易指标、基础资源指标等数据,从横向和纵向两个维度对故障根因完成智能分析与定位。横向维度基于SLO生死指标报警,结合服务调用拓扑和业务交易生死指标波形,从报警节点出发,利用上下游服务调用指标、事件、时间相关性分析等算法,逐层下钻分析候选故障根因节点,并结合上下游指标相似度、异常程度分析溯源故障发生根因服务节点;纵向维度针对横向定位产生的异常节点,基于运维知识图谱查询端到端部署拓扑关系,利用指标异常检测算法,对PaaS容器、宿主机、集群,以及IaaS计算、存储、网络等各基础设施节点的关键性能指标(如CPU、内存等)开展异常排查,根据拓扑节点深度、指标异常严重程度及异常相关性逐层下钻锁定根因节点。通过横纵向智能根因定位,有效弥补了专家经验无法覆盖未知故障场景的痛点,助力运维人员快速定位。
图3 故障诊断树排查法
在故障应急方面,工商银行通过建立应急专家库,实现故障与应急措施的有效关联。根据故障原因和影响范围的不同,制定匹配的应急措施,在提升应急效率的同时有效防范风险:针对容器、单点服务、宿主机等点状故障,通过调用云平台的标准化接口,触发重启、禁用、隔离等自动恢复策略;针对服务群组、园区级别的面状故障,提供应急修复建议,支持运维人员一键式完成园区切换、全面降级等复杂高风险应急措施。
在统一视图方面,为解决超高敏应用的生产运维痛点,工商银行充分挖掘并整合各平台监控优势,创新性地提出“火警图”的概念,帮助应用提高故障处理时效性。火警图围绕“可视化、智能化、一键化”的设计理念,整合部署架构、系统资源、服务调用监控于一体,结合一键式应急能力,提供业务指标、技术指标、部署拓扑等多维度一站式监控、在线诊断和应急能力,推动隔离、扩容、切园区新三板斧落地,有效提升应用故障快速定位和处理时效,全面保障生产业务平稳运行。
截至目前,一站式故障管理能力累计协助应用发现运行风险超过500次/月,通过平台快速定位和应急处理问题超过30万次,针对交易成功率下跌、慢SQL等部分场景的定位准确率已达90%以上,有力保障了“双十一”电商抢购、纪念币抢购等重大活动的实时监控。
构建智能化资源调度平台,实现集约化成本管理
随着云计算的快速发展,企业在云资源分配、使用和管理过程中缺少规范约束,导致浪费问题日益严重。中国工商银行积极研究并构建了智能化资源调度平台,着重研发负载画像、资源混部、弹性伸缩三方面智能技术,实现集约化成本管理。在负载画像方面,基于Prometheus监控体系及云平台等数据构建资源可观测视图,通过数据驱动成本优化,实现多维度资源用量分析,从资源角度深度挖掘云平台底座和应用层的资源不合理使用情况,完成资源配额与副本数的精准推荐;在资源混部方面,依托资源分级抢占、整机分时复用、冗余资源再调度等策略,落地多级别、在离线、异构算力等多种资源混部场景,提升资源部署密度,实现不同优先级应用、大数据批量与通用算力、CPU与GPU异构算力的云资源混部调度;在弹性伸缩方面,基于时序预测算法和自研调度器,实现应用节点业务高峰和低谷弹性扩缩容,减少常驻容器资源。平台形成了一整套资源申请评估推荐、资源运行分析、资源优化推荐、优化激励的成本运营可持续化流程。
截至目前,智能化资源调度平台累计减少离线任务等待时间20%,资源利用率由原先虚拟机资源池的15%提升至混部资源池的32%,实现了超亿元设备的回环利用,达到同业领先水平。
落地主动式变更风险防御机制,降低投产变更操作风险
为实现应用系统投产验证全流程自动化管控,工商银行采用Jenkins Pipeline流程编排引擎和ansible服务器管理技术,基于PaaS云平台Kubernetes、docker以及elasticserch的云原生特性,建立了智能投产验证平台(如图4)。随着验证场景日益复杂、变更频率日渐提升,工商银行在智能投产验证平台基础之上,针对应用配置复杂、变更潜在风险易忽视、风险分析难的痛点问题,构建主动式轻配置变更风险防御机制。针对应用性能容量、系统性能容量、日志、容器运行情况、参数等多个变更重点关注维度,通过分析灰转正、变更前后各个维度运维数据变化情况,进行轻配置和智能化升级改造,有效降低应用配置成本。同时打造主动式验证技术链路,可不依赖用户配置,面向应用基于投产变动重点关注维度,主动在投产前、投产中、投产后不同阶段通过定时任务触发重点智能验证,打造应用验证、智能验证双保险机制,以及时发现潜在风险。并且提供统一风险可观测面板,整体形成了智能预警、在线分析、应急回退等全流程风险管控机制,加速应用的闭环处理。
图4 主动式变更风险防御机制架构
截至目前,变更风险防御机制已累计对接875个应用,支持数据库验证、日志验证、接口验证等16大验证场景80+种验证小类,月均下发验证任务超过3万次,多次发现故障日志突增、性能容量变动、应用容器节点健康度低、参数配置调整等生产隐患,协助应用发现和规避投产风险超过8000次,有效降低了投产变更风险。
推进运维支持智能化服务,塑造日志分析、运维助手新模式
中国工商银行面向运维领域积极探索通过人工智能技术拓展现有AIOps边界。一方面,工商银行针对故障日志定位慢、排查难的痛点问题,收集上万级日志及错误码故障标注数据,基于文档结构拆分、问题增强、精排等智能化技术,研究构建日志故障智能分析服务,以提供日志内容解读、故障原因分析以及故障解决方案的建议;另一方面,工商银行针对运维咨询、工单答复等不同场景收集运维平台指引、常见问题、应急方案等运维文档,逐步建立多元化运维知识库,以实现运维知识有效归集和在线更新收集,打造基于运维助手的“一揽子”服务,为运维全流程提供智能化问答式交互咨询解答。
截至目前,工商银行已完成日志故障智能分析服务的首版本投产,支持用户前台自定义输入异常日志报文,以多轮对话方式提供问题原因及解决方案,实现缴费、合作方中台、信用卡产品等20个应用的试点对接,协助分析各类异常报文超1000次。同时,通过构建型运维助手试点提供分布式工单智能处理服务,将处理时长由小时级压降为分钟级,大幅提升了用户满意度。
未来展望
工商银行先后借助云计算和人工智能等新兴技术,实现了IT整体架构的改造升级和运维模式的创新变革,为客户及交易规模的高速发展提供了坚实支撑。后续将进一步深化故障预测、容量管理等场景的建设,向无人化运维的终极目标持续逼近,为建设“智慧、开放、共享、高效、融合”的智慧银行信息系统持续发光发热。
(此文刊发于《金融电子化》2024年2月上半月刊)
评论留言