云智慧帮助国网电商打造智能运维分析服务平台
客户介绍
国网电子商务有限公司(国网金融科技集团)是国家电网有限公司的全资子公司,成立于2016年1月。在2018年7月,按照“两块牌子、一套人马”运作,实行“一体两翼”的管理模式。
国网电子商务有限公司聚焦电子商务、金融科技、数字经济三大领域,抢抓电网与互联网深度融合发展机遇,以新立足、以快制胜,全面建成“电e宝、国网商城、国网金融科技、国网新能源云、国网商旅云、跨境电商、综合能源服务共享平台、大数据征信平台和国网双创”九大平台。
客户痛点
1.各系统监控的指标和告警相对独立,无法进行关联分析;
2.系统调用关系不清晰,当系统发生故障很难定位是哪里出了问题;
3.无监控指标体系标准,缺乏指标分类分级,哪些指标异常表示系统故障不清楚;
4.缺少指标分析和自动检测,缺少故障预判和预警功能;
5.故障和问题往往是由用户或运营团队发现,缺乏主动性;
6.缺少系统运行现状的大屏展示,无法直观了解IT资源和系统运行的状态。
解决方案
方案以打造全局监控及智能运维平台为基础,满足数据采集技术、大数据存储技术、大规模数据离线计算分析、异常检测技术、故障诊断和分析的需求,实践平台化思维,充分利用现有监控资源,实现复杂业务模型下的异常检测、故障定位、决策分析支持,并构建一套完整的技术生态体系,提升整体的运维服务能力。
对系统应用架构设计的简要说明如下:
1.数据源:Zabbix/综合网管、网络质量监控、透视宝APM、logstash/Elasticsearch、拨测工具(监控宝);
2.运维大数据采集层和数据传输层:与各类监控平台对接,获取生产环境资源数据、指标数据和告警数据,同步自行采集应用系统的相关运维数据;
3.运维大数据实时计算层:对采集的数据进行数据清洗、数据聚类、指标运算等操作,以保证数据满足实际功能需求;
4.运维大数据存储层:建设数据存储层,将生产环境基础资源数据、关键指标数据、告警数据放在存储层(大数据数据湖和监控平台数据湖)统一长期存储;
5.服务层:集成各类告警、性能及IT运营数据,构建各类数据主题和定制化数据,并提供实时消费服务能力,同时具备开放的接口服务能力;
6.计算层:通过数据分析、数据建模、机器学习等人工智能技术,基于历史运维大数据进行数据分析、模型训练,最终实现对实时在线运维数据(数据实时运算库)的关联分析;
7.应用展现层:基于对运维大数据的智能分析,针对具体的主机、网络设备、应用系统、业务场景和运维场景,形成运维人员视图,并提供异常检测、故障定位、决策支持以及分析预测等支持;结合实时分析告警和自动化化的运维操作,通过开发可视化的页面或大屏的形式实时展现业务系统智能运维的关键指标,第一时间发现异常情况,辅助运维人员进行运维决策和自动化处理。
通过对客户方运维体系的充分调研,形成专业运维指标数据库,指标数据管理的目标是使组织能够将指标数据作为数据资产进行统一管控,并提供指标使用原则、指标管理制度、指标应用流程,指导在指标全生命管理周期过程中各组织层级的活动准则。
价值
1.方案在行业客户实践-效果概览,提供应用视角资源依赖关系,将指标、告警集中起来,打破运维筒仓;
2.方案在行业客户实践-应用系统健康概览,从业务视角出发,实现了应用层→服务层→JVM层→主机层→网络层的监控;
3.方案在行业客户实践-业务服务组件的整体运行状态,对应用进行多维度指标采集,通过数据聚类,形成应用系统画像;
4.方案在行业客户实践-应用各组件在JMV层指标的健康状态,通过穿透式下钻的分析方式可以快速锁定影响应用性能的根源,快速锁定问题;
5.仪表台可以对比服务中实例的运行状态,对业务系统以及其下层的支持服务提供清晰的性能可视视图。