美林技术专家团队 | 大数据分析工具构建智能监测与异常预警

美林数据技术股份有限公司

+ 关注

2022-09-20 14:29

581次阅读

前言：

微服务架构在给我们提供强大业务技术支持的同时，给系统运维管理也增加了难度。传统人工系统运维，主要有以下两个弊端：

⇒及时性比较差，大多都是遇到问题才去分析排查；

⇒微服务架构下应用服务之间关系错综复杂，导致问题排查很难精准找到问题点，过程费时费力。

往往等问题出现了再去排查处理，已经对业务流程产生了影响，严重的可能会阻塞生产过程，造成不可估量的损失。因此如何对程序进行持续监测、自动化分析潜在风险，快速通知相关运维人员规避风险，就成了微服务架构体系下一个亟需解决的重点和难点。

本文详细描述了程序监测和异常预警的架构体系设计，包括程序监测分析方法及异常预警范围。

微服务应用程序部署完成后，保障系统能够持续可靠、稳定，需要考虑两方面影响因素：

⇒环境稳定性。如网络连通性、操作系统配置、内存占用情况、磁盘使用率等；

⇒服务健康状态。如Nginx、Redis、Mysql、Nacos、网关等服务，实时监测服务运行状态，通过监测数据分析服务的健康状态。

通过对环境和服务两方面监测分析，可以明确已经发生的异常和潜在的风险，例如环境配置改变、服务器网络不稳定、服务异常下线、服务负载过高等，将这些异常信息通过多种渠道及时通知运维人员，并提供处理建议和方法指引，快速处理异常，保证系统服务正常运行。

因此，程序监测和异常预警就是来保障系统服务持续可用的两大举措，一方面需要对故障和异常及时发现，另一方面及时通知并提供处理措施和方法，及时处理故障和异常。本文将从架构设计及建设内容两个角度出发来阐述所建设的智能监测体系。

美林技术专家团队 | 大数据分析工具构建智能监测与异常预警 △故障诊断和异常预警导图

系统智能监测与异常预警，主要从三个方面入手，分别是：运行环境监测、服务状态监测、服务性能监测。

一.智能监测

▶（1）运行环境监测

程序运行环境的状况关系到微服务架构中的每个服务的运行状态和可用性。运行环境监测主要从三个方面入手：

1）网络环境：如服务器连通性，检查是否有服务器节点是宕机状态或者网络环境有变化导致主机连通性异常，网络连通性异常会导致服务不能注册到Nacos中或者服务访问不到；

2）系统配置：操作系统配置往往会影响智能运维平台自身功能的使用，如用户名密码被改变了，h2数据库中的密码没有同步修改，会导致远程文件拷贝操作出错；expect等组件缺失会导致shell脚本调用业务失败；ssh连接数、文件句柄数、目录用户权限都会影响文件拷贝的成功与否；

美林技术专家团队 | 大数据分析工具构建智能监测与异常预警 △硬件环境诊断导图

3）硬件资源监控：硬件资源会直接影响服务的执行效率或者直接导致服务不可用，一般从cup、内存、磁盘等方面进行监控。由于cpu、内存、磁盘的使用情况会不断动态变化，因此需要对这些数据进行收集、统计、图表展示，实时监控，通过实时统计，可以分析出来哪台机器的硬件资源比较紧张，如果硬件资源长期处于紧张状态，建议及时处理。比如增减硬件资源配置，或者卸载部分服务，服务迁移等。

▶（2）中间件监测

中间件服务在微服务架构体系中起着至关重要的作用，是微服务产品服务能够正常运行的基础，包括文件共享NFS、代理服务Nginx、内存数据库Redis、关系型数据库Mysql和Oracle、注册中心Nacos、文件传输服务sftp、分布式查询引擎Presto、图数据库Neo4j、文档数据库MongoDB。架构如图中间件架构图所示：

美林技术专家团队 | 大数据分析工具构建智能监测与异常预警 △中间件导图