品牌名称
锦泰保险
企业规模
201-500人

锦泰保险成功案例

341次阅读

锦泰保险IT系统现有核心交换、防火墙、负载均衡设备多台,同时保险行业的主要业务平台基本齐全,它们的稳定运行直接关系到IT系统是否能够正常提供服务,现有监控方式基本靠人员手工进行,人工操作工作量大而且容易造成处理延迟甚至失误,造成不必要的损失。主要的问题集中在以下两方面:在IT运维过程中, IT员工被动低效率手工救火,除了一些基本的网络及服务属性外,由于IT系统的自身特点,许多重要的系统运行状态无法获取, 导致只有当事件已经发生并已造成业务影响时才能发现和着手处理。这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高;缺乏高效的IT运维技术工具,锦泰保险的IT系统建设经过一段时间的发展, 已经具备相当的网络、系统、应用规模,其监控、管理数据也是相当海量之数据,目前的监控管理系统基本都是有其特定的针对性,无法满足构建符合ITSM管理规范的整体运维体系的要求。在这种情况下,该集团采用Netbase全IT架构网络管理系统。对所有IT设备,应用、服务进行集中监控。

通过netbase,实现监控自动化,对重要的IT设备实施主动式监控,如路由器、交换机、防火墙、负载均衡、服务器操作系统、中间件、数据库、业务应用等,通过对上述被监控对象的可用性、性能、日志实现三位一体的主动监控,设定监控阀值、监控策略,实现关键项目监控的自动化;配置变更检测自动化,IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置;维护事件提醒自动化,通过对IT设备和应用活动的实时监控,当发生异常事件时系统自动启动报警和响应机制,第一事件通知相关责任人;系统健康检测自动化,定期自动地对IT设备硬件和应用系统进行健康巡检,配合IT运维团队实施对系统的健康检查和监控;维护报告生成自动化,定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供IT运维的可用性、性能、系统资源利用状况分析报告。

经过与锦泰保险项目人员的充分交流与测试,netbase完全实现了锦泰的各种需求。并实现了radware物理服务器监控,单台设备多websphere实例监控,单台设备多oracle实例监控等特殊需求。

 

Websphere,JDBC连接池的监控

undefined由于锦泰业务处于一个高增长期,无法精确定义性能阀值,我们对此提出了动态阀值BaseLine的概念

BaseLine基线阀值是以天和星期为单位对监控项目过去一段时间的平均监控值进行统计和分析的一种方法,BaseLine基线阀值分为上行基线,下行基线和基线值,上行基线和下行基线是在基线值的基础上网络管理人员设定无故障范围,基线值是对过去一段时间监控值进行求平均值或求最大值。 BaseLine基线阀值的设立有助于对设备未来的发展趋势进行判断和分析,进而做到提前发现问题,进行预警。

随着锦泰保险业务的不断发展,运维人员人数也不断增加,信息部肖总提出,基于以往的经验,大多数故障可能并非安全原因及设备性能原因造成,而是由于内部人员的粗心大意造成(例如出于调试原因修改了设备配置,但是忘记改回来,windows域中管理员组的变动等等),因此如果能够将设备的配置检查及配置对比纳入到监控系统,就能解决大部分类似问题。通过netbase开发部门的共同努力,最终我们实现了juniper,cisco,windows等常用设备的配置对比,一旦线上设备配置更改,管理员们就能第一时间接到通知,大大减少了人为原因导致的各位故障问题。