在当前电力事业信息化应用中,系统运行平台的网络环境日渐复杂,为了充分发挥IT环境内所有网元(网络,设备,计算机系统,数据库,中间件,存储,企业核心应用等)的作用,企业需要有一个好的IT管理工具来对网络和系统进行有效的管理,同时为了形成一套集主机、网络、服务器以及应用(含数据库)运行监控和管理的、面向业务的综合系统,就必须加强信息网络管理监控系统的建设。
系统平台及开发技术
整体来看,管理系统所管理的对象主要包括:主机系统、网络设备、数据库、中间件、存储设备、备份设备、企业核心应用系统等部分。
通过网络监视管理系统对上述管理对象进行集中维护、统一管理。实现对整个业务支撑系统的统一整体管理。可以通过监视屏幕及时了解整个业务系统、数据库、主机系统、网络设备的运行状况包括各项功能指标、性能指标等。系统的整个体系由三大部分构成:数据和控制层、处理层、展现层。
数据和控制层由各个业务系统代理组成:代理层是数据采集和动作执行的核心。Agent是运行在被监控目标计算机上的一些小程序,主要功能是负责采集该系统运行状况、性能等数据,并发送到数据采集分发管理器。
处理层是整个管理系统的核心,包含了数据管理、核心监控、报警、数据存储等部分:数据采集分发管理器的主要功能是从代理收集数据、更新和维护被管理对象状态、命令代理程序层执行相关指令等。并确保把数据分发到数据存储器;数据存储器接收到数据采集分发管理器的数据并进行分类,数据分割拆分存储。核心监控对采集到的数据进行分析处理,分析是否达到报警阀值,是否需要采取处理。
展现层是运维管理系统的用户界面层,展示业务系统的功能指标、性能指标。用户界面把网络和系统中各种对象的关系、配置、状态和故障情况,用图示化的用户接口展现出来。报警手段提供声光、音乐、短信、Email等等多种有效的手段向用户发出警示信息。统计分析是对业务系统进行的业务指标、性能指标进行分析,发现业务系统潜在的问题,防范于未然。
系统主要功能
一般企业对软件要求是具有国内先进水平的系统管理软件,对企业所有服务器操作系统、系统数据库、网络交换机、应用系统及应用进程都能进行监控。运行人员能够随时查看到服务器的CPU、内存、磁盘空间、数据库、进程等方面的详细数据;还可以通过对网卡、交换机的监控,了解目前网络的流量;可以实时掌握目前网络运行的状况。有全面的服务器监测器、网络监测器、WEB应用监测器和企业应用监测,可以对企业信息网进行全面的监测。主要分为几个方面:跨操作系统,远程监测管理;服务器、网络设备监测;应用监测;方便实用;远程报警、故障自动恢复;丰富的报告以及方便实用的用户管理功能。
然而,系统功能主要有几个方面。首先是跨操作系统远程监测管理。系统支持Windows、NT、Linux、SunSolaris、AIX、HpUnix、Cobalt、True64、OpenServer、Slackware、Digital等在内的所有主流操作系统,可以跨路由、跨网段对远程或异地的服务器机群进行集中监测管理。
其次,服务器、网络设备监测:通过使用系统可以7X24监测服务器的各种性能参数(CPU、磁盘空间、内存、服务、进程、网卡流量等)和网络状况(Ping、Port、网络设备接口流量等),同时采用标准的SNMP协议对各种网络设备进行监测,包括网络设备接口状况、CiscoCPU、Cisco配置文件、F5、CheckPoint、Netscreen防火墙等。通过这些监测,用户可以及时发现问题,快速定位查找解决故障,区分故障发生的原因,给客户抱怨一个合理的解释;同时系统可将客户所要求的各种性能监测报告自动发送至客户指定邮箱。
然后是能对Web网站所有相关应用进行监测。需要软件内置各种Web应用监测器,如:WebServer、IIS、Apache、Iplanet、DNS、FTP、URL、URLTransaction、Websphere、Port、F5(LoadBalance)等,可以很好地对Web网站进行监测。
同时,实现远程报警,具有自动恢复功能。系统通过监测器在监测到故障或者故障隐患时,会通过灵活多样的报警方式(语音电话、手机短信、电子邮件、),将警报发送到相关责任人,实现运行维护责任的明确分工;同时,还可以根据预先定义,对常见故障自动进行相应的故障恢复。
而且自动统计报表。系统提供的强大的报表分析功能和灵活多样的图表报告功能,非常方便生成实时的和历史的报告,并可以打印、导出,为网络管理和规划提供可靠的理论数据和依据,能够自动组合监测数据,生成针对监测对象实时的或历史的报告和报表,帮助管理人员通过历史数据分析设备的运行趋势,为IT系统管理的长期规划提供依据。
还有就是方便实用的用户管理功能。管理人员可以为每个用户设立一个管理帐号,并设置许可规模、期限以及管理权限。这样,用户就如同自己单独使用该系统,通过它来远程管理自己的服务器及其应用。同时具备完备的安全设置:数据采集、传输支持HTTPS和SSH加密协议。用户登录系统除需输入指定的用户名和密码外,还可设定只允许指定的IP地址进行远程登录。
当然,软件具有Web界面、远程管理功能。要求能通过软件,管理员可以在指定的一台机器上浏览管理界面并进行配置。管理员可以远程浏览管理系统并进行配置,掌握信息网运行情况。
另外,构建服务器、应用拓扑图。系统能自动生成拓朴图,用户可以调整定置图,通过拓扑图可以直观看到整个信息网设备的运行情况,一旦系统或应用出现故障,故障设备立刻会变成红色、发出报警,实时直观地反映整个网络设备的状况,而且可以直观地反映服务器、数据库、应用进程等各种应用的运行情况。
总之,系统特点包括,首先是采用集中非代理式的完全自动化监测方式。从一台监测主机可同时监测不限点数的服务器、网络设备及其应用的各种关键参数,在被监测对象上无需安装任何代理软件,对被监测对象的性能影响甚微,系统的维护和升级都十分方便。通过模拟运行维护人员的日常操作行为,实现对网络状况的7*24小时不间断实时监测。
其次方便实用的设计理念。系统被监测客户端的安装不到15分种即可使用,功能强大,操作却十分方便。采用全中文的界面和帮助,提供本土化的技术支持和服务,只要具备基本网管常识,无需任何专门培训,就可轻松管理网络。
还有就是开放式的API接口。系统提供的开放式的API接口,可以让网络管理人员十分方便的添加自身系统独有的特殊监测器,从而满足用户特有的监测需求。
系统的实施效果
一般企业的技术人员可以通过三个月的时间开发适合企业的网络平台监控系统,实现企业近200台网络设备、20台小型机、70台PC服务器及相关数据库、中间件的自动化监测管理。针对企业集中式系统运维的需求,系统可以提供具体的解决方案。通过自动生成的拓朴图全面掌握系统性能。
首先是服务器及相关数据库管理。系统实时地对服务器进行监测,定期对服务进行分析,降低服务器故障,不断提高服务器性能。支持对Windows、Unix、Solaris、AIX等相关操作系统的服务器的CPU使用率、内存使用率、磁盘利用率、服务、进程运行状况、目录、文件、日志等进行集中监测管理,同时也实时对ORACLE、SQL数据库进行运行监测。
其次是网络设备管理。通过监测网络设备是否可用、各端口流量、性能如何、CPU、内存使用情况、配置文件是否被修改、是否有异常日志及有没有人非法登陆等,确保网络系统的正常运行。
还有就是WWW服务管理。系统通过定期登录指定的URL,验证这个URL是否能被正常访问,同时可以对该页面的内容进行校验,防止页面被人恶意修改,从而确保不同WWW服务的质量。
通过系统的实施,不仅能进一步提高企业各个业务信息系统的运行质量,为企业日常管理工作能正常持续运行提供有力的保障,同时也大大降低了系统监控的运行维人力支持。技术支持人员有更多的时间提供应用支持,间接提高了各业务系统应用的满意度。
随着电力信息化的发展和国网公司“SG186”工程的推进,电力系统的信息安全也日益被重视,一是信息安全,二是网络安全,其中网络安全主要从网络层面考虑,指的是使信息的传输和网络的运行能够得到安全的保障,内部和外部的非法攻击得到有效的防范和遏制。信息网络和信息系统的硬件、软件、设备、数据需要受到可靠的保护,通信和访问等操作要得到有效保障和合理的控制,不受偶然的或者恶意攻击的原因而遭受到破坏、更改、泄漏,系统连续可靠正常的运行,网络服务不被中断。在信息系统安全中,人始终是一个重要的角色,由于信息管理部门的技术维护力量远不如生产线上人员的配备充足,每个人维护的信息设备数和需要具备的维护知识的要求相对较高,在传统模式下可能就会出现造成信息系统安全的问题。通过网络管理监控系统的建设,将每个人运行维护知识都在系统中得以体现与固化,并通过系统设置可以交流与确认。通过整合、完善、改建和新建的监控方法,统一并规范的实现各系统及设备监控的自动化,也实现了监控数据共享与交流,也极大提高信息运维工作的质量与效率。将使企业的信息管理水平在信息系统统一监控实现自动化的推动下上了一个新的台阶。