it运维管理案例

2024-08-01

it运维管理案例（通用8篇）

it运维管理案例篇1

定义

IT运维管理包含内容

运维员三大法则

在网络的基础设施建设完成之后，整个网络处于运行状态，IT部门采用相关的管理方法，对运行环境（包括物理网络，软硬件环境等）、业务系统等进行维护管理，我们把这种IT管理的工作简称为IT运维管理。

IT运维管理包含内容

IT运维是IT管理的核心和重点部分，也是内容最多、最繁杂的部分，主要用于IT部门内部日常运营管理，涉及的对象分成两大部分，即IT业务系统和运维人员。其管理内容又可细分为七个子系统：

第一、设备管理：对网络设备、服务器设备、操作系统运行状况进行监控，对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理，如邮件系统、DNS、Web等的监控与管理；

第二、数据/存储/容灾管理：对系统和业务数据进行统一存储、备份和恢复；第三、业务管理：包含对企业自身核心业务系统运行情况的监控与管理，对于业务的管理，主要关注该业务系统的CSF（关键成功因素Critical Success Factors）和KPI（关键绩效指标Key Performance Indicators）；

第四、目录/内容管理：该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理；

第五、资源资产管理：管理企业中各IT系统的资源资产情况，这些资源资产可以是物理存在的，也可以是逻辑存在的，并能够与企业的财务部门进行数据交互；

第六、信息安全管理：该部分包含了许多方面的内容，目前信息安全管理主要依据的国际标准是ISO17799，该标准涵盖了信息安全管理的十大控制方面，36个控制目标和127中控制方式，如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等；

第七、日常工作管理：该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段IT运行维护管理的每一个子系统中都包含着十分丰富的内容，实现完善的IT运维管理是企业提高经营水平和服务水平的关键。

运维员三大法则

it运维管理案例篇2

基于数据集中业务系统运营模式的需求,制定了运维监控管理系统设计架构。方案主要是对业务系统等进行IT运维主动监控管理,优化关键业务服务的可用性和性能,在问题发生之前及时应对问题并解决问题;同时通过对业务应用的监控,及时采取有效的措施。值得一提的是采用监控器,可以逐屏重放问题发生时用户的每次行为,包括用户看到的任何错误信息。这有助于维护人员利用Web界面,快速锁定问题,及时解决。

1. 运维监控系统建设的目标

运维监控系统建设项目的总体目标是从业务的角度实现全行IT资源的整体监控,并通过制定相应的流程规范来合理、高效的调配资源,使IT管理架构与全行业务系统的管理架构相统一,使IT系统的运行维护工作能够在统一的管理平台下进行。

2. 运维监控系统架构设计

如图1所示,运维监控系统主要划分为三个层次:信息汇聚层、信息处理层和信息呈现层。

第一层信息汇聚层主要实现对网络及应用系统信息的采集,并将采集到的信息统一成标准格式,汇总到信息汇聚平台中,实现信息的初步整合,为下一步信息的关联分析及故障定位提供准确的数据。

第二层信息处理层接收到从信息汇聚层采集到的原始信息后,再通过调用业务管理模型,实现对采集到的原始信息的关联和故障根源分析,并将分析的结果传送给实时监控系统和流程系统。

第三层信息呈现层接收从信息处理层获取的故障根源信息,在实时监控系统上准确反映出业务的运行状态,并通过流程管理系统快速实现对故障信息的处理和解决。

3. 信息汇聚层

对于整个系统架构来说,信息汇聚层是整个系统的基本数据来源的保障,信息汇聚层实现对网络及应用系统信息的采集,通过收集来自基础设施(ICT)内各部分的管理信息,并将管理信息标准化为通用的格式,实时保存入高效的内存数据库(事件管理器Alarm High Performance Warehouse)中,为上层逻辑分析提供信息基础。其功能涵盖:故障信息采集、性能信息采集。

3.1 故障信息采集

通过接收IT基础设施发送的标准日志,同时辅以主动对设备的信息进行轮询,将所收集故障事件发送给探针,经过探针的预处理后,提交给事件管理器进行统一处理。

对运行在服务器的中间件、数据库以及应用进程的监控,主要是通过在被管理对象上安装监控程序的方式,通过设置监控关键检查点来对关键进程和服务进行监控,把所监控到的信息发送到采集模块。例如在监控服务器的磁盘、进程、数据库等状态时,把故障信息转化的信息进行接收分析,提交事件管理器。

3.2 性能信息采集

网络性能监控对单位网络运行状况进行监控,通过性能管理,可以判断网络的运行质量、运行效率、流量流向以及连通率水平等,使其更加高效、稳定地运行。网络性能监控制定性能测量的标准和手段,分析网络服务的趋势和行为,在发现性能下降时立即报告,使管理员及时采取措施进行处理。

4. 信息处理层

信息处理层是根据信息汇聚层所采集到的信息,按照业务模型规则定义,通过信息处理层加以关联、处理,使得相互无序和不同类的事件,通过事先定义的业务模型规则,对汇聚层所采集到的信息进行根源分析和处理,达到故障定位的目的。

4.1 信息关联

信息关联是指在信息事情,应该与第三方管理数据有逻辑联系,任何故障从理论上来说,都应该与单位配置数据库中的信息有逻辑关系。信息能否正确的被引用和被分析,其重要的来源就是信息关联的程度,因此信息关联在整个系统中处于基础且重要的部分。

4.2 信息丰富

网络设备报告的事件信息,一般只有针对设备本身的参数。在实际管理中,需要获取更多的信息,如该设备所在的位置、联系人、线路名称等。可以根据事件的原始信息,找到该设备相关的管理信息,并将新获取的设备信息作为事件的新字段,从而在系统逻辑高级层面得到的信息是物理描述和逻辑描述相结合的信息。

4.3 故障等级判别

故障等级判别来源于两个方面:初始故障等级判别和逻辑故障判别。初始故障等级判别是根据信息汇聚层收集上来的事件,根据默认的规则定义进行故障级别定义;事件收集上来后,根据逻辑定义和规则处理后,通过Alarm High Performance Warehouse中的Automation自动引擎,根据逻辑规则表中的定义,对故障事件进行分析和计算,经过事件关联和事件处理后,得出的故障等级判定,最终将结果修改至故障等级中。

5. 信息应用层

呈现层主要是提供用户关联、系统的统一认证,使得信息从汇聚层收集到数据库中,经过处理层的规则引擎之后,系统进行呈现。主要包括的模块有:告警管理、集中呈现、分权管理,流程管理、报表管理以及知识管理。

5.1 集中呈现系统

集中呈现包括流量报告、报表管理、信息发布管理和监控平台。系统支持根据网络管理进行分权:可提供按照职能分权、按照地域进行分权、按照逻辑管理视图给予分权等。集中呈现系统(Proton/Portal),可以按照客户自主的想法构架其页面视图,在统一的呈现界面上,用户可以自由定制自己想要的功能视图。

5.2 信息发布系统

信息发布系统能够为IT部门员工之间的技术交流提供渠道,整个系统前端呈现使用的是基于Web方式实现,用户可以通过网络使用任何浏览器来进行浏览,同时系统具有文档发布的功能,可以方便的提供资料中心下载服务,具备文档发布、内部交流、在线讨论等功能;系统的后台使用标准的数据库,能够对讨论的话题和交流的话题能够进行保存,方便日后的查找和维护。

5.3 状态监控系统

状态监控系统提供基于Web方式的管理界面,允许用户通过浏览器方式查看业务运行状态和告警信息。状态监控系统支持界面的个性化定制。能够自定义监控视图,改变监控视图的内容。

5.3.1 流量报告

流量报告提供多种参数,例如端口的错包率、端口的丢包,同时还可以自定义流量图形,方便管理人员进行比较分析,为流量管理作出正确的判断。

5.3.2 报表管理

报表管理使用的Report Temp的报表模块,该报表产品可以进行灵活的定制,使用Java Plugin控件,定义灵活的报表,支持可视即可得,可根据用户需求,提供形式丰富的性能和故障报表。报表系统可以根据用户的设置,定期的发送报表、或发送报表链接。

5.3.3 通知发布

状态监控系统具有通知发布功能,既提醒功能。方便地与第三方进行集成,在本系统中,具有如下的功能组:

故障告警提醒可以设置定制告警策略,例如,根据设备、发生时间、描述、事件类型、故障级别等等,来定制故障告警的提醒的过滤条件。

公告发布提示BBS中的通告模块提供当管理人员在信息发布系统中,发布一份公告,技术人员将都收到相应的消息,以便公告能够发布及时的发布到相应的技术人员。

任务通知通告模块能够与第三方管理软件进行接口,与流程管理协调工作,承担任务通知功能,例如当流程管理系统中,存在一条新的或未处理需要该技术人员处理的事件,系统将会告知管理人员,以便提醒即时处理该处理的任务。

短信告警可以定制短信告警策略,例如,根据设备、发生时间、描述、事件类型、故障级别等等,来定制故障告警的提醒的过滤条件。

5.3.4 监控平台

基于Web方式的管理界面,允许用户通过浏览器方式查看业务运行状态和告警信息,支持界面的个性化定制。监控平台可实时监控包括网络状态、设备状态、业务主机状态、链路状态、性能管理、流量管理等信息。

5.4 统计分析系统

统计分析系统在整个系统的三层架构中,跨越信息应用层和信息处理层,其主要承担的是对信息处理层规整后信息做数据分析,数据计算,数据整合,统计报表的生成,统计报表分发统计报表导出。统计分析系统分为四个模块:维护控制模块、计算处理模块、数据接口模块及报表。

5.4.1 维护控制模块

维护控制模块是统计分析系统的人机交互界面,是内部程序的行为定义和数据源引用定义的控制界面,提供数据统计规则,数据挖掘规则的定义,以及报表模版的配置管理界面。在维护控制界面中,可定义数据的存储过程、数据的引用源、数据的规整规则、数据报表风格、数据报表的分发、函数的定义、脚本的定义等,通过维护设定,统计分析系统将会根据设定的东西运行,保障计算处理模块和数据接口模块的协调运行。

5.4.2 计算处理模块

计算处理模块是统计分析系统的核心程序,是定义数据如何运作如何计算的计算引擎。该引擎维护的是数据计算的正确性,把数据计算顺利正确的给予运行和调用。在数据计算处理模块中,调用的处理规则都独立和抽象出来,作为函数和功能进行描述,用户根据自己想要的结果,选择计算组合,从而达到报表数据的要求。

5.4.3 数据接口模块

数据接口模块是支撑维护控制模块和计算处理模块的数据源的由来,作为数据接口,定义的是存取数据的行为,存取数据的方式,存取数据的类型,存取数据的转化的。数据接口模块支持多数据源的接入,支持的格式有XML、标准数据库(Oracle、Mysql、Sql Server等)、文本文件(TXT)以及Excle等数据文件格式,使用通用的接口定义模式,去引用数据源,保证数据的正确输入输出。

5.4.4 报表VIEW

报表VIEW是统计分析系统的浏览报表工具。系统根据报表模版和信息处理规则自动生成各类报表,根据配置设定格式分发到各个用户。用户也可以使用报表VIEW,以Web方式浏览报表。报表VIEW支持参数输入,模版选择,报表导出。

5.5 诊断工具系统

诊断工具系统(Proton-Tools)是为了使用本系统的技术管理人员,能够方便的快速通过系统中自带的诊断工具,发现问题和解决问题,从而提高运维工作的高效率。

平台的搭建,使得IT运维人员真正将IT资源设施纳入管理范围,切实满足业务系统运维管理的需求。

参考文献

[1]付庆华.一种基于ITIL的商业银行IT运维管理系统设计方法.北京:软件导刊,2008.

[2]张建伟等.基于ITIL的服务台管理系统的分析.河南:计算机与通讯,2010.

it运维管理案例篇3

AMT集团源天软件:

邱兢华东公司总经理

邵立人市场部经理助理

于耀东高级客户经理

一.要么转型,要么破产

中国电信是国内电信运营业的“百年老店”,从诞生初期的“皇帝的女儿不愁嫁”到与中国移动、中国联通“三分天下”,再到今年年初成功抢得国内三张3G牌照之一,并在美国《财富》杂志评选的2009年500强企业榜占据263位,中国电信的发展经历了多次痛苦转型。

无论是固定电话、移动电话、互联网、2G、3G还是附著其上的诸多增值服务,在中国的信息高速路上,中国电信和这些创业者们一路超速狂飙,创造出一个又一个电信奇迹。在他们高歌猛进的同时,电信行业这条车道却在不断地变道,从一车道到七车道,一会是五车道如今又成三车道,一不小心就会被挤出赛道。

09年初,中国电信又迎来了新一轮转型,不过要说这次转型是3G牌照的发放敦促了电信业重新改制,不如说是中国电信主动迎向挑战。与中国电信04年被移动业务挤占了固网用户而被迫转型的尴尬处境不同,这次中国在3G业务推出之前就开始了抢占市场先机的准备。电信人认识到:“如果过分依赖于某种产品的收入,当其生命周期过去,就会有很大的经营风险。” [1] 只有再次业务转型才有出路。

居安思危,谋定而后动。

3G发放之后,电信业将很快迎来2G与3G的市场拼杀,对于运营商来说,这不啻是一场残酷的生死较量。如何在市场中取得先机,稳步推进3G业务,避免恶性商业竞争?运营商应该按照用户已有的、潜在的需求,分阶段来推进3G业务。他特别强调,多样化的信息化解决方案,可以推动3G与城市管理、电子商务、数字娱乐等产业的融合创新。

中国电信长江研究院(化名)的管理者已经意识到,真正持久的商业成功不可能仅仅是个人的成功,也不是一时得势的成功,而是企业商业模式的胜利。虽然在通信行业,框架是国家定的,但是企业的发展却最终取于决市场和消费者。普通老百姓会选择最便宜、最高效、最科学的资讯业务,他们的选择和政治无关。而作为电信研究院,更应把握到这一市场走向,积极规范电信业务的管理和实施。这不是简单的新产品开发式的炒作,而是真正延长企业寿命、提高业务质量、增强核心竞争力的必由之路。

二.做你最擅长的, 其余的外包

西方管理学之父彼得•德鲁克曾预言:在10年至15年之内,任何企业中仅做后台支持而不创造营业额的工作都应该外包出去。“做你最擅长的,其余的外包!”已经成为欧美企业并将成为国内企业最重要的生存法则之一。

IT运维不是中国电信长江研究院的长项,怎么办?把不擅长的IT 运维外包出去?电信研究院的管理者想的却远不止这些。IT运维不仅仅是企业一个重要的支持业务,更是企业管理能力升级的一个良好契机。如果把企业的信息化建设工作简单地交给一个专业软件公司来做,那么信息化很可能仅仅停留在公司业务表面。而管理系统真正迷人之处不仅仅在于让业务上线,或者实现异地办公,优秀的管理系统能够成为企业的智库为管理者提供决策支持。将公司的管理层级扁平化成一层薄薄的数据。

由于缺乏经验,一开始找的IT 运维外包公司的产品让中国电信长江研究院十分失望。总结经验之后,电信研究院的管理者们认为:

首先,选择外包IT服务来支持其业务的公司,比没有进行IT外包的公司,成本更低且运行效率更高。所以IT外包服务一定会给企业带来更多的收益。IT外包的思路是正确的,这一点不容置疑。

其次,专家研究和大量企业实践表明,在IT项目的生命周期中,大约80%的时间与IT项目运营维护有关。 Gartner Group的调查也发现,在常出现的问题中,由于技术问题或产品(包括硬件、软件、网络、电力失常及天灾等)方面的其实只占20%,而流程失误方面的占40%,人员疏失方面的占40%。流程失误包括变更管理没有做好、超载、没有测试等程序上的错误或不完整,人员疏失包括忘了做某些事情、训练不足、备份错误或安全疏忽等。

所以,如果电信研究院选择的软件公司对客户所在行业业务了解不深、软件公司的服务肯定也很难做到非常专业;如果按照各软件公司的专长来做电信的各类管理系统,不同的管理系统“各自为政”,那么在上线之后管理系统很容易成为“鸡肋”:不仅不能实现对企业核心业务的有力支援和保障,还会在不同部门之间引发员工的矛盾、增加业务流程的复杂度。对于中国电信长江研究院来说,选择一家管理软件产品多但是成功率低的软件公司绝对不如选择一家在电信行业有一定积累、实施成功率高、二次签约率高的软件公司来得更有保障。

最后,单纯专注管理软件研究开发的软件公司可能不能很好地理解中国电信长江研究院管理的要求。电信真正需要的是应该一家拥有管理咨询背景的软件公司。从公司管理状况的诊断开始,一步一步完成管理系统的前期调研、设计以及上线。

当实施IT管理咨询和系统实施的思路被梳理出来以后,中国电信长江研究院召开了第二次招标。AMT集团旗下的上海源天软件有限公司提出:一套完整的企业的信息化建设工作应该包括以下内容:信息化规划(咨询)、设备和软件选型、网络系统和应用软件系统建设、整个系统网络的日常维护管理和升级等。当IT运维项目建设完成之后,中国电信长江研究院完全可以把主要精力投入到专注产品开发和业务研究中去,而把IT运维这些支持业务交给源天来做。源天会以“保障研究院办公网络及各应用系统的正常运作,让研究院员工享受有效、快捷的 IT服务,为提高工作效率创造良好的IT环境。”做为此次 IT运维项目的宗旨。

三.挑战IT外包极限 ——IT运维内容介绍

强有力咨询背景是完成此次中国电信长江研究院IT运维项目的有力保障。但对于中国电信长江研究院这样一家拥有数百名科研人员的高科技企业来说,无论业务上的转型还是管理上的转型都不是一件轻松的事情。要推IT运维系统,面对的阻力如下:

1.研究院自成立以来,科研成果和开发项目屡获部级和某市优秀科研成果奖,一大批拥有自主知识产权的科研成果在集团内得到广泛应用。研究院在科研开发上的成功无疑也是管理模式的成功。要改变已经被市场证明有效的管理模式肯定要冒一定的市场风险。

2.管理转型意味着全院科研人员需要改变原有的工作习惯,虽然全院科研人员的平均年龄较低,但是也包括一批年纪比较大的电信行业资深专家学者,要他们学习并适应这套新的IT系统,而且是包括项目、文档、外部网站、一卡通、门禁等等一系列的IT管理项目肯定需要一段时间。

3.中国电信每年大量的新品研发和老产品维护一直依赖mail和书面工具来进行需求汇总和审批。原来上的 IT运维系统不尴不尬地夹在中间,废旧立新工作不能影响正在进行的研究开发工作。

4.不招人喜欢的员工门禁、考勤、终端控制等IT项目。虽然考核不仅能够避免人为因素干扰,而且还能促使员工自觉提高。但因为涉及员工的利益,很多人会因为担心考核对自己的不利影响而默默抵制。

根据这些问题,源天提出的解决办法是:首先,管理模式上仍然保留中国电信长江研究院原有的管理模式,IT管理系统仅作为辅助工具,梳理出管理流程图,以流程节点为单位要求员工提交相信的资料文档,据此提高管理中各项工作流程的效率。由于这种模式本质上还是原来的管理方式,把员工对新管理模式产生排异的可能降到最低。

其次,针对实施中可能存在的阻力,电信研究院管理者们认为应该逐步推进IT运维的实施。系统梳理IT运维中的步骤,有策略地组织不同功能模块上线。先从知识管理开始,在该模块实施成功后再进行下一个项目管理的实施。这样既为科研人员适应系统留出了时间,也让系统上线后可以根据电信研究院的需求进行技术测试、灵活修正有了保证。

再次,重新梳理、备份研究院的文档资料。把项目资料系统整理并重新录入到IT运维系统中去。

最后,针对员工中可能出现的抵制情绪,堵不如疏。在考核系统上线前应和员工事先沟通,要让员工认识到:绩效考核制度不管如何变革,重点对象都是广大员工,所以没有广大员工的理解与支持,一定不能够很好地执行。而且绩效考核对于员工来说绝对是利大于弊,公司公平审核体系一旦建立,同工不同酬或者工作安排不合理奖惩不透明等情况都将极大改善,其实员工才是考核最大受益者。

经过与源天软件公司的充分沟通并结合中国电信长江研究院当时的转型需求,源天软件把电信业务分成了五期。

第一、二期以源天软件最擅长的知识管理、项目管理系统打头炮;第三期、第四期在协同知识管理平台成功实施后向资产、财务统计管理系统上进行深化应用。在第五期提供全面IT运维服务。

经过梳理,中国电信长江研究院第五期的IT运维项目主要包括以下内容:

办公类

1.1研究院外部网站系统

1.2外部邮箱维护管理

1.3研究院 OA 管理系统

1.4研究院 PC/笔记本电脑桌面系统

1.5研究院 sap系统

1.6研究院知识管理系统

1.7研究院图书管理系统

安全类

2.1研究院门禁系统

2.2研究院考勤系统

2.3研究院 VPN 远程办公系统

2.4EAD终端接入控制系统运行维护服务

2.5研究院 Symantec杀毒系统

2.6安全和病毒公告

2.7院领导PC/笔记本及各部门打印服务器巡检

会议

3.1研究院4楼三院互联视频会议系统

3.2研究院1801新视通视频会议系统

3.3.研究院电话一呼通会议系统

网络

4.1研究院OA网络

4.2.研究院OA无线网络

4.3研究院100M半C公网

4.4研究院实验室骨干网络

4.5研究院电话/ADSL网络

4.6研究院2M传输链路

应用服务器

5.1应用服务器维护服务

5.2服务器安装

其它

6.1研究院实验室机房管理

6.2研究院内部信息化资产管理

据不完全统计,此次IT运维项目涉及七个功能大类(办公、安全、会议、网络、应用服务、备品备件、实验室),共计27个细项的内容。几乎囊括了电信研究院除业务之外的全部管理信息化需求。项目需要对电信研究院几十台高端服务器,数百台网络交换机、数千台桌面PC电脑进行管理。

这不仅对电信研究院来说,是一个囊括了所有管理业务的重要外包,而且对源天软件来说也是对整个组织管理系统整体IT外包业务的首次尝试。在电信行业领域内,更是一个IT运维规模的突破。

四.服务的提供方式

外包服务的提供方式

上海源天软件有限公司提供一名全职的IT外包经理和5名全职专业运维工程师常驻服务地点,为中国电信长江研究院提供现场服务。

上海源天软件有限公司提供的服务方式:

1、IT故障保修热线:5875****;

2、电子邮件支持;

3、现场负责人移动通讯工具;

4、上海源天软件有限公司提供5×8小时技术支持及故障受理、处理和解决服务。

外包服务的质量控制体系

为了保证研究院能够得到优质、高效的技术支持,并与用户保持紧密的合作关系。要求IT维护服务外包公司通过以下方法来实现对IT 服务的质量控制。用户服务请求记录与跟踪规范为了对提供给用户的解决方案进行有效质量跟踪与分析,沿用了微软在技术支持方面的经验,严格要求所有技术支持工程师必须详细、详实地记录维护日志。维护日志主要包括一下日志必须包含以下内容:

1) 用户的姓名

2) 电话

3) 负责工程师的姓名与联系方式

4) 服务起止时间

5) 问题分类

6) 问题描述

7) 给出的排错步骤以及结果

8) 最后的解决方案

9) 用户的所有反馈

11) 用户满意度

技术主管定期通过维护日志,对工程师给出的解决方案与问题解决进度进行考核,以此对工程师的技术水平,服务质量进行考察并给出改进建议。

维护服务承诺

中国电信长江研究院要求的IT维护服务时限:

上海源天软件有限公司承诺,针对客户的需求,5分钟响应。

需要到达客户现场的服务,上海源天软件有限公司在限定时间内到达现场。如有特殊情况,双方协商确定。

用户需签字和满意打分。

建立客户随机抽样回访机制,提高客户服务质量。

建立完整文档管理机制,并登记IT服务请求处理信息和维护巡查信息,保证各项业务稳定运行。

定期提交维护报告。

全院信息化维护满意度85分。

全年各IT系统、网络、应用中断时间<60分钟。

遇特殊紧急事件,双方协商确定。

五.两支队伍,一个目标

IT业务外包了,中国电信长江研究院还需要自己的IT队伍吗?

一个外包项目的成功需要多个员工,包括那些了解和熟悉业务的人、擅于与客户建立并维持好关系的人。而对于一个长期的IT运维业务来说,监管和维护人员非常重要,虽然软件运营商能够提供企业或缺的IT运维系统,但是在实施过程中,如果过分依赖外包服务运营商,企业将面临无法掌控业务的危险。

事实上,在中国电信长江研究院IT运维项目正式开展以来,该电信原来的IT部门组成了一支2人的外包协作队伍和源天的项目组一起工作。在当IT运维系统整体上线之后,这支队伍还将继续负责电信的IT运维系统的维护。

中国电信是信息运营业的“百年老店”、中国电信行业的“母体”、并具有从传统固网运营商到现代综合信息服务提供商的经历,在IT维护这块并不缺专家,所以在合作过程中,源天软件并不需要负责对电信的IT业务人员进行运维业务的培训。那么这两支队伍是如何在一起并肩战斗?

首先是一致的目标,中国电信长江研究院的IT团队和源天软件的项目组都有一个共同的心愿:把IT运维项目做好,成为行业的标杆。虽然双方的出发点不同,但是一致的目标无疑是双方的合作基础。

其次是深厚的合作基础,在IT运维项目之前,源天软件与中国电信长江研究院已经有了四期的合作经历。早在知识管理协同平台项目中,由于系统要求规范上传文档,要登记工作进度,让研究员非常不习惯。为了让研究员们习惯并喜欢上源天协同知识管理平台,源天的实施人员就在系统中加了很多可以自助的资料,比如电子图书馆、文档规范模板等,这样系统可以比较方便地检索和上传。此时电信的IT人员也积极地与源天软件合作,帮助测试网速、服务器运行和数据备份等。双方长达半年多的磨合期让两支团队在后期的合作中沟通顺畅。

然后是明确的职责分工,在项目中,源天软件的顾问和开发人员是项目的执行者和建议者。电信的领导和IT 部门是项目的管理者和监督者。明确的职责分工是规范合作的前提。

最后是共享的需求营造了长期合作的纽带。源天软件的公司文化核心“共享”,在双方合作中两个团队互相分享IT运维项目中的需求、经验、知识。慢慢在双方的合作中形成了一个良性的共享圈子,让双方的长期合作关系更加牢固有效。

银行IT运维管理的心得篇4

银行运维的压力非常大

• • • 随着金融市场的开放，银行业的风险控制会面临挑战，风险管控优先级要放到最高。尤其是系统风险的的防范，要使用先进的方法论和工具，须做到精细化的风险管理。银行的科技部门压力很大，业务不断增长要求IT持续满足业务需求,系统多，耦合多。一个新系统的建设往往要设计多个系统，各个厂家之间无法协调，问题经常出现。现在银行的系统的建设非常困难。基本上所有需要的系统都了。但是可能不太好用。主要是系统升级，或者部分新的系统的建设。这些都涉及和其他很多部门，系统的关联。系统的上线也需要非常长的时间。• 公司内部共有约上百个系统。系统越来越多。工作越来越多。不象以前可以简单地上一个新的系统，几个月搞定，很有成就感。现在不仅没有，担心的事情，调节的事情一大堆。• 现在有很多公司给银行提供IT产品和服务，选择看似很多，但实际看来做好一个系统确实越来越难，希望各个厂家要充分理解客户和客户的需求，有创新的想法和做法提供到用户，而不是只是关注自己产品和服务本身，这样双方的合作才能可持续发展。• 开发商方面的人员变动非常快，营业和技术人员。刚刚熟悉了，找到了一个好的开发团队，转眼人不在了。现在上一个新的系统，不仅要确认这个公司如何，这个项目经理如何。如果这个公司或者这个项目经理不好，也不能用。• • 数据集成和治理：系统复杂而分散造成数据分散和标准各异，经常无法得出一份权威的报表，矛盾凸显。需要花大力气进行数据的管理。

业务部门不理解科技工作，科技人员不大懂业务，往往会造成沟通困难，项目实施进度缓慢。一个经验是让科技人员到不同的业务部门轮岗，让他们熟悉业务。做项目时，这个人就是部门协调人。• •

但是运维系统很难上

• • • • • IT部门主要应对业务部门的要求，开发了很多的系统

IT部门对于自己的系统的自动化，运维管理的投入和开发确是很少。

随着银行的业务系统的膨胀，复杂度的增大，IT系统的风险在加大。

IT部门的高层对风险的认识比较高，但是他们不清楚具体的对应方法。

IT部门的底层，各个部门的认识不统一

开发部门：着眼于开发银监会要求银行提供不间断服务。在奥林匹克，万博等重大活动时要求行长签署保障书，军令状。

去年以来有几个重大事故，都是运维人员的失误造成。以下银行事故：

– 华夏银行，光大银行系统，民生银行系统事故。IT主管或被免职，或被警告

运维部门：希望能够对系统进行统一的管理维护，但对开发完毕的系统

没有修改的权利

具体操作人员：更多地关系自己的工作，对如何改进缺少想法

运维产品内容

• ITIL流程管理

运维管理流程控制，综合服务台。大中型银行需要。但是千万注意CMDB，这个东西真难搞，搞不好，一身问题。产品：BMC • 综合监控（各类银行）

相对比较容易理解：网络，硬件，中间件。

问题：应用的监控，需要开发。联动太深，以后对应用程序的变动又会有影响。只能是浅层次的结合。

产品：IBM Tivoli，BMC，日立 JP1 • 自动化（各类银行）

一般这个概念还不太为人知道，国外应该是日本银行做的比较好一些。国内做的相对比较早，比较好一点的是浦发银行。

内容：批量处理的统一自动调度，灾备切换流程自动化，各种手工作业的自动化。相对比较难以了解，但是很实用，可以一步拓展。其实就是流程化，但是和一般的流程不同，可以对系统自动进行操作。

问题：技术人员和开发厂商对这个概念还不太明确。产品：日立JP1，其他公司也有，但内容相对不太全面。

IT运维项目管理心得—风险管理篇5

过在PMP的学习，结合多年的IT运维项目实施管理工作经验，我对项目管理中的风险管理有了进一步的学习和认识，我真正认识PMP项目管理在现实生活中的运用。

风险管理是预防、规避项目风险的主要手段，是完成项目计划内的期限、预算内费用、规定的技术指标等的重要保障。在每个风险管理周期都应该做好从设计、合同、进度、质量、费用、沟通等管理工作中收集相关信息，并将这些信息反映在风险管理过程中的各环节工作中，并及时进行反馈。

现将我对项目风险管理的理解总结如下：

1、做好风险识别

在项目启动阶段，将对项目需求及项目实施过程中可能面对的风险进行全面的识别，结合公司已有的风险评估表，对识别出来的风险进行评分。

2、做好风险管控

在项目实施阶段，对前期已识别的风险，按照不同的风险等级进行管控，针对高危等级的风险（如：客户关键业务系统宕机）通过外包（购买原厂服务）或采取一定措施降低风险值的方式解决（提供专业人员提供24小时值班监控）；针对中等级的风险，则制定相应的风险解决方案（如：巡检、定期保养、设备实时监控），来减少或缓解风险的发生概率；针对低等级风险，则采取定期监控方式。

3、做好风险监测

做好IT运维管理基础工作的对策篇6

一、做好运维的三个关键点是有监管文件明确给以指引的：运维流程管理、监控及一体化管理、应急管理；

其中个人认为应急管理包括故障应急处理、高可用冗余建设、灾难恢复计划DRP或业务连续性计划BCP等几方面。应急管理的一部分也是可以利用一些流程化管理的。同时融合运维绩效考核KPI及SLA进ITIL运维流程管理系统，以KPI引导，转化被动的基础的IT运维工作到主动的高阶段的IT服务管理。

二、做好运维的基础工作方法是“实现四化”：“合规化、透明化、标准化、系统化”。实现这个基础后，会有更好的方法和更好的基础去做好运维工作。

1、合规化从监管以及管理高层与风险管理迫切压力需求的角度来说特别重要；内容是“做好信息安全及应急管理”，需要管理流程与安全及应急管理控制手段结合，如ITIL变更审批流程与堡垒机权限控制系统的结合。如ITIL事件升级到重大事件，再升级到灾难等升级流程及应急流程管理，包括灾备恢复演练的流程。所以说“应急管理的一部分也是可以利用一些流程化管理实现的”

2、系统化就是利用这种管理系统将各种IT管理流程、运

维管理经验、IT服务管理思想系统化，并能不断优化，扩展。具体不讲了。

3、“透明化”就是运维的管理要对内对下透明，对上对外透明;

实现方法是” 健全运维绩效考核评价机制以及SLA，服务级别协议与服务报告管理”这几点。“透明化”这一点其中有一点奥妙。指标只是其中表象的一部分，关键是如何融合进工作流程中，让每个人都知道KPI，并实时了解掌握自己的当前绩效，真正发挥出的KPI导向作用：好用、易用、有用。做好从时效、质量、满意度等考虑的事件、问题、变更管理的基础工作，包括以SLA、系统可用率考核的重大事件或故障、系统容量、性能管理等工作，做好基础、接口与系统化，才能将 “透明化”有了实现的基础，能使得运维部门有压力和动力从IT运维转向做IT服务管理，变被动运维向主动服务转变，然后从对内、对下的透明化，转向SLA做到对外、对上的透明化。

4、标准化就不提具体的了。

监管文件指引要求如下：

强化运维体系建设，提升系统服务水平

─ 加强运维流程管理。进一步完善运维管理流程，健全运维管理制度和标准，重点加强事件管理、问题管理、变更管理、配置管理等关键管理流程和数据管理、机房管理等制度标准建设与执行力。加强管理流程整合，完善信息交互机制，形成闭环管理。强化事件分级制度，建立有效的事件升级及响应机制；加强事件后续分析与处理，不断优化管理流程；建立变更分类标准和变更分级审批流程，完善变更窗口管理制度，有效降低变更对生产运行的负面影响；制定配置参数移植、修改、备份、存储、更新、销毁等方面的管理制度，控制配置操作引发的风险。完善数据存储、使用、传输以及备份管理，进一步制定标准、规范，重点强化客户信息和经营分析数据等敏感数据访问控制、清理、销毁以及数据变形使用管理；进一步加强机房人员、供电、空调、防火管理。

─ 加大集中监控及一体化管理力度。健全生产系统软硬件、网络及应用系统性能监测指标体系，优化监控策略；在实现对系统、设备、网络、基础环境等监控基础上，重点加强对核心应用系统和电子银行渠道监控；构建统一监控平台，统一管理和展现各种监控资源，实现集中告警方式，全面、及时掌握系统整体运行状态，快速定位故障、缩短处理时间；加大对总分行监控系统整合力度，提高总行对分行生产系统监管能力，进一步完善监控、响应、处理、报告、反馈和跟踪机制，实现全行范围基础设施和

主要应用系统生产运行情况的全面监控，提高运行管理的全面控制能力。提高运维管理自动化水平，整合操作、维护、监控、响应、处理等管理流程，推进企业级总控中心（ECC）建设，促进运维管理一体化。

─ 健全运维绩效考核评价机制。建立管理流程评价模型和量化标准，推进员工岗位绩效考核，制定系统运行关键绩效指标，建立生产运行绩效考核指标库；以系统可用率为基础指标，制定应用服务目录，建立生产运行量化绩效考核评价体系，推动提高运维服务水平

建立业务连续性管理体系，保障金融服务持续稳定 ─ 构建业务连续性管理框架，为业务持续运营奠定基础。将业务连续性管理纳入银行全面风险管理范畴，建立业务连续性管理组织架构，明确董事会、高级管理层、风险管理部门、业务部门、信息科技部门以及后勤保障等各部门职责，统筹推进业务连续性管理工作。明确业务连续性管理体系建设策略、管理流程、阶段性目标与实施路径，探索建立业务连续性全生命周期管理机制，将业务连续性管理嵌入到业务流程中；根据风险战略、政策，遵循“风险可控、成本可算”原则，制定业务分类分级保护策略，与业务活动的性质、规模和复杂度相适应；探索要素分析模型，深入开展业务影响分析，科学确定关键业务恢复次序与恢复时间要求，明确业务恢复目标；制定恢复策略与业务持续性计划，开展业务持续性管理有效性评估；建立动态的恢复指标管理制度，明确恢复指标归属管理部门，定期评估恢复指标的有效性。优化资源分配，制定容量规划，建立通道管理机制，提高运营支持响应能力。加大培训力度，加强文化建设，提高全员危机意识、风险意识。

─ 加强应急处置，提高协作能力。建立健全应对突发事件的预警、报告、决策、指挥、响应及退出等环节的应急处置机制。制定监测指标，实时监测业务运行状态，及时发现异常情况，及时预警；建立清晰的报告流程，明确报告路线；建立应急指挥、决策体系，统筹协调，高效决策，保证指挥流程畅通；制定应急处置响应流程，加强关键岗位人员配置。

建立应急预案一体化管理体系，建立涵盖总体预案、专项预案等预案框架；统筹预案管理，加强预案之间的衔接与配套；建立有效的预案维护机制，涵盖预案制定、评审、发布、变更和回收过程；制定预案编制规范，保证预案编制质量；强化预案后评价与持续改进机制，保证预案有效性。

推进与政府机构、公共事业机构、金融同业机构、银行服务机构等外部机构的应急协作机制，促进信息共享，加强战略合作，推进协调联动。

─ 完善灾备体系，提高灾难恢复能力。根据风险战略与业务连续性目标，制定灾难备份体系建设策略与实施路线；以业务有效恢复为目标，逐步加强灾备体系建设；逐步加大数据、系统、基础设施等各类资源的保护范围以及恢复能力；逐步推进分支机

构灾难备份建设，提高电子银行渠道灾难恢复能力，推进外联交易、支付、清算等重要渠道灾难备份建设。

探索灾难备份体系建设模式，加强架构设计，应用技术创新，加强数据中心集约化、标准化、流程化管理；深入研究数据中心“双活”、“多活”建设模式，提高数据中心之间相互备份、切换和接管能力。

制播网IT运维管理体系框架篇7

关键词：制播网,运维管理,体系框架,运维对象,运维资源,持续改进,管控层,管理层,操作层

1 研究价值导向及参考标准

本文在国内制播网运维管理现状和需求现状的基础上, 结合ITSS运维服务标准和CMMI (Capability Maturity Model Integration, 软件能力成熟度模型集成) 成熟度概念, 从人员管理机制、设备维护机制、运维管理工具建设、系统监控工具建设、网络安全管理机制等方面入手, 以广电行业安全播出管理规定作为总体业务目标和保障性要求, 研究符合行业特征的制播网络管理维护体系。同时, 电视台“采、编、播、存、管”等各业务环节已全面实现网络化运转, 因此研究遵循IT普适原则和理念的管理维护体系架构和运维模式演进模型是本文研究的核心内容。目前, 国内制播网络仍处于大规模建设和发展阶段, 各电视台实际情况不同, 导致维护模式差异较大。本文在充分调研的基础上, 分析现有运维管理模式与信息技术服务相关标准的差距, 采取了“现状调研、实践汇总、参考标准、差距分析、结合实际、得出结论”的研究方法。

(1) 制播网运维管理体系研究遵循以下价值导向

提升运维质量:严谨周密的运维体系关联运维质量指标和能力资源要素, 使服务提供方通过持续改进活动提升其整体运维服务的提供和支持能力。

优化运维成本:运维服务内容和资源的量化, 有利于对各种能力要素进行清晰的设定和配置, 可以在人员培训、技术储备、设备维修等方面实现成本优化。

强化运维效能:运维过程的标准化和规范化, 有助于更合理地分配和使用运维资源, 促使运维岗位合理设置、运维工作效率提升、运维服务使用充分。

降低运维风险:运维质量和效能的改善, 专业化、标准化、规划化程度的提高可以使系统运行更加稳定、可靠, 出现问题时也可以得到及时处理、有效降低业务风险。

(2) 参考标准与最佳实践

本文主要参考ITSS和CMMI等通用标准和《广播电视安全播出管理规定》 (总局62号令) 、《广播电视播出相关信息系统安全等级保护基本要求》等行业标准, 同时也参考了金融、电信、电力行业在IT运维流程、设备维护等方面和广电行业在人员、业务管理等方面的特色运维管理经验。

ITSS规定了IT服务的核心要素和生命周期, 并对其内容进行标准化, 重点关注IT服务的能力体系建设, 充分借鉴了质量管理原理和过程改进方法的精髓, 其核心价值是确保提供可信赖的IT服务。ITSS原理图见图1, ITSS运维服务能力要素包括人员、过程、技术、资源四个内容。

CMMI的目的是帮助软件企业对软件工程过程进行管理和改进, 增强开发与改进能力, 从而能按时、不超预算地开发出高质量的软件。其成熟度采用分级方式进行认证。

2 体系整体架构

基于制播网广电行业特性和IT特性, 参考ITSS及其他相关标准, 本文提出了制播网IT运维服务管理体系框架, 见图2该体系框架综合考虑了制播网运维管理所有要素, 并对这些要素进行了归类、分层, 主要包含五个组成部分:运维对象、运维资源、运维管理、安全管理和持续改进。

2.1 运维对象

指制播网络日常运行维护的主要对象, 运行维护的基本目标就是保障这些对象的稳定运行, 从而支持制播业务的正常开展。运维对象不仅包括IT基础设设施, 也包括应用及业务流程。全业务数据状态的采集, 为运维管理层提供了运维管理的基础数据。

2.2 运维资源

运维资源主要包括支撑运维工作的核心工具和管理资源, 主要基于ITSS中的“资源”能力要素进行设计, 是实现制播网络运维目标需要依托的工具和资产, 包括以下内容:

(1) 工作库, 以岗位结构、岗位定义、岗位说明为基础, 梳理、整合、归纳并标准化运维中的工作项, 构建以实际运维工作项为核心的工作库, 在工作库中尽量穷举运维活动中的各项工作, 并对每项工作进行格式化描述。

(2) 技能库, 是执行运维活动过程中需要的技术能力项的集合。集合中的技术能力项简称技能项, 技能项将运维人员技能水平进行分级量化。

(3) 知识库, 运维活动相关的知识积累, 以保证在整个组织内收集、共享、重复使用所积累的知识和信息。针对常见问题的描述、分析和解决方法建立知识库, 确保整个运维组织内的知识是可用和可共享的。

(4) 监控工具, 以业务拓扑为核心, 对全台网络化制播系统的运行状态全天候、全方位监控, 使用图形化的方式查看底层设备、业务组件、业务流程的关联关系, 能够直观地显示物理位置、拓扑关系等内容, 并能够对故障进行深入钻取和影响分析, 是服务台故障信息来源的重要渠道。

(5) 流程工具, 又称过程管理工具, 按照运行维护服务需要的交付过程, 完成对运维过程的管理支撑, 包括运行维护管理、记录、测量、监督和评估等功能。

(6) 安全工具, 是实现对制播网系统的安全策略管理、安全行为管理、安全制度管理等的支撑工具平台。

(7) 服务台, 使用有效手段和方法受理用户的运行维护服务请求, 及时跟踪服务请求的处理进展, 确保实现SLA要求, 是制播网用户和制播网维护部门的服务接口。

2.3 运维管理

运维管理是本体系架构的核心, 反映ITSS中的“技术、人员、过程”三个能力要素, 包括以下三个部分。

2.3.1 管控层

负责管控制播网运维质量和运维效率, 是展示制播网运维价值的重要窗口。管控层涵盖的内容包括:

(1) 组织体系, 主要指参与制播网运维的管理岗、技术岗、操作岗的设置以及部门或团队的人员组织架构方式, 还包括这个团队与其他执行信息化团队 (软件开发、项目建设) 之间的关联关系。人员管理至少包括人员储备、人员培训、人员绩效等内容。

(2) 绩效管理, 又称KPI (Key Performance Indication, 关键业绩指标) 体系, 绩效管理清晰定义本体系各运维流程环节的关键指标项, 并建立起关联联动关系, 如流程绩效、团队绩效、工作效率、质量绩效等。

(3) 需求管理, 是运维服务目录的基础信息来源, 需求管理通过对不同来源的需求进行记录、分析、审批、跟踪、变更控制, 并对需求实施结果进行评估。

(4) 服务目录, 其目标是提供并维护已投入、或即将投入运营服务的信息, 准确反映服务的具体细节、状态、接口及与其他服务的依赖关系, 保证服务目录可以准确有效地被授权者访问与使用。服务目录相关信息需要与其他服务管理流程有效地互动与相互支持。

(5) 服务商管理, 是指对服务商及其提供的服务进行管理的一系列活动, 以确保运维服务提供商全台网络化制播体系运维服务目标的实现。

(6) 服务水平管理, 主要指制播网运维管理部门对台内用户服务水平的管理。根据业务重要程度, 制播网运维管理部门与业务部门协商, 双方就服务级别达成共识并签署服务协议。

2.3.2 管理层

是实现管控目标的手段和方法, 一方面需要响应管控层传递过来的要求, 另一方面需要给操作层中的具体任务执行提供规范。

(1) 事件管理, 负责处理制播网技术性事件和用户请求, 其目的是尽快恢复被中断或受到影响的制播网技术型服务, 以尽快恢复业务为目的, 而不在于查找故障的根本原因。

(2) 问题管理, 负责解决重大事件或具有相同特征的一组故障事件, 其目的是找出这些事件的根本原因, 并通过解除该根本原因防止类似事件的再次发生。同时问题管理流程也负责预防事件的发生。

(3) 变更管理, 通过控制和管理制播网系统重要参数的变更, 使变更对生产环境可能的影响和风险降到最小, 从而提高制播网IT环境的整体稳定性。

(4) 配置管理, 负责描述、跟踪和汇报所有制播网IT基础架构中的每一个设备或系统的配置管理流程。配置管理数据库是配置管理流程中用于记录制播网所有IT相关配置项信息及其相互关系的数据库。

(5) 发布管理, 其目的是确保一个或多个变更的成功导入, 包括规划、设计、建设、配置和测试等。完整的发布方案包括发布计划、回退方案、发布记录等。

(6) 知识管理, 针对知识管理要求制定的相关管理制度, 其重点是知识生命周期管理, 包括个人知识管理、组织知识管理、项目资料管理等。

(7) 日常作业计划管理, 是对制播网运维人员的日常维护作业进行制定、审核、执行、记录的管理。

(8) 研发管理, 管理运维相关的技术研发, 包括配置适当的运维研发环境以及研发团队。

2.3.3 操作层

针对制播网的各类运维对象, 通过运维人员与IT系统的交互, 完成各类运维任务。包括下述各类操作、工作规范等:

(1) 非日常作业计划任务执行, 包括指派、接受、执行、检查、反馈的全过程。

(2) 系统监控, 将信息化监控与业务监控有机融合, 建立业务、信息系统、底层设备的关联关系, 通过预警、报警、恢复验证和优化管控等措施, 避免制播网产生重大事故。

(3) 基线维护, 运维中的基线是指系统运维稳定的配置版本, 基线配置是运维工作的基础性安全保障, 通过“基线+增量变化”的方式实现系统运行状态的可恢复。

(4) 数据备份, 是数据安全和容灾的基础, 是指为防止系统出现操作失误或系统故障导致数据丢失, 而将全部或部分数据从应用主机的硬盘或阵列集中复制到其他的存储介质的过程。

(5) 设备维护, 指设备维修与保养的结合, 主要的内容方向包括:清洁、通风散热、紧固、堵漏、重起。

(6) 备件维护, 备件是运维工作中不可缺少的资源支撑, 主要包括备件的部件定义、备件计划、备件储存、备件抽检、备件测试、备件的出入库管理、备件的补充与报废等。

(7) 工作规范, 是指与运维工作配套的规范化制度, 一般包括意识规范、行为规范、质量规范、操作规范、应急规范等。

2.4 安全管理

安全管理主要指信息安全防护要求, 目标是形成安全可信的运行环境。《广播电视相关信息系统等级保护基本要求》是制播网络运行维护需要遵循的安全规范, 用于指导安全层面运维工作, 是信息安全管理的执行依据。

2.5 持续改进机制

制播网的运维效果和服务质量需要持续不断优化, 以满足业务对IT运维的需求。持续改进是一个标准的质量优化机制, 在制播网的运维管理体系中可以用来持续优化运维服务的质量, 以达到提高质量并优化成本的目的。同时基于运维能力四要素引入风险控制矩阵及失衡预警机制来调控人员全息管理、全业务监控、故障预警、设备维护、过程环节监控中的风险和失衡, 从而达到最优的组织绩效。

通过PDCA一系列活动对总结检查的结果进行处理, 对成功的经验加以肯定并适当推广、标准化, 对失败的教训加以总结, 未解决的问题放到下一个PDCA循环里。

3 结语

浅谈IT运维管理之系统集中监控篇8

【摘要】随着网络应用技术不断发展，IT系统越来越复杂，业务对IT系统的依赖程度也越来越高。本文从项目背景、需求目标、功能设计、效果分析几方面探讨集中监控系统的建立。

【关键词】IT运维管理；监控系统；数据采集

【中图分类号】C93【文献标识码】A【文章编号】1672-5158（2013）07-0070-01

前言

随着企业信息系统项目的不断建设和应用领域的不断拓展，企业管理运营对信息系统的依赖性越来越大，对IT基础平台的运行可靠性要求也越来越高，企业的信息化工作逐步从项目建设阶段转向以深入应用、提升应用水平的运行维护阶段。提高运维管理水平已成为现阶段企业信息化系统应用的重要保证手段。

一、背景

信息管理部是信息化专业主管部门，负责网络、主机等IT基础设施和应用系统的建设、维护，致力于提供安全、高效、快捷的IT服务。近年来，随着信息化建设的深入，企业应用不断增多，主机服务器、网络实施、操作系统、数据库、应用服务器等软硬件平台日益复杂，服务用户的面不断扩大，如何维护好日益增多的主机网络设备，保证各个应用系统安全顺畅运行，为用户提供良好的服务并及时解决各类问题和故障，是IT运维管理的关键所在。目前IT运维管理还处于初级阶段，还没有构建一个综合的IT运维管理体系。对网络、主机、系统等的管理和服务是分散的、不关联的，没有实现数据、信息和知识库的共享，没有实现规范化和流程化。因此需要建立一套融合组织、制度、流程、技术的IT运维管理体系，从粗放、分散、低效的管理逐步过渡到科学、规范的管理，实现从手工运维到自动化运维。按照IT运维管理理论、方法和标准，结合实际和建设需要，遵循立足需求、统一规划、分步实施原则。根据实际人员和管理情况，当务之急是需要建立集中监控系统，实现对网络及信息系统的综合管理监控和日常技术支持，快速响应和及时解决信息系统运行过程中出现的各种问题和故障，确保网络及信息系统正常、稳定、高效运行。

二、系统架构

2.1 系统架构图

集中监控系统实现对不同服务对象和IT资源的实时监控，包括主机、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等，并通过集中监控管理平台对不同被管对象进行综合处理和集中管理，其系统架构如图1所示。

2.2 数据采集层

数据采集层负责基础监控数据的采集、归并、筛选、过滤、关联等处理，同时对数据进行本地存储。数据采集的方式根据被监控对象的不同可分为：

（1）路由交换机及网络安全设备的数据采集方式采用SNMP协议轮询，接收SNMPTRAP以及Sys-log，采集相关的状态、事件信息。

（2）主机服务器针对不同的操作系统类型和监控的要求，采用SNMP协议、WMI、TELNET的方式轮询。对于特殊应用需求，可以采用AGENT的方式采集数据，满足个性化的需求。

2.3 数据分析处理层

数据分析处理层根据系统设定的各项功能模块的具体要求，对数据采集层提供的数据进行进一步组织、分析和存储，并将结果提供给上层的数据呈现层2.4 数据呈现层数据呈现层根据数据分析处理层提供的数据，通过Web界面以视图、报表等方式向用户展现。

三、系统主要功能

3.1 数据采集

数据采集是整个集中监控系统的基础功能。采用SNMP、WMI、TELNET等协议轮询、接收SNMPTrap、Syslog，或者通过安装在主机/服务器上的A-gent上报信息，来获取被监控对象的状态信息、日志信息和告警信息，并作相应处理。

3.2 故障判断集中报警

故障判断根据采集的基础数据和设定的判断基准，对事件进行判定，确定故障是否存在，并生成故障级别信息。集中报警功能根据故障判断提供的故障级别信息，采取不同的报警策略自动触发，驱动不同的报警程序，比如邮件、短信、声光等。

3.3 性能管理

性能管理对设备性能进行实时监控，比如：网络设备的CPU、内存、端口流量，主机系统的CPU、内存、磁盘读写、交换文件等。监控参数管理可以定义监控周期和性能阈值，当性能超过阈值时，系统发出报警信息。

3.4 网络拓扑管理

网络拓扑管理利用直观的图形展示，帮助管理员更好地了解网络系统的联接情况，在网络中出现故障时能够快速定位故障发生的位置，从而更快速恢复故障。网络拓扑管理根据网络连接情况，自动生成和实际情况相符的网络拓扑图，为管理员提供真正的网络视图。通过网络拓扑图管理员可以方便地掌握设备分布情况和每个设备的运行状态。

3.5 报表管理

报表管理用户可以订制资源使用报表、故障统计报表、资源趋势报表、TOPN统计报表、可用性统计报表、综合报告等不同类别的报表，并生成柱状图、曲线图、饼图等直观图表，实现各种信息的统计和分析，全面、宏观地展示网络的运行情况，有助于更细致地分析网络数据，察看网络、系统中可能存在的热点故障、故障多发设备、故障多发时间，性能变化趋势等，从中发现规律和趋势，为决策者和管理人员提供详细的统计分析报表。

3.6 配置管理

配置管理主要反应网络系统中被监控系统配置更新的情况。

3.7 系统管理

系统管理主要包括系统配置、用户管理、监控行状况等的管理。用户管理是实现系统用户的基本信息维护和权限管理。监控策略管理是根据不同的监控对象和应用环境，设置不同的监控策略，比如数据采集周期、报警方式。

四、结束语

【it运维管理案例】推荐阅读：