ITIL九篇

2024-09-05

ITIL 篇1

根据对国内部分地区的医院的接触和了解, 目前这些医院所具备的医院信息管理服务系统主要应用在门诊部分, 相对而言其他部分仍旧实行单机运行系统[1], 而单机运行系统目前还存在着比较严重的问题。

医院采用ITIL管理之后, 医院的信息管理服务系统发生显著变化, 这主要表现在: 对医院信息服务系统软硬件运行状态进行及时有效地掌控; 对突发情况可以进行及时地控制, 建立起有效的监控管理系统。虽然医院信息服务系统多而复杂, 问题相对也较多, 但是采用ITIL管理就可以针对不同的问题实施不同且合适的控制管理流程, 并且通过ITIL管理系统去掉不断变更管理 , 对于常见问题的处理解决方案, 以及应对突发问题的应急方案进行了汇总, 这对于提高医院的问题处理能力以及减少事故的数量去掉都产生重大影响。

采用ITIL管理之后, 医院参照ITIL管理服务标准[3], 对医院整体的信息化建设以及后续服务进行了详细地规划, 并制定了ITIL运维管理流程, 使医院信息化管理向流程化进一步发展, 使信息管理部门在处理问题时可以变被动为主动[5], 能够利用标准化的ITIL运维管理流程来确保医院各项业务的正常运转。

2 不足之处

ITIL管理给医院带来显著便利之时 , 也产生一定的消极影响。

实施ITIL管理系统的服务器由开始的单一服务器发展到多服务器, 而这只是纯粹的物理服务器的增多, 消耗过多的物理空间, 导致机房拥挤, 并且造成过多能源消耗; 由于医院信息管理中心设备存在的自身问题, 比如设备的全生命周期不能做到全方位跟踪、考核和评价, 或者对设备的运行状态没有做到实时监测和预警[4], 从而导致ITIL管理方法在实施过程中无法正常高效地运转。

各应用系统的计算机技术与发展没有保持稳定, 各类故障没有做到安全、快速地解决; 医院ITIL管理工作人员的配备没有做到与医院的规模、计算机数量和信息管理系统应用范畴等方面成正比[4], 因此降低了ITIL管理在医院实施的效率;医院员工对于ITIL管理没有做到充分地了解, 在实习管理方面没有达到预期效果; 在一定程度上, 医院ITIL技术操作人员的业务能力也会成为制约医院提高进步的因素。在医院采用ITIL管理之后, 医院ITIL部门与业务管理部门之间的结构性障碍也渐渐出现。

3 提高 ITIL 管理在医院信息服务管理的措施

3.1 提高 ITIL 管理的效率

在提高ITIL管理效率方面, 把医院ITIL管理服务的实施结果及带来的益处向医院工作人员进行宣传和介绍, 使其能够充分了解ITIL管理服务的实施给其带来的好处, 让大家转变观念, 并且从思想上接受ITIL管理项目的实施[2]。

医院ITIL管理部门与相关业务部门的从业人员进行定期的培训学习, 接受最新的技术流程培训, 理解ITIL管理服务的要求, 并了解自己怎样做才能达到要求[4], 不断提高各自的科学文化认知水平, 在业务交流和实际操作上消除结构性障碍[5]。

充分发挥服务台的积极作用, 医疗患者或者其他人在碰到任何问题或者疑问时: 能够记录、解决和监控ITIL管理服务运行过程中发生的问题, 比如, 接收患者或其他人的请求记录, 跟踪事件和客户意见, 并及时通知客户其请求的当前状况以及进展。按照服务级别协议的要求, 监督规章管理制度的执行情况等, 通过服务台建立起详细巨大的知识库, 并为所有相关工作人员共享, 从而提高系统故障的判断和解决速度, 提升ITIL管理服务系统的运维保障能力, 提高ITIL管理的有效性。

ITIL技术操作人员和后台维护人员需要对ITIL设备及系统等具备更为专业的维护知识和经验[6], 医院ITIL客服人员在应对其他部门以及各终端客户的咨询、故障保修以及相关业务请求时, 要确保找到合适的维护人员来及时解决问题。

医院要制定符合院情的合理的ITIL管理标准[3], 从众多的业务管理系统中总结出一套规范的、符合自身需求的服务于管理流程, 切实提升ITIL管理服务部门的服务水平和运维效率。

3.2 提高 ITIL 管理的稳定性、安全性

在提高ITIL管理的稳定性及安全性方面, 减少物理服务器的过多使用, 减少不必要的能源消耗, 充分合理利用资源,实现多服务器的聚合以及虚拟化; 根据各种资源实现ITIL的层次化管理, 如数据库服务集中, 中间件服务集中等, 确保客户得到合适的服务, 以支持组织的业务功能, 确保ITIL管理服务的质量。

配置管理是IT基础架构的控制中心, 从关键的业务开始,建立ITIL配置管理系统[5], 有效实施突发事件管理和问题管理流程; 对医院信息服务系统软硬件运行状态进行及时有效地掌控; 对突发情况进行及时地控制, 建立起有效的监控管理系统[7]。

遵从ITIL的问题管理方法: 建立问题管理流程, 使ITIL维护人员能够有充足时间去研究和解决其他管理系统的问题, 提高ITIL管理的稳定性; 对于突发事件和问题的处理方法要及时变更及发布, 让有关工作人员及时知晓, 通过环环相扣的流程使ITIL管理形成良性循环, 不断提高ITIL管理的稳定性及安全性; 明确ITIL维护及管理人员的职责,理顺工作流程, 适当考虑工作人员角色映射的虚拟化、冗余化; 不断挖掘医院业务部门的真实需求, 争取业务部门工作人员的积极参与, 不断提升ITIL的管理价值, 提高其稳定性。

协调好医院各个管理流程之间的关系, 各个流程的主体结构应遵循ITIL所定义的标准[3], 同时 , 应该根据实际工作需要来采取不同的处理方式, 实现这些流程的功能,并且也要根据具体情况加以必要的合理的调整和改进,使医院的管理行为和医疗行为都受到标准化制度和规范操作程序的约束, 以此不断提高ITIL管理的稳定性及安全性。

4 结语

ITIL 篇2

IT服务管理 (ITSM) 是一种以流程为导向、以客户为中心的方法, 通过整合IT服务与企业业务, 提高企业IT服务支持的能力和水平。而在企业将ITSM思想付诸实践时, ITIL则成为这一领域事实上的标准。在企业信息化建设中, 只有以业务驱动为导向, 对现有的IT系统进行整合集成, 才能保证企业信息化的顺利实施。从网络运维的角度出发, 探讨运维流程的研究旨在以基于ITIL的网络运维流程管理的建设和应用推动网络管理水平的提高。通过对运维流程的管理, 优化解决现有网络运维中存在的问题, 提高网络运维效率。

2 网络运维的现状

2.1 工具繁多, 手段繁杂

经过多年IT的发展, 每家企业的管理及维护人员在每天日常的管理及维护工作中都有自己的一套流程化的维护手段。我们在很多企业做交流时发现, 一些企业的维护管理人员手上都拥有大批的工具, 也是他们俗称的“枪”。当维护中出现故障要处理时, 管理员就像士兵一样, 拿着他们的各种“枪”上现场, 有时候一些“枪”可以解决, 有时将各种武器都用完了还是无法完成任务, 于是乎他们又去寻找各种各样的“枪”, 长此以往, 这些企业的管理人员都有自己的经验, 面对不同的问题他们能够灵活地使用各种武器来处理故障, 虽然每次耗时很长, 但是他们乐此不疲, 并以此为荣。我们在惊叹他们执着的探知欲的同时, 也为他们捏了一把冷汗。如果下次, 他们碰到了一场需要速战速决的战役而他们又没有合适的武器的时候, 那结果会怎么样呢?

2.2 管理被动

相信“救火队员”这个称号是IT部门理解最为深刻的角色定义。很多管理员在颇为烦恼做这样角色的同时, 每天又重复的担任这样的角色。因此, 很多管理员IT业务运行正常时神情特别轻松, 一旦处理故障时就显得特别紧张, 尤其是涉及到企业核心电子业务时, 更是全体动员, 希望赶快恢复业务运行。尤其在重保前, 他们会有大量的巡检工作去逐步巡检网络设备、服务器、应用系统的运行状, 在而重保期间, 他们更是祈祷不要出现任何故障。他们每天的工作量就集中在巡检和日常维护上, 虽然工作量不算太大, 但及其被动及紧张。

2.3 故障不关联, IT与业务不关联

往往一个故障出现时会造成很多其他的故障。比如, 我一个核心交换机的端口出现故障宕机, 应用部门的管理员就会发现他的应用系统连不上, 服务器管理员会发现他的服务器连不上, 网络部门的人会发现有一个子网掉线。随后三个部门的人分别查找他们的故障。在平时维护工作中我们会碰到很多比这个更复杂的类似情况, 而导致很多人员处理故障, 效率很低, 往往浪费很多时间而没有找到故障源。还有很多情况, 如我们的管理员往往维护重心分散, 导致很多人负责部分IT资源的维护, 这样做的好处是物尽其用, 每个人都负责自己最擅长的领域, 但是这样也会造成很多问题, 负责网络的人不知道一个网络设备的接口连接到哪个服务器, 服务器上运行什么应用系统, 如果该链路断了将会影响什么业务系统, 很多管理员并不清楚这些IT资源的关联性, 甚至与业务系统的关联性。这就造成了很多业务出现故障后更难查找故障源了。

3 网络运维的目标

应用ITIL改造现有系统、建设网络运维流程管理的目标在于:整合网络运维业务流程, 细化工作角色, 实现例外管理向例行管理、粗放式管理向精确管理以及功能型管理向流程型管理的转变, 实现网络管理工作的制度化、流程化、规范化、电子化和高效化管理。

应用ITIL实现完善的网络运维流程管理的优势:

(1) 监控所有业务流程, 实现闭环管理和精确管理。

(2) 构建一个集中的、统一的网络运维流程管理平台, 所有的工作任务在一个工作列表中体现。

(3) 固化例行业务流程, 减少例外工作任务, 能够支撑多种日常关键工作流程的运作。

(4) 网络运维流程管理平台要适应运维流程的优化、改进, 这种改变要求是灵活的、可配置的、可扩展的。

(5) 系统具有良好的开放性, 确保本系统能够与其他系统进行应用集成。

(6) 有效降低IT服务故障发生的概率, 及时处理IT服务故障。

4 网络运维的监控

基于ITIL的网络运维是闭环管理和精确管理, 而监控是起始点也是终止点, 它在网络运维流程中是最基础也是最核心的一环。我们如何及时获得应用的运行状态信息, 在出现问题时能够及时发现, 这就是监控要做的事情, 也是最重要的事情。详见图1。

通常情况下可以将监控对象分为以下几类:

(1) 服务器监控, 主要监控服务器, 如:CPU负载、内存使用率、磁盘使用率、登陆用户数、进程状态、网卡状态等。

(2) 应用程序监控, 主要监控该应用程序的服务状态、吞吐量和响应时间。

(3) 数据库监控, 监控数据库状态, 数据库表或者表空间的使用情况、是否有死锁、错误日志、性能信息等。

(4) 网络监控:主要监控当前的网络状况, 网络流量等。

以上四种监控应该是最基本的, 也是保证网站正常运行必须要知道的内容, 也只有保证了监控的正常运行, 才能保证运维流程的运转。

5 网络运维的管理

基于ITIL的网络运维流程是把粗放式管理、功能型管理向精确管理及流程型管理转变, 实现网络运维的制度化和高效化。ITIL的网络运维流程管理包括:突发事件管理、问题管理、容量管理以及IT服务持续性管理。

5.1 突发事件管理

突发事件是指发生了非常规的运作情况, 包括系统崩溃、软件故障、任何影响用户业务操作和系统正常运作的事情以及影响业务流程或违背服务水平协议的情况。突发事件也包括一个用户的请求, 如重设用户密码。不是所有的突发事件都由用户产生, 管理系统生成的告警也可构成突发事件。

突发事件管理流程的目的是尽可能快地把服务恢复正常, 使对业务的影响最小化。突发事件管理通常由服务台完成, 服务台负责记录来电相关信息、向用户提供对已知问题的处理方法、报告突发事件、尽快恢复服务。其目标之一是在突发事件管理阶段获得一个非常高的突发事件解决率。所有的突发事件应该基于影响度、紧急度和优先级进行分类。如果突发事件反复发生需要一个长期的解决, 应将突发事件提交给问题管理流程。突发事件管理的责任是记录、分类、调查/诊断、解决已知问题、监控跟踪突发事件、与用户和问题管理流程交流、最终解决突发事件。突发事件管理也负责报告突发事件的统计数据、确保配置管理数据库 (CMDB) 及时更新。详见图2。

5.2 问题管理

问题管理含有被动和主动因素。它负责对突发事件进行根源分析、更新已知问题数据库的解决方案信息、提供解决措施、防止由于问题引发突发事件。所有解决措施必须移交给问题管理流程进行授权处理。问题管理的任务是将一个突发事件变为一个已知的问题, 这个问题是一个经过调查的突发事件, 该突发事件有临时解决方案且潜在永久解决方案, 但永久解决方案尚未实施。已知问题和其临时解决方案可供突发事件管理/服务台使用。

问题管理同时也积极地调查潜在的问题, 在突发事件发生前提交变更请求来更正问题。问题管理进行问题跟踪、分析趋势来确定可能发生的问题。问题管理的主要目标是找到问题、防止突发事件发生, 以及提升服务台/突发事件管理的第一次呼救解决率, 提升整体服务质量和客户满意度。详见图3。

5.3 容量管理

容量管理负责以适当的成本、在适当的时间提供合适的资源。过量的资源可以提供长期的容量保证, 但也大大提升了运作的成本。提到容量管理, 可能首先想到的是磁盘空间, 但它涉及的范围更为广泛, 包括IT技术 (CPU、内存、磁盘等) 、放置服务器的机房、管理支持设备的人员等。容量管理必须满足已知的业务需求、规划和及时提供经济有效的资源, 例如客户第二季度小规模实施的CRM系统将在下一年达到容量上限。同时必须对现有系统的资源进行管理, 满足SLA要求, 采集数据、分析趋势和审计不断变化的业务需求, 保证在交易高峰时有足够的容量。总之, 容量管理期望提供及时的容量, 最小化成本, 最大化收益, 满足SLA的需求。详见图4。

5.4 IT服务持续性管理

●如果以上运维管理流程都不起作用, 我们可以期望持续性管理。持续性管理就像保险, 你希望永远都不会用到它。

●当出现灾难性错误时, 如何恢复服务可能有以下方式:通过业务持续数据中心转移处理负载;在集群环境中自动采取降低现有系统容量方式运行;采取冷备份、暖备份、热备份的技术手段;采取完全手工的方式记录客户订单。这些都是可用的持续性方案, 成本均不相同。问题是客户可以承受多少宕机时间, 他们愿意接受多少花费来实施持续性方案?风险管理在流程中占重要作用。评估风险的可能性、对业务的影响、所带来的损失, 从而在持续性计划中设定优先等级。IT服务持续性管理对最坏的情况做出了计划 (测试确保计划合理) 。计划、计划的执行是对付危机的有效手段, 尽量减少其所带来的损失, 在最短的时间内恢复服务。详见图5。

6 结语

基于ITIL规范的网络运维服务管理体系, 正如ISO 9000质量管理体系, 它的贯彻实施是一项长期的、持续推进的系统工程。卓越的运维管理还犹如蹒跚学步的幼儿, 才刚刚开始, 重要的不是走得多快, 而是要每一步走得很踏实, 稳扎稳打, 才能摆脱单一、被动的“消防队”的角色, 创造预防性、主动的运维服务模式, 打造高品质的运维服务水准。

参考文献

[1]Richard Nelson.Best Practices When Implementing ITIL[R].The Westin Resort&Spa Whistler:MISA BC Fall Conference, 2004.

[2]Van Ben, Jet Al.Foundations of IT Service Management:based on ITIL[M].VSan Antonio:an Haren Publishing, 2005.

[3]左天祖, 刘伟, 冯立超, 等.ITIL技术白皮书[M].北京:北京大学出版社, 2004.

ITIL应用浅析 篇3

关键词:ITIL;应用

中图分类号:TP391文献标识码:A文章编号:1007-9599 (2013) 06-0000-02

1IT服务管理从哪里开始?

在ITIL的《规划实施服务管理》中有下面一段话:

首先实施哪一个流程,这个问题被经常问到。“我应该首先实施哪个流程?”真正的答案是:所有的。实施所有服务管理流程的真正价值要远大于单个流程的总和。所有这些流程与其它流程相关,在一些案例中完全依赖其它流程。

在理解ITIL所有流程的时候有一个前提经常被忽略,那就是经常看到而没有重视的词“IT服务”,这是IT服务管理的对象。IT服务管理的十个流程、一个功能(服务台)都是围绕IT服务来谈的,如果你的IT组织(或部门)都没有搞清楚你的服务分类(Service Catalog),就来实施服务管理流程,纯属扯淡。一些所谓的咨询公司和厂商更是如此!餐馆里连菜谱都没有,对着白纸来谈向顾客提供餐饮服务的流程,这是不是很扯淡的事情?

ITIL是最佳实践,不是理论,不是系统,IT服务管理是ITIL的一部分。当你搞清楚自己正在提供或将要提供哪些IT服务时,才能够真正地实施IT服务管理。

所以我对前面那个问题的回答是:实施IT服务管理的前提是建立你的IT服务目录,针对你所要提供的服务建立和完善IT服务管理流程。连提供什么服务都搞不清楚,实施哪个流程,以何种方式实施都没用。

2透视IT服务

IT服务管理应该从服务的归类(Service Catalog)开始,IT服务管理在本质上与其它服务管理是类同的。下面我来谈谈IT服务的组成。

2.1服务对象-这是IT服务组织存在前提,正是由于服务对象对IT服务的需求,才使得IT服务组织出现,设计和运营IT服务。IT服务组织必须清晰认识自己打算服务的对象,这对后面的IT服务设计是非常重要的。就像做餐饮服务,我针对的是什么样的消费群体,这决定了我要经营一家酒店、饭店、小吃店,还是饮料店。

2.2服务产品-这是IT服务组织存在的基础,正时IT服务组织能够针对客户对IT服务的需求,设计和运营不同的IT服务产品,才使得客户愿意为此付费。就像餐饮服务中,要有一本菜单,告诉客户你都有哪些服务产品。

2.3基础设施-这是IT服务组织提供服务的基础,包括各种环境、各种IT组件等等,它们使得你承诺的服务产品得以实现。这些也是IT服务成本的重要组成部分。就像一家饭店,必须有餐厅、厨房等环境,也必须有厨具等。

2.4服务职员-这是IT服务组织实现服务最核心的要素,他们拥有不同的技能,在服务的各个环节承担不同的角色,履行其相应的职能,使得IT服务得以运营。就像饭店中,有服务员,有大堂经理,有大厨,也有配菜,还有采购的。

2.5合作伙伴(供应商)-这是IT服务组织保障服务正常运营的重要资源,他们提供基础设施或基础设施组件以及相关的技术支持,提供IT耗材等,有时他们本身也是IT服务组织。

IT服务与其它服务行业有很多相同之处,也有不同之处,这就像其它服务行业间一样。IT服务逐渐会从IT技术中分离出来,成为一个产业,它的发展主要取决于服务运营模式,而不是IT技术的创新。就像饭店,菜样翻新固然能够吸引客户,但使饭店长期生存的还是它的服务运营模式。这样的例子不胜枚举。

3透视IT服务管理

IT服务管理与其它服务管理在原理上是相通的,在IT服务管理中所定义的术语“事故”、“问题”、“变更”等等并不是IT服务管理所特有,在其它服务管理中是通用的。(参见专题二)。所以说管理的原理是相通的,管理的对象是独特的。

在服务支持的五个流程中,分别是都有其独立的管理对象,但在流程间这些管理对象又是相关的,这些管理对象可以实例化,形成记录,与IT服务相关,但不是IT服务的属性。所以可以采用面向对象的设计方法来设计这些管理流程,也就存在如下的通用方法:

(1)设置流程经理,负责设计和改进流程,实现对管理对象生命周期的全过程管理;(2)对管理对象进行分类,一般分为三个层:类别(Class)、类型(Type)、条目(Item);(3)确定优先级,优先级由影响范围和紧急程度矩阵来确定,所以需要对影响范围、紧急程度进行分级,以便构成优先级矩阵;(4)设计对象的属性和生命周期状态;(5)管理对象实例化后,每个实例必须有其所有者(Owner),负责该实例生命周期的状态变化。执行活动导致状态变化的人多数情况不是实例的所有者。

分类的一般思路:

事故分类:事故是与服务紧密联系的,所以事故的分类应该与服务的分类一致;问题分类:首先可以在类别上分为流程、操作、故障,故障细分与配置项的细分一致;变更分类:变更的分类与问题的分类一致;配置项分类:按照IT组件的类型逐级细分;发布分类:与服务的分类一致。

服务交付的五个流程的管理对象都是IT服务,这五个流程分别管理IT服务的五个属性。例如,我们提供了打印服务,通过这五个流程分别管理打印服务的可用性、持续性、容量、财务、服务水平,这些属性都可以为其规划所要达到目标,通过流程来保障目标的实现,对这些流程的管理采用“PDCA”环的方式来提高。

如果用应用系统分类的观点来看,服务支持流程是“交易系统”,每条记录反映了一个事件或一个实物,服务交付流程是“管理信息系统”,通过对“交易数据”按“服务”汇总,反映了“服务”在一定时期的各个方面的状态。即如果建立相应的IT系统的话,服务支持平台用数据库就能实现,服务交付平台则要用数据仓库才能实现。

4企业文化影响

大家可能经常可以看到讨论实施ITIL失败或效果不佳的原因,考虑得较为全面的,会从两个方面来分析,一是管理,二是技术。在这里我谈一下第三个方面-企业文化。

“企业文化”这个概念很难定义,所以从以下方面,结合实际案例,谈一下企业文化的影响。

服务意识-在IT组织实施IT服务管理时,在这个组织内就得推广服务意识的文化:IT部门不再只是技术的提供者,而是把自己看作信息技术服务的提供者。

在谈到ITIL失败原因时,有人强调管理层的不支持是一个原因,但在实际工作中,可能经常遭遇到的“假支持”。例如,管理层会在各种场合说:实施ITIL是对组织有利的好事情,我们就是要把问题暴露出来,我们就是要全面反映每个人的工作成果。但是在真正遇到问题时,管理层却采取的是掩盖问题的做法,涉及到利益时,管理层却是首先考虑自己,照顾自己的小团体。当企业内,管理的基本原则就不被遵守时,企业都可能失败,IT服务管理注定是要失败的。

语言统一-ITIL的推出,最重要的是它能够用来统一IT服务管理的“语言”。统一管理术语、统一技术术语,是企业文化建设的重要环节,也是推广IT服务管理的必要基础。只有“语言统一”了,在组织内大家才可以方便、有效地交流,才能对目标认同,就像“一中两表”,肯定是不能达成共同目标的。

参考文献:

[1]上海信息化培训中心.给予ITIL的IT管理白皮书.V2.1,2003.

[2]中国惠普公司.惠普服务之道-IT服务管理篇[M].北京:清华大学出版社,2006.

ITIL 篇4

【中文摘要】当今社会企业对IT技术的不断应用,企业方方面面的业务对IT技术的依赖越来越深.随着IT技术的飞速发展,使企业IT系统越来越来越复杂.服务器、交换机、路由器、数据库、应用系统分布于公司的各个部门,他们组成了庞大的企业应用系统,企业IT系统越来越多,网络、设备和产品越来越复杂,业务越来越依赖于稳定可靠的系统运行,公司内部和外部用户对IT部门的支持服务和协调管理也提出了更高的要求。这是企业IT组织迫切需要解决的问题。通过研究发现,随着信息化建设的推进,为了让凝聚了巨大人力物力投入的信息基础设施发挥出其效益,保障整个信息系统从组织内部各个层面都能够平稳可靠运行,尤其需要有一个可从整体上对包括IP网络,存储,安全等组件在内的IT基础设施环境进行综合管理的平台,由于信息系统是一个包括了众多软件,硬件技术,涉及多厂家产品,而且随着信息建设的深入和持续优化和发展,在当前的IT管理组织的运维体系下,往往存在以下现象:比如对不同的技术采用不同的专业人员进行管理;或者是缺乏某个方面的专业技术积累,即使长期培养的某方面技术维护能力容易因为人员的流动而难以保持;运维经验在管理人员之间难以得到交流和共享;或者难以通过有效简洁的手段及时得知复杂的网络和应用系统的运行状态;缺少一个易于理解和实施的体系,以整个单位的核心绩效为导向,来决策IT工作的改进方向,并通过量化,图形化,体系化的方式加以评估。本文以实际开发为实例,结合ITIL的理念,研究一个基于ITIL运维管理服务的运维管理系统的功能.实现对IT环境中各类基础设施的监控,包含有网络、系统、安全设备、数据库、中间件、业务系统、存储设备和机房环境等系统的监控管理,实现IT基础设施的集中式监控管理等功能,做到“有故障、早发现、早解决”的建设思路。对监控对象提供基于“性能基线”的阀值告警机制,通过根据一段时间的运行参数采集,系统自动掌握信息系统在“忙时”和“闲时”的负荷情况,自动生成性能负荷基线,在超过(或低于)基线一定比例(如60%)为告警阀值,实现性能与故障监控的智能化,显著降低告警的误报比例,在为管理员提供了工具的同时,也提供了相应的运维经验。从而协助企业实现基于ITIL的流程框架、运维管理的自动化、规范化和流程化。

【英文摘要】Nowadays, with the increasing application of IT technology, every aspects of the business operation rely on IT technology.AS the rapid development of IT technology, the IT system of business becomes more and more complicated.Servers, switches, routers, databases, and application systems located in every departments of company.They formed a large business application system.With the increasing number of business IT system, network, equipment and product become more and more complex, and business is increasingly dependent on stable and reliable system operation.These lead to a high requirement for the IT department’s support and cooperation

from the inside and outside of the company.This is the most urgent problem need to be tackled by the IT department.Through research, we found that, with the advance of information technology, in order to make the information infrastructure to play its effectiveness, to make sure that the entire information system can stably and reliably operate on every level of the organization, we especially need an integrated management platform, which allow us to control the environment of IT infrastructure, including IP networking, storage and security.Information system includes a lot of software and hardware.With the development and optimization of information construction, today’s IT management is tend to have the following phenomena: different technology asks for different experts to manage;lacking of some expert accumulation, even if long-term education, the turnover of the employees makes it hard to maintain;hard to share the operation and maintenance experience among managers;hardly through a simply method to notice the operation status of the network and application system;lack of an easy to understand and implement the system, which we can use to decide the direction of the IT work, and to appraise through quantitative, graphic, systematic way.In this paper, depended on an actual development, combined with

the concept of ITIL, we worked out a maintenance and operation management system that based on ITIL.We can monitor the IT environment of every infrastructure, including network, system, security equipment, database, middleware, business system, storage equipment and computer room environment.This can realize the concentrated monitoring of the IT environment.Based on the monitoring object’s“performance baseline”, we can set the threshold alarm mechanism.Through date collection, system will automatically get the load conditions, and generate performance load baseline, set the baseline over(or below)some ratio as the alarm threshold, to achieve the intellectually monitoring of performance and fault, which can reduce of the false alarm.This not only provides a tool for administrators, but also provides the corresponding Operation and maintenance experience.By doing this, we can help the business to achieve automation, standardization and streamlining of operation and maintenance of the management, based on ITIL.【关键词】ITIL 网管 运维 告警 监控

【英文关键词】ITIL network operation and maintenance alarm monitor 【目录】开发应用ITIL理念的运维系统

摘要

4-5ABSTRACT5-6第一章 引言10-151.1 ITSM 1.3 IT 第二章 2.1.1 背景及简介11运维管理的研究目标系统技术及需求研究信息技术成熟度模型161719-2021-3023-2424-2527-2930-6030-373738

1.2 国内外ITSM 的现状11-131315-2115-16

1.4 本文的组织13-152.1 评估方法15-16

2.1.2 IT 运维能力成熟度模型

2.3 PDCA 实施方法

2.5 系统构成特点第三章 系统概要设计3.1.1 部署架构设计

3.1.3 逻辑架构设计3.3 功能模块设计第四章 系统详细设计4.2 流程管理设计4.3.1 指标描述4.3.3 数据存储描述

4.4.1 4.4.3 4.5 4.5.2 接4.5.4 流程第五章 系统5.2 实现监2.2 规划方法16-172.4 需求功能定义17-192.6 本章小结20-213.1 总体设计21-253.1.2 物理架构设计243.2 系统架构25-273.4 本章小结29-304.1 系统界面设计304.3 数据库设计37-384.3.2 Instance 描述37-384.4 基于ITIL 理念的运维系统设计38-52

4.4.2 系统配置设计46-484.4.4 安全管理设计49-524.5.1 用户接口程序52-534.5.3 事件报警接口

4.6 本章小结5.1 监控界面实现

56-5859-6060-61报警设计细节38-46事件管理设计48-49接口设计52-59口描述53-56系统工单接口58-59功能实现60-71

控连接61-63警63-65理67-6970-71况7171-7273-7474

5.3 功能模块实现63-705.3.2 服务台事故管理65-675.3.4 报表管理69-70

5.3.1 事件告5.3.3 配置管

5.4 本章小结

6.1 软件测试概第六章 系统测试与分析71-746.2 测试计划716.4 测试用例72-73

6.3 测试环境搭建

6.5 测试结果与分析

7.1 工作总结第七章 总结与发展趋势74-767.2 系统不足74-75

ITIL 篇5

企业信息化建设不断深入和发展,系统的复杂性日益提高,管理、控制和维护这些系统给企业的IT部门提出了新的挑战。人们逐渐认识到缺乏有效的管理是目前企业信息化建设的“瓶颈”。IT服务管理(IT Service Management,简称ITSM)正是国际上公认的解决目前IT管理问题的有效方法。本文力图从实际案例出发,结合理论依据分析基于ITIL的ITSM的应用与实现。

各章节的组织如下:第二部分介绍了ITIL的框架结构和七大模块,以及基于ITIL的ITSM的主要管理流程、功能模块和实施策略。第三部分,使用某省级广电公司IT服务管理项目作为案例,介绍ITSM项目的系统逻辑架构,分析各工作流程需求。第四部分描述某一具体流程的输入、子任务和输出。最后总结实施ITSM给组织带来的好处和经验。

2 ITIL和基于ITIL的ITSM

2.1 ITIL框架和核心模块

ITIL称为IT基础架构库(Information Technology Infrastructure Library)是英国国家计算机和电信局于80年代中期开发的一套针对IT行业的服务管理标准库,是以基础架构支持IT服务管理的管理方案。IT核心是所包含的七个模块[1]。图1是ITIL的框架,图中清楚地显示了七个模块以及模块同业务和技术的关系。

规划实施服务管理:该模块在建立持续服务改进计划上提供指导,用以建立核心ITSM流程。

业务观点:该模块目的是为业务管理提供视角,以洞察ICT(信息与通信技术)基础架构支撑业务流程的能力。

ICT基础架构管理:该模块覆盖ICT基础架构管理的所有方面,核心是技术管理。

应用管理:描述如何管理应用从最初的业务需求直至和包括应用废弃的应用生命周期的所有阶段。

服务支持:服务支持描述同所提供的IT服务日常支持和维护活动相关的过程。焦点集中于对IT服务日常运营起到支持作用的流程。如图1所示,它是ITIL的核心要素,本文节2.2.1中结合ITSM介绍了它的管理流程。

服务让渡:覆盖规划和提供高质量IT服务所需的过程,着眼于改进所提供的IT服务的质量相关的长期过程。与服务支持的运营过程相比,这组流程在更加战术性的层面上运行,且与组织的年度规划周期紧密联系。如图1所示,它也是ITIL的核心要素,本文节2.2.2中结合ITSM介绍了它的管理流程。

安全管理:详细描述了规划和管理用于信息和IT服务的给定级别安全的过程。

服务管理指的是IT服务提供管理的所有方面,因此它包含整个ITIL而不仅局限于服务提供和服务支持这两个核心模块。在此基础上,服务提供模块和服务支持模块是IT服务管理的核心过程和基础。

2.2 基于ITIL的ITSM

ITSM融合了系统管理、网络管理、系统开发管理等管理活动以及变更管理、资产管理和问题管理等许多流程的理论和实践[2]。

那么ITSM和ITIL究竟是什么关系呢?在实际应用中,又有怎样的联系呢?

ITSM是ITIL的实际应用,而ITIL是ITSM方法论的基础。这一描述准确地诠释了ITSM和ITIL的关系。IT服务支持(Service Support)和服务让渡(Service Delivery)[1,3]模块构成了基于ITIL的ITSM的核心要素。

2.2.1 服务支持

IT服务支持关注IT基础设施的日常运营管理,包括五个基本的相关管理流程[2]:

(1)事件管理(Incident Management)

(2)问题管理(Problem Management)

(3)变更管理(Change Management)

(4)配置管理(Configuration Management)

(5)发布管理(Release Management)

2.2.2 服务让渡

IT服务让渡功能与组织每年的规划周期和每年持续的评估息息相关。因此,IT战术管理形成了一个逻辑严谨的功能组。主要的五个功能是[2]:

(1)服务级别管理(Service Level Management)

(2)IT服务财务管理(IT Service Financial Management)

(3)IT服务连续性管理(IT Service Continuity Management)

(4)能力管理(Capacity Management)

(5)可用性管理(Availability Management)

服务支持和服务让渡这两个集合涵盖了IT服务管理的核心活动,为服务质量提供了可靠的基础。一旦基础到位,其他流程可以随着ITSM能力的提高而添加。

2.2.3 实施建议

ITSM包含十个相关流程和一个服务功能,涉及很多方面,组织对ITSM的建立和实施是一个渐进的过程,需要根据自身特点和实际情况选择各流程的实施顺序。建议首先建立一线控制功能,例如网络管理、计算机操作系统管理等,以确保服务支持功能的建立。

其次,在这些管理流程和功能中,客观地存在一些依赖关系,使得ITSM的实施遵循一定的顺序。例如,服务支持模块中,配置管理依赖于变更管理提供控制流程,因此配置管理应该在变更管理的同时或之后实施。

同时,组织可以从自身管理中最薄弱的流程入手,先行在这些薄弱的环节实施ITSM。这样可以在明显失控的地方予以管理,可以较快地收到较显著的效果。例如,如果多数问题是由未受控制的管理引起的,那么配置管理将优先。

不同的组织从自身实际情况出发,采取不同的实施顺序。本文采用的案例就是先选择最迫切、最需要的事件管理功能在首期项目中实现,达到设计和建立基本的IT服务管理流程和技术支撑平台的目的。事件管理是之后一系列流程顺利实施的基础,同时也为实现后续的功能搭建整体框架,在取得广泛的理解、认可和支持的基础上,再向深度和广度发展。

3 基于ITIL的ITSM系统应用的分析

3.1 项目范围和总体系统逻辑架构

本项目率先推行的范围是运维中心及运维分部,涉及的流程是事件管理(事件流程管理子系统)。图2显示了本系统的总体逻辑架构。

3.2 工作流程关键字说明

指挥组(外部服务台):指负责外部网络设备系统运维的服务台人员,负责事件确认、分类及分派等一线支持和调度的工作。

IT支持组:受理内部员工通过电话、邮件以及Remedy系统等提交的事件处理请求和服务请求。

运维团队:支持人员角色,负责对分派的请求进行处理,包括事件的诊断和分析。主要包括运维中心和各个运维分部的技术支持人员。

技术支持组:支持人员角色,属于专家级别的的二线支持团队。主要负责协助指挥调度定位故障,并对运维团队无法解决的故障进行处理。主要包括运维中心的资深技术人员。

领导小组(事件经理):负责对管理流程的日常管理、监控和协调工作,分配技术支持人员。对事件请求处理状况进行监控,处理即将超时或遇到阻碍的请求。主要包括主管、副经理、经理和副总经理。

3.3 事件管理流程

3.3.1 流程图

图3反映的就是事件管理流程中从问题报告到分析、分派,最后再到解决的全部流程。

3.3.2 流程具体描述

(1)事件监测和记录

该步骤是事件管理流程的起点,所有的事件请求必须由此步骤开始。目的是在事件发生时快速准确地发现错误,对事件进行分类,对事件的影响范围做出判断,协助事件的诊断和解决,通知运维团队。对重大事件做出判断,在第一时间还应通知技术支持组和领导小组。此步骤中将会收集创建事件记录所需的信息。

(2)请求的分派

提交的事件请求自动分配给技术人员组,组内任何成员均可接受并处理此请求。如果某一技术人员接受了请求,则其它组内成员不能再处理此请求。如果技术人员组内成员在指定时间内无响应,请求会自动升级到领导小组,由事件经理分配给指定的技术人员。

(3)事件的调查和诊断

事件可以通过查询知识库来获得解决办法,如果没有已存在的解决方案或临时措施来恢复服务,必须进行更加深入的诊断以找到恢复服务的方法,必要时可以要求技术支持组到现场解决问题。

(4)解决和恢复

技术团队(二线支持)确定故障并实施解决方案,通知指挥组(外部服务台)/IT支持组(内部服务台)故障的解决情况,并将处理结果和解决方案记录下来。

(5)事件请求结束

当指挥组通过监控或者与客服确认事件解决后,该事件请求得以关闭。当IT支持组通过内部客户确认事件解决后,该事件请求得以关闭。

(6)事件监控

该步骤监控所有事件的生命周期,始于事件记录的创建,并在事件请求结束时终止。

4 流程分析

本文节以事件管理子系统中六个关键步骤之一的“请求的分派”为例,详细分析流程的输入、流程中的子任务和流程的输出等的设计。

4.1“请求的分派”的描述

该活动的目的是对每个事故请求进行正确的分类,随即执行匹配的操作以查找现存的解决方案。若没有找到合适的解决方案或临时措施,该事件需要分配给一个具有合适技能技术的支持人员。重点是事件能正确分配以节省时间。

4.2“请求的分派”的分析

该步骤的输入是已登记的事故请求。输出有两个,一个是找到解决方案或临时措施,传递给解决和恢复步骤处理的事件;另一个是传递给调查和诊断步骤处理的事件。表1清楚地列出了“请求的分派"七个子任务。

5 结束语

组织机构在采用ITIL的指导方针和原则实施ITSM时,应该调整ITIL以适应自身所处的环境。本案例详细分析了事件管理流程,因为这一流程是服务支持模块中的基础流程,是众多公司初次实施ITSM系统的切入点。通过实施它,该广电公司实现了信息系统管理效率的提升,初步实现了以下目标:

(1)减小突发事件对业务的影响。

(2)最优化资源进行事件支持,合理分工。

(3)服务分轻重缓急,保障系统有效运行。

(4)及时有效的沟通,提升用户满意度。

后续的系统开发和实施会继续,最终达到可以提供对IT系统的集中和统一的监控管理,改善系统利用情况,提高决策支持能力,降低总的系统运行成本和风险,为公司的核心业务提供坚实的IT支持和保障。

参考文献

[1]左天祖.ITIL白皮书[R].北京:北京大学出版社,2004.

[2]Jan Van Bon.Foundations of IT Service Management:based on ITIL[M].Van Haren Publishing,2005.

[3][荷]博恩.IT服务管理——基于ITIL的全球最佳实践[M].[译]章斌.北京:清华大学出版社,2006.

ITIL 篇6

随着信息化应用的不断普及和深入,信息系统已成为支撑企业运作不可缺少的一部分,为了提升自身竞争力,各大企业都投入了大量资金在IT建设上,建立了各种信息系统和各种必要的硬件设备和网络设施,这些软硬件设施成为了支撑企业运作不可缺少的部分。随着企业越来越依赖信息系统,信息系统发生故障所带来的负面影响也越来越大,传统粗放式的IT运维管理已不能满足企业全面管理信息系统的要求,缺乏有效的运维管理已成为影响信息系统应用效果的一个主要瓶颈。

对于如何进行有效的IT运维管理,世界上许多政府部门和企业进行了长期的探索和实践,逐渐形成了一种新的IT运维管理方法论:ITIL(IT Infrastructure Library,IT基础架构库),ITIL是从大量企业的IT运维服务管理经验中总结出来的最佳实践,它以流程为导向、以客户为中心,通过整合IT服务与企业业务,提高企业的IT服务能力和水平。ITIL可引导组织高效和有效地使用技术,让既有的信息化资源发挥更大的效能。

2 IT运维服务管理现状

目前,很多企业都投入了大量资金进行信息化建设,但是长期持续建设的惯性使企业普遍存在“重建设、轻运维”的现象,缺乏规范化的运维管理流程。其实无论是硬件还是软件,从整个生命周期来看,系统的运行维护阶段占整个时间和成本的约70%至80%,所以运维阶段是IT生命周期中的关键阶段,如果IT的运维管理做的不好,那么这些花费大笔投资建立起来的系统将无法带来预期的效益。

因为缺乏规范、高效的运维管理体系,导致企业普通存在诸多问题。

(1)被动的运维工作模式。

运维人员就像“消防队”一样,处于被动的服务状态,不知道什么时候、什么地方会出现“火情”,只有当问题已经发生后,才进行紧急处理,导致服务质量不高,甚至影响正常的业务运作。

(2)缺乏对运维工作的统一管理和监督。

在处理问题时,没有对问题进行记录和分类,无法跟踪和监控问题的处理情况,难以对已发生的问题进行分析,从而采取措施避免同类问题的再次发生。

(3)没有知识和经验的共享和积累。

由于缺乏对运维过程的记录,使得问题的处理方法只有当时的维护人员掌握,相关经验难以积累和共享。

(4)缺少量化的绩效考核指标。

在运维工作中没有建立量化的考核指标,运维人员的工作绩效很大程度上依赖于负责人对他的主观印象,无法准确考核运维人员的绩效,使得工作的积极性得不到提高。

因此实现运维管理从被动式服务转变为主动预防服务,以流程贯穿整个运维管理过程,切实保障系统可靠、稳定、高效地运行是目前企业信息化建设急需解决的问题。

3 ITIL发展及技术概述

在20世纪80年代中期,英国政府为了提高政府部门IT服务的质量,启动了一个项目来开发一套规范化的、可进行财务计量的IT资源使用方法,该项目的最终成果就是ITIL V1.0版本。在2000年至2003年,英国商务部(OGC)总结了IT服务管理的最佳实践经验,推出了ITIL V2,它主要包含六个模块:服务管理、业务管理、IT服务管理实施规划、应用管理、安全管理和ICT基础架构管理。在2007年,ITIL V3正式发布,它整合了V1.0和V2.0的精华,并融入了IT服务管理领域当前的最佳实践,并首次引入了生命周期的概念,通过PDCA模型(Plan-Do-Check-Act),持续不断地循环改进IT服务,从而保证ITIL持续的生命活力,ITIL V3框架如图1所示。

ITIL V3通过引入“生命周期模型”,将各模块有机地贯穿在了一起,以服务战略为指导,通过服务设计、服务转换和服务运营的实施,并借助持续服务改进不断完善整个过程,使IT服务管理过程整合为一个良性循环的整体。

4 运维服务管理体系框架设计

根据目前IT运维工作情况及存在的问题,本文在ITIL理论的指导之下,设计了IT运维服务管理体系,体系的总体框架如图2所示。

IT运维服务管理体系主要分为四个部分,分别是运维管理平台、数据管理平台、运维支撑平台和监控管理平台。

4.1 运维管理平台

运维管理平台实现了运维管理的主要流程和管理职能,通过对运维过程的记录和处理,及时跟踪运维处理情况,实现运维的闭环管理。该平台最核心的功能主要包括事件管理、问题管理、变更管理、发布管理、配置管理和服务台等。

(1)事件管理。

事件是指可能引起或已经引起IT服务中断或服务质量下降的活动,如软硬件故障、网络中断等。事件管理就是当事件发生时,对事件进行记录和归类,并指派适当的IT人员处理事件,同时对事件处理的全过程进行跟踪和监督,尽可能在最短时间内解决故障,恢复系统的正常运作,从而减少事件对业务运作的影响。

(2)问题管理。

与事件管理关注快速解决故障不同问题管理主要关注的是找出并消除引起事件的根本原因,从而避免事件再次发生。在问题管理中首先将之前重复发生过的或者非常严重的事件升级为问题,然后通过对该问题的调查与分析,找到问题产生的根源,从而制定适当的解决方案防止该问题的再次发生。

(3)变更管理。

为了适应业务的变化或者解决当前系统问题,需要进行必要的系统变更。但是在错综复杂的IT环境中,系统变更可能会产生新的问题,从而影响整个IT系统运行。变更管理就是通过对所有变更请求的记录、分类、评审和筛选,在充分考虑变更风险的基础上制定变更实施计划,从而确保变更的有序进行,降低或消除因变更所造成的影响。

(4)发布管理。

与变更管理关注变更风险不同,发布管理主要关注变更的实施。发布管理通过项目规划的方式来实施IT系统的变更,确保只有经过测试的、正确无误的软硬件版本才能发布到运行环境中,保证运行环境的安全可靠。

(5)配置管理。

配置管理将IT环境中所有配置项(硬件、软件等)的信息以及配置项之间的关系记录到配置管理数据库中,为事件管理、问题管理、变更管理和发布管理提供了软硬件的详细配置信息,从而为快速解决事件和问题、评估变更风险、制定发布策略提供了依据。

(6)服务台。

服务台是用户和IT部门沟通的桥梁它将事件管理、问题管理、变更管理、配置管理和发布管理都整合到以服务台为核心的交互平台上,通过该平台来集中处理所有的服务请求,使用户和IT运维人员能通过该平台对服务请求的整个生命周期进行监控和沟通,同时也为衡量运维绩效提供了数据支撑。

4.2 数据管理平台

该平台主要是存储和管理IT运维的相关数据,包括运维知识库、配置管理库、事件问题库和监控数据库。

(1)运维知识库。

IT人员将运维工作中遇到的问题进行归纳整理,把经过实践证明正确的、成熟的解决方案录入到知识库中,当再次处理同样问题时,系统将自动从知识库里搜寻出历史解决方案和建议。通过知识库,能够不断积累运维工作的实践经验,从而达到经验共享和快速解决问题的目的。

(2)配置管理库。

详细记录了系统软硬件的配置信息以及相互的关联关系,通过配置管理库,真实的反应了IT基础架构的配置情况,为事件管理、问题管理、变更管理和发布管理的运作提供支持。

(3)事件问题库。

记录事件和问题的详细信息,包括处理的交互过程、详细的解决方案以及相应的附件等,从而实现对事件和问题的跟踪和监督,并出具相关的统计报表,使用户可以按照不同的维度,对事件和问题进行统计分析。

(4)监控数据库。

将监控管理平台中采集到的软硬件性能数据统一记录到监控数据库中,并设置相应的报警阈值,当性能超过阈值时,通过短信方式通知相关的IT人员。

4.3 运维支撑平台

运维支撑平台用于支撑运维管理活动,如通过工作流来实现运维流程的自动化处理;通过报表引擎来设计各种主题报表;通过日志管理来记录系统中所发生的所有行为;通过权限管理来为用户分配不同的权限;通过接口管理来管理与外部系统的接口。

4.4 监控管理平台

监控管理平台通过集成各种监控工具对机房环境、服务器、网络、数据库和应用系统的运行状况进行实时监控,如服务器的CPU、内存和磁盘空间使用情况;机房的温度、湿度和UPS情况;网络设备的接口利用率、数据流量和丢包率等。

通过监控管理平台的建立,用电子巡检方式代替了人工巡检,大大缩短巡检周期,提高了工作效率。同时为性能指标设定不同级别的报警阈值,当性能超过阈值时,系统将自动在运维管理平台中创建一个事件,详细记录报警信息,并通过短信形式通知相应的IT人员,改变以往被动服务的局面,提高系统无故障运行时间。

5 总结

本文首先对目前企业运维工作状况进行了分析,归纳出目前存在的主要问题。然后在深入研究ITIL最佳实践的基础上,设计了一套基于ITIL的运维服务管理体系,使运维管理从传统的单一、被动和低效的管理方式逐步转变为统一、主动和高效的管理模式,全面提升运维管理水平。希望本文可以对ITIL在企业的推广起到一个抛砖引玉的作用。

参考文献

[1]胡佳.基于ITIL的ERP运维管理模式的研究[D].上海:复旦大学,2008.

[2]Jan Van Bon(荷兰)著,章斌译.IT服务管理—基于ITIL的全球最佳实践[M].北京:清华大学出版社,2006:25-26.

[3]孙强,左天祖,刘伟.IT服务管理:概念、理解与实施[M].北京:机械工业出版社,2004:13-14.

[4]陈宏峰,张亮,黄新峰,黄爽.翰纬ITIL V3白皮书[M].上海:翰纬IT管理研究咨询中心,2007:14-15.

[5]Jan Van Bon(荷兰)著,章斌译.基于ITIL的IT服务管理基础篇[M].北京:清华大学出版社,2007:37-38.

ITIL 篇7

●1996年12月, 中央电视台率先开办央视网;2009年整合全台新媒体资源, 创建中国网络电视台;

●1997年1月, 人民日报社创办人民网;2010年人民日报社成立人民网股份有限公司;

●2000年3月, 新华社创建新华网;2010年新华社开播了中国电视网环球新闻频道。

今天, 我们真正迎来了一个传统媒体与新兴媒体相互融合、共同发挥作用的全新发展阶段—“全媒体时代”。未来借助于因特网、电信网、广播网的融合, 资讯的发布将具备更多的选择与组合方式。

电视台也将利用其节目内容方面的资源优势, 寻找全媒体时代下的核心竞争力与价值增长点, 逐步提高电视传播影响力。电视台的技术系统应对这一趋势, 重点攻关方向突出表现为两个方面, 一个是节目的采集、制作、播出逐步向新媒体介入, 例如:3G节目信号回传、地面数字电视覆盖、IPTV等;另一个是节目的存储、传输、备播等业务与IT技术紧密结合, 相应地对IT服务的管理要求日益提高, 例如:3G节目信号回传对网络服务的要求、节目制作对内容共享服务的要求等等, 我们将在本文中对该点作详细论述。

二IT技术广泛应用迫切需要科学的工具与方法论

电视台在2000年以后的近十年时间里, 陆续建成了众多的IT系统, 这些系统主要面向的是电视节目制播的高清化、文件化与网络化需求, IT技术在电视台的节目制 (作) 、播 (出) 、存 (储) 、传 (输) 、管 (理) 各环节都得到了广泛应用。电视台整体工艺系统发展到今天的规模, 我们已经很难将其中某个子系统单纯界定为是AV还是IT了。那么, 电视台的节目制播业务对IT服务的管理水平和服务质量也就有了更高的要求, 较之传统意义上的IT服务 (例如:邮件服务) 更为宽泛、深入、复杂, 并且在同行业中没有以往经验可循。

如果说成功搭建一套系统是建立在对需求的深入分析与技术的合理选用上, 那么成功地运维一套系统, 无疑需要运行团队良好的技术支撑能力。我们总是在说, 运维的成败决定了技术的成败。这就要求我们将工作重点逐步从单纯的技术转向技术与管理相结合。为此, 电视台迫切需要建立起一套较为完备的管理体系来支撑IT业务的运营。

2009年, 电视台引入国际上成熟的ITSM (IT Service Management, IT服务管理) 理念, 结合电视台IT技术的应用情况以及IT部门现行的管理模式, 加以流程再造, 形成一套自有的IT服务管理支撑体系。在项目的实施过程中, 贯彻“对外抓服务, 以提升服务质量为目标;对内抓流程, 以强化管理流程为导向”的原则, 根据电视台的实际需要, 在ITIL标准框架 (Information Technology Infrastructure Library) 之上总结并形成媒体行业IT服务管理的最佳实践。

在ITIL的理论框架中, “流程”、“人员”、“技术”是用来定义高质量服务的三大要素:

●标准化的流程——规范和监督IT部门的日常运营;

●一定技能的人员——决定服务质量的高低;

●适合的工具——保障服务的整体效率。

在具体实施中, 我们基于ITIL V2的“10大核心流程与一个服务职能”, 结合电视台IT服务管理实际需求, 有计划、分阶段加以实施:

●组建服务台、监控台两个7×24运行的一线专业组, 以及系统、应用、网络、安全、桌面5个二线专业组和1个一线现场工程师专业组;此外, 将系统集成商、产品供应商列为三线支持团队, 纳入电视台统一的IT服务流程管理, 如图1所示;

●实施4个运营级流程, 即“事件管理”、“变更管理”、“配置管理”、“问题管理”。通过搭建一套较为完备的自动化支撑系统, 实现了上述流程的运转、人员岗位的固化和信息沉淀;

●面向未来电视台新址IT系统运行管理发展的需要, 继续实施一个运营级流程——“交付管理”流程、一个战术级流程——“服务级别管理”流程, 以利于IT部门应对更为复杂的IT系统交付工作, 并且支持其能够以事先约定的服务管理级别对系统的日常运维进行评价。

三电视台在实施ITIL的过程中, 着力实现两个“转换”

在实施ITIL过程中, 电视台要着力实现两个“转换”:

●第一个“转换”是将以往对各个IT系统的纵向管理模式, 例如:服务器管理、网络管理、应用系统管理等, 进行梳理与横向打通, 转化为以“事件”、“变更”等流程为主导的流程管理, 这些流程在IT部门内部施行, 并不与用户直接发生关系, 用户不会也没有必要花精力去了解这部分内容。

●第二个“转换”, 是将流程管理转化为服务管理。在这一过程中, IT部门将“服务”进行打包, 统一由服务台提供给用户, 这是一种可以在技术人员与用户之间进行交流与评价的业务语言, 而非技术语言。

下面, 我们详细阐述这两个转换是如何实现的。

1. 构建IT服务管理流程, 实现“两个转换”

●从电视台的核心业务及其对IT服务的需求出发, 参照ITIL V2选取必要的流程进行实施, 它们分别是:事件管理、问题管理、变更管理与配置管理。其中, 为了简化实施的复杂程度, 将ITIL V2中的发布管理流程的操作职能与变更管理流程的过程控制职能进行整合, 成为在电视台落地的变更流程;

●考虑未来面向新址提供更为可靠的IT系统运行保障, 实现各个系统在建设方与运维方之间的顺利交接, 参照ITIL V3服务生命周期框架 (如图2所示) 中的服务转换理论, 设计了交付管理流程。

通过分析, 我们对IT部门支撑的重点业务进行了归类和评级:首先, 新闻制播业务是电视台核心业务, 新闻制播系统的运维自然是重要性和优先级最高的;然后, 是综合节目制播业务对应的综合节目制播系统的运维。再者, 就是像邮件、OA这样不十分紧急但覆盖范围较广的业务。上述IT支撑的业务系统分类, 如表1。

第一个“转换”, 首先是将各系统进行横向拆解, 找出对运维的共性与特殊性要求, 结合ITIL流程体系进行管理流程的落地选取与加工;之后, 再将IT部门的人员按专业条线进行分组, 其参照的维度有两个:一个是人员的技术背景和能力, 另一个是系统对运维人员数量、能力的要求;最后, 再用流程将人员与他们的岗位职责串接起来, 并辅助自动化工具对流程加以固化。上述过程, 能够帮助IT部门的管理人员发现以往很难暴露的资源分配不对等或是整体资源配备不足的问题, 从而实现资源的合理配置与优化组合。

第二个“转换”, 是研究如何向用户提供服务的过程。可以理解为IT部门对其内部运营的管理流程进行封装, 将服务进行打包组合, 形成一套可以与用户进行交流与评价的服务分类体系即服务目录, 列举其中的几项内容, 如表2。

2. 建立IT服务管理支撑系统, 在成品套件基础上进行定制开发

IT服务管理支撑系统由三部分组成, 如图3所示。

电视台数据中心的网络系统与各应用系统构成IT资源池, 在此基础上整合建成IT资源统一监控台, 为IT服务管理支撑系统提供各系统运行状态信息。

由程控交换机和语音应用系统构成呼叫中心, 改变了以往系统、应用、网络、桌面等不同的专业组、多部电话接收服务请求的模式, 实现了统一号码接入、自动语音导航、客户呼入电话排队、电话转接和录音调听等功能。

以落地应用的流程为依据, 对成品工具软件进行定制开发, 使其与IT资源统一监控台、呼叫中心系统建立接口, 实现对用户请求以及各类运维数据的跟踪;建立事件、变更等流程的回顾机制, 定期进行用户满意度调查, 为IT服务管理工作的持续改进提供有效的技术手段。例如:

●服务台运行质量指标:从呼叫中心获取相应指标数据, 如表3所示;

●事件处理时间统计:事件从创建到关闭所用的时间, 反映事件处理流程自身可用性、工程师的技能水平以及知识库的应用情况等, 可以为IT部门进一步评估服务质量与用户满意度提供参考。图4是选取的一周范围内服务台的事件处理用时分布情况。图中将事件的处理用时分为4个水平, 即:小于1小时、1~4小时之间、4~8小时之间、大于8小时。可以看到, 在采样的这一周内有超过70%的事件控制在4小时之内处理完成, 我们可以对超过4小时解决的事件加以分析, 从制定有效的解决方案、加强人员培训等方面入手, 缩短这部分事件的处理时间, 进而提高用户满意度;

●变更情况统计:分别以月、季度、半年、一年为周期, 按系统统计各自变更的数量以及引起变更的原因。如果某一系统的变更次数较多, 运行风险的几率就越大。引起变更的原因通常有:系统升级、数据维护、软件BUG、用户的新需求等, 我们通过统计不同原因所导致的变更数量可以对系统的潜在问题进行分析。

图5列举了IT部门各个系统在半年的时间内发生的变更数量。其中, 节目生产管理系统共发生59次变更, 大部分的变更来自于用户的新需求, 如图6所示。

3. 持续的人员岗位培训, 工作手册适时更新

电视台上马IT服务管理项目后, 注重进行ITIL V2/V3等相关内容的培训, 例如:《服务可用性管理》、《服务外包管理》等, 还包括一些辅助性的课程, 例如:沟通技巧培训、问题解决策略培训、业务需求分析精要培训等等;与此同时, 通过修订IT服务管理工作手册的方式, 促进IT运维各条线岗位进行知识的更新与补充。

四推行ITIL管理方法, 以实现工作的改进

●实现IT服务管理的标准化、流程化、统一化。缩短一般、重大事件的响应时间, 提高故障定位的准确度, 有效降低IT故障对业务造成的影响;减少系统变更的随意性, 使计划和风险管控成为可能。

●人员岗位职责与流程管理相结合, 完善了IT服务的审计机制;系统配置信息的不断积累以及日常监控、问题处理操作的标准化, 有效提高一线人员的事件解决率, 从而使得关键技术人员得以释放, 有时间去研究和开发新技术。

●自动化的工具软件有利于流程的固化;固化即规范化, 可以提升电视台IT系统的整体可用性。

●从长期看, 施行IT服务管理能够降低IT部门的运营成本。借助流程优化、人员成长、知识积累以及自动化工具的使用, 有利于实现资源的横向组合, 改变原来IT系统烟囱状的管理模式。

总之, IT服务管理体系在电视台的IT部门、用户以及系统集成商、产品供应商之间搭建起了一个职责明确、分工界面清晰的工作平台。在这个平台上, 各种角色都是以电视台对IT部门的服务需求为工作出发点, 遵循共同的规则来运营IT系统, 最终达到:用户满意度提升、IT部门的价值得以体现、IT系统可以有效支撑并且推动电视台业务快速发展的效果。

摘要:本文介绍了电视台在全媒体的竞争环境中, 如何引入国际上较为先进的IT服务管理方法论, 并将其应用于IT部门对内部工作流程的管理以及对外部提供技术服务等方面的经验。

ITIL 篇8

维管理体系研究

1,杨龙频○1,何祺○1,杨慧清○1,矫涌本○1赵 飞○

△摘要:

在分析国内外电子政务运维现状、实践与发展趋势的基础上,结合ITIL理论的全球最佳实践和卫生部电子政务建设现状,探索基于ITIL的卫生部机关电子政务运维服务管理体系模式设计、基于ITIL的电子政务运维服务体系设计和基于ITIL的卫生部运维费用管理评估方法。

关键词: ITIL , 电子政务, 运维管理体系

中图分类号 :TP399-C

2文献标识码:A

Abstract: On the basis of analysis of the operation and maintenance of the status quo, practice and development trends of e-government at home and abroad, combined with global best practices of itil theory and e-government construction situation of the Ministry of Health, we explore the system and mode of operation and maintenance service management of the Ministry of Health and design a evaluation method of operation and maintenance expense management of the Ministry of Health.Keywords: ITIL, E-government, System Operation And Maintenance

1引言

“电子政务”是政府在国民经济和社会信息化的背景下,以提高政府办公效率、改善决策和投资环境为目标,将政府的信息发布、管理、服务、沟通功能向互联网上迁移的系统解决方案。同时也提供了结合政府管理流程再造、构建和优化政府内部管理系统、决策支持系统、办公自动化系统,为政府信息管理、服务水平的提高提供强大的技术和咨询支持。发展以政府为主导的电子政务,将给政府管理体制和管理方式带来深刻变革,具有积极的现实意义和深远的历史意义。

随着卫生信息化近20年的发展,卫生部电子政务也已具有一定的规模,形成良好的软 硬件基础,发展环境逐步完善,部机关建立了与互联网逻辑隔离的局域网网络和与互联网物理隔离的涉密网络。在应用系统方面,建设了应急指挥、网络直报、数字认证、门户网站、基金项目:2011年卫生统计与信息化课题研究项目“卫生部信息系统运维服务管理体系研究”(项目编号:2011-01-04-8)1中华人民共和国卫生部统计信息中心,北京市,100044 ○作者简介:赵飞(1982-),男,硕士学位,研究方向:卫生信息化;E-mail:zhaofei@moh.gov.cn 通讯作者:矫涌本(1965-),男,硕士学位,处长;研究方向:卫生信息化管理,信息安全。△通讯作者 医疗救治、财务管理、公文运转、档案管理和内部OA等一批业务应用系统。在安全方面,严格按照国家有关信息安全等级保护的要求,全面实现信息数据在使用、传输、存储等方面 的安全保护及业务系统的持续运行,达到等级保护的安全防护要求。

随着信息化对电子政务支撑工作需求的日益迫切,安全、有效的业务系统运维任务日益艰巨,业务系统的运维管理,不仅要及时检测与发现业务支撑系统中存在的各种问题或潜在 的问题,保证系统正常运行和业务的正常开展;更重要的是通过对业务系统的运维,能够发 现、总结和挖掘业务管理过程中存在的问题,明确管理重点、优化管理流程、明确管理岗位与职责,使业务系统、管理与人员通过流程有机结合。如何更好解决政府部门对电子政务运维管理要求与运维管理普遍存在问题的矛盾,成为当前重点研究的课题。

本文在对ITIL理论研究的基础上,结合卫生部电子政务运维管理的现状,提出了基于ITIL的卫生部机关电子政务运维服务管理体系和模式设计、基于ITIL的卫生部运维费用管理评估方法。

本文的组织结构为:第二部分描述了ITIL的基本理论,第三部分阐述了基于ITIL的卫生部机关电子政务运维服务管理体系和模式设计,第四部分阐述了基于ITIL的卫生部运维费用管理评估方法,第五部分为结论及展望。2 ITIL理论概述

ITIL(IT Infrastructure Library)是CCTA(英国国家计算机和电信局)于20世纪80年代末开发的一套IT服务管理标准库,它把英国各个行业在IT管理方面的最佳实践归纳起来变成规范,旨在提高IT资源的利用率和服务质量。2.1 ITIL核心框架描述

ITIL是根据实践而不是根据理论开发的,ITIL开发的过程实际上就是CCTA组织收集和分析各种组织解决服务管理问题方面的信息,并找出那些最有益的做法的过程。

ITIL2.0的主体框架被扩充为6个主要的模块(图一),即服务管理(Service Management)、业务管理(TheBusiness Perspective)、ICT(信息与通信技术)基础设施管理(ICT InfrastructureManagement)、应用管理(Application Management)、IT服务管理实施规划(Planning to Implement Service Management)和安全管理(SecurityManagement)。

组织业务目标IT定位及运维目标管理目标层管理方式组织人员组织模式层运维评估管理管理制度管理流程制度规范层资产管理业务服务管理服务展示集中服务管理技术支撑层

图一 ITIL体系结构图

图二 电子政务运维管理体系模型图

2.2 ITIL的特点和作用

ITIL并不是一个方法,而是一套通用框架体系,该框架体系可以指导我们规划流程、定义角色、职责和各流程间的关系,以及应使用什么样的术语进行沟通等。ITIL并不是一个告诉你如何实际运用最佳实践的指南,每个组织必须根据ITIL的原则和自己的实际情况来设计适合该组织自己的流程。

ITIL的主要特点有:一套IT组织用来计划、研发、实施、运维高质量IT服务的最佳实践方法,而非抽象的理论;人员、技术和流程的和谐统一;与技术、行业无关,具有普适性;强调量化管理和持续性改进。基于ITIL的卫生部机关电子政务运维服务管理体系和模式设计 3.1 综述

在深入研究ITIL理论体系和对大量电子政务实践的基础上,我们提出一套基于ITIL的电子政务运维管理体系四层架构模型(图二)。电子政务运维管理体系四层架构模型涵盖管理目标、组织管理模式、制度规范体系、技术支撑体系等四个层面的内容。

3.2 管理目标层

电子政务运维管理体系的建立要面向业务,以业务需求和目标为出发点,确保在目标层面,IT与业务的融合。应对卫生部现有四大重要信息系统(卫生部突发公共卫生事件应急指挥与决策系统、卫生统计网络直报系统、卫生部数字证书认证信息管理系统和卫生部网站系统)进行了调研,明确相应业务需求,制定运维管理策略。3.3 组织模式层

在集中统一的电子政务运维管理模式下,按照电子政务运维管理任务科学设置或调整组织机构,划分任务、角色、岗位,合理配置电子政务运维管理资源,达到人、工具、流程的有机融合。现卫生部电子政务运维服务由卫生部统计信息中心网络与应用处统一决策规划,划分人员任务角色岗位,合理配置电子政务运维管理资源。3.3 制度规范层

从管理角度制定的用来规范电子政务运维和服务工作的准则,建立电子政务运维管理过程中各个参与要素(人、流程、工具)的《信息安全方针》、《信息系统等级测评管理规定》等管理制度等,建立了工程师事件管理流程图、用户事件管理流程图、服务请求流程图、配置管理流程图等工作流程图,初步探讨了运维管理评估方法,实现精细化管理。3.4 技术支撑层

技术支撑体系是IT运维管理的实现手段,制度规范体系的具体落实有赖于技术支撑体系的技术支持。我们完成了以完善外网机房拓扑为核心的资产梳理工作,建立基础设施的集中管理平台。加强对系统的设备情况、性能指标、应用进程、系统缺陷等方面的监控,引入了包括锐捷网管平台及网神安管平台的业务服务管理平台,可以监控业务服务状态,安全设备、网络设备及服务器状态等信息。基于ITIL的电子政务运维服务体系设计

电子政务运维服务包括电子政务基础设施运维服务、电子政务应用系统运维服务、安全管理服务、网络接入服务、内容信息服务以及综合管理服务。

电子政务运维服务管理流程是指为了支持电子政务运维服务的实现和提供,以确定的方式执行或发生的一系列有规律的行动或活动。参与电子政务运维的各方为支持电子政务运维服务目标所使用的信息化工具,是支撑电子政务运维服务实施的平台。4.1 电子政务运维服务模型

电子政务运维服务模型由电子政务运维管理对象、电子政务运维服务提供者和电子政务运维服务使用者三个层面组成。电子政务运维管理对象主要包括电子政务资源和使用电子政务服务的电子政务用户两类元素;电子政务运维服务提供者由电子政务运维服务支撑系统和电子政务运维人员构成;电子政务运维服务使用者主要是指电子政务运维服务的使用和管理人员。构建电子政务运维服务模型如图三所示。

图三 电子政务运维服务模型

4.2 电子政务运维服务模式

在实际的运维过程中,由于参与电子政务运维活动的往往是多个单位或者部门,而且这些单位或者部门往往承担模型中的一个或者几个角色,这就构成了多种多样的电子政务运维服务模式。典型的电子政务运维服务模式存在如下几种形式:

(1)自运维模式:电子政务资产拥有单位自行负责对所拥有的所有电子政务资源的运维工作。

(2)完全外包运维模式:电子政务资产拥有单位通过与其他单位签署运维外包协议,将所拥有的全部电子政务资源的运维工作外包给其他单位,即外包单位为本单位提供电子政务运维服务。

(3)混合运维模式:电子政务资产拥有单位对所拥有的一部分电子政务资源自行运维;同时,通过与其他单位签署运维外包协议,将所拥有的另一部分电子政务资源的运维工作外包给其他单位。

根据电子政务网自身的管理特点,以及电子政务基础设施和应用系统的实际特点、自身组织机构设置情况,卫生部电子政务运维采用混合运维模式。在该运维模式下,根据运维服务是否涉及各单位的核心业务、关键任务等因素,对外包服务管理的具体要求各不相同。对涉及核心业务或关键任务的外包服务,需要对外包服务的过程和结果进行精细化管理;对只涉及非核心业务和非关键任务的外包服务,只对外包服务的结果进行粗放型管理。5 基于ITIL的卫生部运维费用管理评估方法研究

电子政务运维费是指为保证预算单位的信息技术基础设施和业务应用系统安全运行以及信息资源共享利用,而必须支付的硬件运维、软件运维、耗材与工具、系统管理和信息资源开发利用等方面的支出。

根据卫生部电子政务部署的现状,为了更好的做好电子政务运维费用预算与管理,构建了构建了卫生部电子政务运维经费管理流程(图四),从而使电子政务经费管理更精细化与科学化,进一步提升运维管理能力。

图四 电子政务经费预算标准模型图

图五 电子政务经费预算标准模型图 卫生部电子政务运维经费管理流程主要由运维预算标准、运维经费申请、运维经费执行、运维工作总结等组成,其中确定运维预算标准是其核心。

我们构建的卫生部电子政务运维预算参考标准模型(图五)由以下六个部分构成:电子政务运维费用标准、电子政务运维服务内容标准(预算口径分类)、电子政务运维服务工作量核算标准、电子政务运维备件工具采购费用标准、电子政务运维人工成本核算标准、电子政务运维其他因素预测标准。5.1 电子政务运维费用标准

信息化运维费用由备品备件等软硬件采购费用和提供日常巡检、终端维护、硬件维护、软件升级、系统相关、安全管理、网络维护、资产管理等技术维护服务所发生的技术运维人工费用两大类费用构成。

5.2 电子政务运维服务内容标准

电子政务信息化运维服务内容分为如下十大类:备品备件采购类;日常巡检类;终端维护类;硬件相关类;软件相关类;系统相关类;安全管理服务类;网络管理类;资产管理类、综合事务类。

5.3 电子政务运维服务工作量核算标准

根据上述对运维对象的分类,标准细化分解了各运维对象具体的运维任务,并针对具体的任务明确应提供的(最大)工作量。

各单项任务工作量根据完成该任务的运维人员级别、周期、运维次数、要求作业时间汇总计算得出,再结合该级别运维人员的人工费用标准,计算出完成该任务的运维费用。

根据卫生部机关2011年3月——2011年12月期间9个月的日常运维的工作内容数据统计得出,日常运维的工作时间为60小时。5.4 电子政务运维备件工具采购费用标准

备品备件采购费用按照信息资产比例系数法计算,可以根据历史经验数据以及实际发展需要,确定备品备件采购费用占信息资产的比例标准(可给出统一的比例,也可根据不同类型的资产分别给出备品备件采购费用比例)。

运维备品备件总采购费用由各类对象的备品备件采购费用加总得出,两项费用和为运维服务总费用。

5.5 电子政务运维人工成本核算标准

由于不同的运维任务对运维人员的要求不同,运维服务人工成本费用同具体任务一一对应,而且多数运维任务需要初中级人员完成,因此,年工资是主要的度量标准,以年工资为基准,根据工资转换系数,明确月工资和小时工资。

按照运维总人工费用的计算方法,运维任务、运维对象、模块、大类逐级加总,最后得出运维总人工费用。

5.6 电子政务运维其他因素预测标准

其他因素主要是指因设备故障、环境变化等因素导致的额外支出。如机房精明空调发生故障,会导致机房环境温度过高,从而会导致其他应用设备因高温而损失,将会产生预算外的软件数据恢复及维修费用支出;在预算中,需设定一定的资金比例作为该项预算经费。6 结束语

在本文中,我们对电子政务的发展过程进行了阐述,特别是对卫生信息化,卫生部电子政务系统的现状、发展进行了说明。根据卫生部电子政务现状,提出了在ITIL框架基础上构建电子政务运维管理体系模型、运维服务体系模型、运维预算管理评估模型,不断优化部机关信息系统运维流程,从而加强电子政务运维管理能力,实现部机关信息系统运维管理从粗放型向科学化方向转变。

为了更好的利用本论文的研究成果,后期将重点做好以下工作:将电子政务运维管理体系四层架构模型、电子政务运维经费管理流程和日常的运维工作结合起来,更好的发挥理论对实际工作的指导作用;结合卫生部电子政务现状,进一步完善电子政务运维管理制度,规范运维流程管理。在资产管理、流程管理、人员管理规范化的基础上,加强对各业务系统进行梳理,并进行精细化管理;加强对运维业务人员的培训和检查,打造一支理论基础扎实、动手能力强的运维管理团队和运维实施队伍。

参考文献 宁家骏,周民,杨帆.创新模式以构建服务型政府公共网络平台——关于国家政务外网建设的几点思考[J].电子政务,2008(6):7-10.2 杜波,余益民,孙荣燕,侯刚,屠本伟.政府数据中心的起源、定位和运维外包模式的探讨[J].电子政务,2011(8):97-102.3 夏西平,龙朝阳.基于ITIL的电子政务运维管理研究[J].图书情报工作,2009(19):117-120.4冯汀.基于ITIL的业务支撑系统运维管理研究[M].北京:北京邮电大学硕士学位论文,2007.5 刘颖.我国电子政务建设发展现状与预测[J].当代通信,2005(9):103-105.6 李长征.中国电子政务运维管理现状与发展趋势[J].电子政务,2008(12):17-25.7 王岚生.在电子政务运维工作中实现科学化和规范化管理[J].2009(1):75-84.8 赵雪芹,叶晶.中国电子政务运维服务现状分析[J].2008(7):1081-1084.9 罗彦玮

周剑.电子政务中面向业务的运维管理与实践[J].2010(11):43-52.10皮人伟.ITIL电子政务服务系统的设计与实现[M].上海:华东师范大学硕士学位论文,2010.11 蒋昱瑜

王楠

ITIL 篇9

电力公司的信息运维均基于国网信息化SG186大集中、“调运检”体系开展[1,2,3]。国网客服中心(以下简称“中心”)是全国首个实现统一集中服务的公用事业服务平台,下设南、北2个分中心,其95598电话业务深受自然天气、季节更替、节假日的影响,在迎峰度夏、迎峰度冬、春节等特殊时期,95598话务量会持续保持较高的水平;飓风、大雪、暴雨等突发恶劣天气造成大面积停电,中心将会接入大量的故障报修电话。中心的运营特点对呼叫平台和业务系统的并发处理能力、健壮性等提出了非常高的要求,信息运维要迅速反应、快速恢复。为此,中心的信息运维在沿袭国家电网公司“调运检”方法论以及“一单两票”工作特点的基础上,急需建立一套职责明确、运转高效、标准规范、闭环管控的运维体系。

信息技术基础设施库(Information Technology Infrastructure Library,ITIL)作为IT服务管理的“圣经”,受到越来越多的企业和政府信息化管理的青睐,基于ITIL的运维体系构建得到非常多的关注和研究[4,5,6]。为规范运维工作流程、提高运维效率、保障运维质量,中心借鉴ITIL管理理念,把事件管理、问题管理、配置管理、变更管理、发布管理等核心服务支持流程以及服务台这一管理职能融入到了“调运检”体系中,形成了包括调度、运行、检修、客服、服务台五大职能实体,以及事件管理、问题管理、检修管理、两票管理、配置管理、应急管理、服务水平管理七大重要运维流程的运维体系,全面深化了中心的运维质量管理。

1 ITIL体系概述

现代企业的业务开展离不开IT技术,在IT产品的生命周期中,运行维护占了整个时间和成本的70%~80%,运维效果对于企业实现其业务目标至关重要,人们关注的焦点也逐渐从IT系统应用的开发到IT服务的管理上。20世纪80年代,在英国政府商务部(Office of Government Commerce,OGC)的促进下,出现了归纳IT服务产业内的最佳实践,即ITIL[7]。

IT运维的核心是提供恰当的服务来支持业务部门的活动,涉及事件管理(Incident Management)、问题管理(Problem Management)、配置管理(Configuration Management)、变更管理(Change Management)、发布管理(Release Management)5个流程以及服务台(Service Desk)这一服务管理职能。在ITIL体系中,服务台为用户提供联系IT部门的单一联系点,确保用户能找到合适的技术支持人员帮助解决其问题或请求。服务台是连接整个IT服务流程的纽带,其工作与许多ITIL基本流程均相关,使ITIL体系能够良性循环。服务台与相关流程的关系如图1所示。

图1 服务台与相关流程的关系Fig.1 The relationship between service desk and relevant processes

2 基于ITIL的调运检体系建设

为保证95598电话接的起、工单派的下,分中心系统运维部主要负责以下6个方面的工作:①分中心机房基础设施、网络通道、硬件设备运行管理和维护;②国家电网95598业务支持系统座席现场技术支持;③部署在分中心的95598呼叫平台、平台数据库的运行监控和维护;④分中心IT设备的运行管理、现场巡视、故障处理和分析;④分中心IT设备的检修维护管理;⑤分中心内部桌面运维和安全管理;⑥负责协助中心进行数据质量管控和分析。

按照国家电网公司信息系统“两级调度、三层检修、一体化运行”的调运检体系,结合中心自身运维需求,在中心本部的统一领导下,分中心系统运维部组建了调度组、运行组、检修组、客服组、服务台5个运维实体,在事件管理、问题管理、检修管理、两票管理、配置管理、应急管理、服务水平管理等ITIL重要流程中各司其职、互相监督、闭环管控,使运维工作更加标准化、规范化和精细化。

从传统ITIL体系到基于ITIL的调运检体系的演化如图2所示,主要变化见红色标注部分。

图2 从传统ITIL体系到基于ITIL的调运检体系的演化Fig.2 Evolution from traditional ITIL to ITIL-based“dispatching,operation,maintenance"system

2.1 职能实体的变化

传统ITIL体系中,由服务台担任整个IT服务流程的纽带,存在单点连接风险以及职责不精细等问题。

基于ITIL的调运检体系中,调度组负责分中心各项信息运维工作的监督、催办、上报,重大事件、问题(缺陷)、现场检修等流程的协调与跟踪以及日常各项资源的协调分配工作;运行组作为分中心的运行主体,负责分中心所有设备的日常巡视、检修环境准备及检修监护、设备台账管理、运行方式编制以及运维范围内的网络安全和主机系统安全管理;检修组负责分中心检修计划编排、检修“两票”的编制、上报、检修工作的执行、检修结果的验证等检修相关工作,基础环境与呼叫平台的健康检查与隐患消除以及软硬件故障的处理和故障分析报告、解决方案的编制;客服组作为座席现场技术支持的主体,为占中心绝大多数的客服专员解决接听电话、派发工单、回访用户中遇到的各类系统问题;服务台作为客户服务的统一接口,通过电话、腾讯通等渠道,统一受理客服专员在使用信息系统时遇到的各种问题以及运行组人员巡检中发现的故障,并将问题派发给相应的一线支持小组处理解决并跟踪解决结果,同时负责事件工单的分析与关闭、报表的编制上报等工作。5个职能实体各司其职,密切配合,可有效提高运维水平和现场反应速度。

2.2 重要流程的变化

基于ITIL的调运检体系新增了检修管理、两票管理、应急管理,并在事件管理上新增了重大事件管理流程。

1)检修管理、两票管理。中心面向27个省(市)公司提供7×24 h不间断在线服务,对核心业务系统的安全稳定运行以及出现故障后95598服务的快速恢复有极高的要求。为保障核心业务系统的安全稳定运行,除了做好日常信息巡视和监控外,对在运的应用系统、安全防护系统、存储备份系统、机房电源系统以及辅助系统进行故障检修、系统新版本发布等工作时,须严格按照检修管理、两票管理流程执行,确保检修工作的标准化、规范化和制度化,提高信息系统的检修质量和健康水平。

2)重大事件管理。事件管理的目标是尽快恢复服务,其关注的重点是快速响应、快速恢复,使故障对业务的影响最小化。按照事件的影响度和紧急度,事件划分为不同的等级。对于影响分中心或部分省(市)公司话务接听、影响部分或全部省(市)公司工单派发的高等级事件,需要预警进入应急管理流程或者进行紧急抢修尽快恢复系统可用性。高等级事件的通知对象、处理流程有别于普通事件,须按照重大事件管理流程流转。重大事件管理规则如下:①当运行组或客服组遭遇突发或升级事件时,要求3 min内电话通知分中心调度组;②分中心调度组从影响度和紧急度2个维度判断事件是否为重大事件,当分中心调度组对事件判断为重大事件时,须2 min内升级并电话通知分中心系统运维部,并同时通知检修组制定解决方案;③分中心系统运维部继续升级为“否”的重大事件由检修组紧急抢修,当紧急抢修过程中预计解决时间不可控时要立即转向应急管理流程;④分中心系统运维部需在5 min内判定是否继续升级,如果升级则在2 min内升级并电话通知中心运维管理负责人;⑤检修组完成检修后立即通知调度组,调度组通知业务人员对系统检修情况进行验证。如果验证通过,则及时通过电话及邮件通知事件相关人员。

3)应急管理。指应对突发事故而中断服务或发生灾害情况时需要继续重要业务功能的要求所作出的管理规定,主要指信息机房或网络系统服务中断后的重建处理能力,并确保所有准备工作、意外事故和恢复措施在预定的时间内完成,满足中心95598业务的持续性要求。

3 基于ITIL的调运检体系的应用实例

基于ITIL的调运检体系自2014年4月在分中心落地以来运转良好,提升了检修管理、故障紧急处置、座席现场服务等运维工作的标准化、规范化和高效化程度。以一起网络中断处置流程为例,说明该体系的实施流程和运转效果。

1)发现异常,联动处理和事件升级。分中心现场座席网络出现闪断,影响部分正在通话和正在转人工的电话业务。服务台收到现场客服组反映的问题后,立即组织客服组现场技术支持工程师统计故障影响范围,核实业务已完全恢复。同时,服务台通过电话联系调度组组长汇报问题,调度组组长通过电话安排检修组网络工程师、呼叫平台工程师及呼叫平台三线厂家前往现场分析问题;随后,调度组长通过电话向系统运维部汇报本次故障情况及问题分组排查工作安排情况。

2)赶赴现场,分组开展问题分析和处理。异常出现10 min后,运行专责、检修人员到达现场,检修人员按运行专责要求分组开展问题分析工作。①网络方面:经网络工程师初步分析,故障原因系内网根桥发生变化导致。因分中心网络设备数量较多,日志分析工作量大,快速定位故障根源时间紧,检修组一方面通过分组搭建抓包环境缩小故障定位范围;另一方面继续分析交换机日志,同时告知调度组故障存在再现风险,需安排现场做好相关应对准备。待现场网络闪断问题再现时,网络工程师搭建的网络抓包环境成功定位到某一楼层接入交换机G1/0/40收到网桥协议数据单元(Bridge Protocol Data Unit,BPDU)报文,内网核心交换机有多生成树协议(Multiple Spanning Tree Protocol,MSTP)生成树消息告警,导致内网根桥发生变化。现场查看该楼层接入交换机G1/0/40端口为网络边缘接口,遂立即关闭该网络接口,其后网络运行正常。②呼叫平台方面:呼叫平台工程师分步排查呼叫平台相关模块,未发现明显异常。

3)联系原厂,深入分析故障原因。网络异常问题恢复后,网络工程师立即联系交换机原厂工程师,将相关交换机日志反馈给对方工程师进行深入分析,把故障原因确定为接入交换机S5700接口震荡MSTP状态异常导致网络闪断。

4)消除隐患,完成加固改造。在确定故障原因后的24 h内,分中心完成了内网交换机的加固工作,配置内网接入交换机的PC机接口为边缘端口,并开启了接入交换机边缘端口BPDU保护功能。

在本次重大事件处理中,按照信息运维调运检体系,调度组、运行组、检修组、客服组、服务台紧密配合,完成异常事件的上报、分析、处理以及隐患消除。并按“先恢复、后分析”的应急办法对异常事件进行分析处理,最大限度地降低了对业务的影响。

4 结语

国网客服中心把ITIL最佳实践与国家电网公司调运检体系相结合,建立了适合中心业务特色的、切实可行、运转高效的运维管理体系,可有效提高信息运维管理水平的专业化程度,为95598核心业务系统的安全稳定运行保驾护航。

摘要:为有效保障国网客服中心95598业务的7×24 h不间断服务,中心以ITIL运维体系为基础,结合国家电网公司“调运检”体系,构建了涵盖调度、运行、检修、客服、服务台五大职能实体,以及事件管理、问题管理、检修管理、两票管理、配置管理、应急管理、服务水平管理七大运维流程的运维体系。该运维体系职责明确,运转高效,为95598核心业务系统的安全稳定运行及故障快速恢复打下了坚实的基础。

关键词:ITIL,调度,运行,检修,国网客服中心

参考文献

[1]陈玉慧,蒋元辰.打造电网特色的信息运维综合管理系统[J].电力信息化,2011,9(2):165-169.CHEN Yu-hui,JIANG Yuan-chen.Build an integrated management system of information operation and maintenance with power grid characteristics[J].Electric Power Information Technology,2011,9(2):165-169.

[2]张华锋.大集中下电力信息化新运维体系探讨[J].电力信息化,2009,7(8):29-31.

[3]刘树吉,赵永彬,韦明.辽宁电力调运检信息运维模式的思考[J].电力信息化,2011,9(2):26-31.LIU Shu-ji,ZHAO Yong-bin,WEI Ming.Thought on information operation and maintenance model in Liaoning Electric Power Corporation[J].Electric Power Information Technology,2011,9(2):26-31.

[4]哈传喜.基于ITIL的电网IT服务管理系统的研究与实现[D].北京:北京交通大学,2011.

[5]程小平.电信运营支撑系统IT运维管理的发展分析与研究[D].北京:北京邮电大学,2009.

[6]李灿全.基于ITIL的应用级运维支撑平台研究与实现[D].上海:上海交通大学,2012.

上一篇:高校人事信息化管理下一篇:作文教学三步曲

热搜文章

    相关推荐