1、信息系统运维管理体系框架
信息系统的主体:
信息系统运维外包商
信息系统运维管理部门
信息系统运维管理者
信息系统的对象:
运维部门和人员
信息系统供应商
信息系统用户
信息系统数据
信息系统软件
信息系统硬件
信息系统管理流程内容:
事件管理
事故管理
问题管理
配置管理
变更管理
发布管理
知识管理
信息系统运维管理职能:
信息系统设施运维
信息系统软件运维
信息系统数据运维
信息系统安全运维
信息系统运维目标:
安全可靠
可用可控
流程规范
低成本
2、信息系统运维管理主要流程
(1)事件管理:事件管理负责记录、快速处理信息系统运维管理中的突发事件,并对事件进行分类分级,详细记录事件处理的全过程,便于跟踪了解事件的整个处理流程,并对事件处理结果统计分析。
主要活动:事件发生和通告、事件监测和录入、事件过滤、事件分类、事件关联、响应选择、事件关闭、事件评估。
(2)事故管理:事故管理包括对引起服务终端或可能导致服务终端质量下降的事件的管理,这包括用户提交或由监控工具提交的事故。事故管理不包括与中断无关的正常运营指标或服务请求信息。
主要活动:事故识别和记录、事故分类和优先级处理、初步支持、事故升级、调查和诊断、解决并恢复。
(3)问题管理:问题管理包括诊断事故根本原因和确定问题解决方案所需要的活动,通过相应控制过程,确保解决方案的实施。
主要活动:问题检测和记录、问题分类和优先级处理、问题调查和诊断、创建已知错误记录、解决问题、关闭问题、重大问题评估。
(4)配置管理:配置管理包括负责识别、维护服务、系统或产品中的所有组件,以及各组件之间关系的信息,并对其发布和变更进行控制,建立关于服务、资产及基础设施的配置模型。
配置管理数据库(CMDB):记录所有的配置项信息
主要活动:管理规划、配置识别、配置控制、状态记录和报告、确认和审核。
(5)变更管理:变更管理负责管理服务生命周期过程中对配置项的变更。
主要活动:创建变更请求、记录和过滤变更请求、评审变更、授权变更、变更规划、协调变更实施、回顾和关闭变更。
(6)发布管理:发布管理负责规划、设计、构建、配置和测试硬件及软件,从而为运行环境创建发布组件的集合。发布管理的目标是交付、分发并追溯发布中的一个或多个变更。
主要活动:发布规划、发布设计、构建和配置、发布验收、试运营规划、沟通、准备和培训、发布分发和安装。
(7)知识管理:知识管理贯穿于整个服务管理生命周期。
主要活动:知识识别和分类、初始化知识库、知识提交和入库、知识过滤和审核、知识发布和分享、知识维护和评估。
2.2 信息系统运维的组织
1、信息系统运维管理的职责
从运维流程角度归纳:事件管理、事故管理、问题管理、配置管理、变更管理、发布管理、知识管理。
从运维对象角度归纳:系统、数据、软硬件。
2、信息系统运维人员的管理
运维人员管理的内容包括明确的授权,要有定期的检查和评价,要不断进行培训。
运维人员管理的意识包括服务意识、学习意识、创新意识、专业意识、主动意识、安全意识、团队意识。
3、信息系统运行管理制度的建立与实施
系统运行日记的内容应当包括:时间、操作人、运行情况、异常情况(发生时间、现象、处理人、处理过程、处理记录文件名、在场人员等)、值班人员签字、负责人签字。
专用机房、非专用机房机器的运行都要做好运行日记。
4、信息系统的运维模式
(1)自主运维模式
自主运维模式是指企业自行负责对拥有的所有IT资源的运维工作。
自主运维模式中运维人员容易管控,可根据企业自身需要进行能力培训,完成企业所需的各项相应工作。
缺点在于人员数量有限,对于并行的运维工作无法同时提供支撑,同时,由于运维相关各专业知识培养时间较长,无法满足企业运维工作的要求。
(2)完全外包运维模式
完全外包运维模式是指企业通过与其他单位签署运维外包协议,将所拥有的全部IT资源的运维工作外包给其他单位,即外包单位为企业各单位提供IT运维服务。
完全外包运维模式的优势在于充分利用外部经验,能够快速提供企业所有IT资源的运维能力;同时,运维人数扩充较为容易,易于应对大规模的运维需求。
但是,完全外包运维模式也存在外部人员管控难度大、企业信息泄露风险高的问题。
(3)混合运维模式
混合运维模式是指企业对所拥有的一部分IT资源自行运维;同时,通过与其他单位签署运维外包协议,将所拥有的另一部分IT资源的运维工作外包给其他单位。
企业通过混合运维模式能够充分发挥自主运维和外包运维的优势。
但是,由于存在两种运维人员,也增加了运维工作的复杂度,延长了运维流程;同时,也需要充分考虑内外部运维人员的职责划分和人员比例,在合理的运维成本下,既保证运维工作的顺利完成,又确保企业自有运维人员能够得到充分锻炼和提升。
5、系统运行的故障管理
信息系统故障的种类:
硬件故障
软件故障
网络故障
人为故障
不可抗力和自然灾害
故障的预防策略:
1.故障约束:就是在信息系统中通过预防性约束措施,防止错误发生或在被检测出来之前错误的影响范围继续扩大。
2.故障监测:就是对系统的信息处理过程和运行状态进行监控和检测,使已经发生的错误在一定的范围或步骤之内就能被发现出来。
3.故障恢复:就是将系统从错误状态恢复到某一个已知的正确状态,并为了减少数据损失而尽可能接近发生系统崩溃的时刻。
硬件本身的故障的处理方法:
①直接观察法
②拔插法
③交换法
④比较法
⑤原理分析法
⑥高级诊断程序检测法
⑦测量法
⑧综合判断法
服务器硬盘故障的解决方案:
1.磁盘冗余阵列 RAID
2.存储子系统
3.虚拟存储技术
2.3 信息系统运维的外包
1、信息系统运维外包的模式
信息系统运维外包也称信息系统代维,是指信息系统使用单位将全部或一部分的信息系统维护服务工作,按照规定的维护服务要求,外包委托给专业公司管理。
桌面支持外包:信息技术桌面指的是员工在工作场所所使用的一系列用于信息处理、通信和计算的设备,包括计算机软硬件和其他的相关设备,对它们的管理师每个使用信息技术桌面的单位机构最日常的工作
应用系统外包 SaaS:应用系统外包与应用服务提供商(ASP)密切相关
基础架构外包 IaaS:是一种基础设施外包服务,即服务提供商提供服务器、存储和其他网络硬件,客户只要租用一部分计算资源运行自己的程序即可
2、信息系统运维外包的内容
桌面支持外包的内容:系统初始检查、硬件故障解决、硬件扩容升级、软件系统支持、防病毒系统的支持、网络系统的支持、日常维护管理、咨询服务。
IaaS的业务包括:系统、服务器维护支持,软件、服务调试,网络系统维护,系统迁移,数据维护支持,数据存储和容灾管理,安全系统的支持,网站支持,咨询服务。
3、信息系统运维外包的优点
(1)有利于提高组织竞争力
(2)借助专业公司的管理流程和工具软件降低信息系统运维的成本
(3)提高服务质量、降低故障率
(4)降低业务部门隐性成本
4、信息系统运维外包的风险管理
风险来源:外部环境不确定性、运维外包决策的复杂性、运维外包双方的关系复杂性、运维工作本身的复杂性
风险的影响(外在表现):组织成本有可能增加、组织对服务商的依赖和外包合同缺乏灵活性可能降低组织的灵活性、可能会泄露组织的商业机密、对外包商缺乏恰当的监管
规避风险:核算外包成本、控制额外支出,组织仍需不断学习,选择合适的外包商,签订完整而灵活的外包合同
2.4 信息系统运维管理标准
ITIL 信息技术基础设施库
Information Technology Infrastructure Library
基于服务生命周期主要包含五个方面:服务战略、服务设计、服务转换、服务运营及服务改进
COBIT 信息系统和技术控制目标
Control Objectives for Information and Related Technology
2.5 信息系统运维管理系统与专用工具
1、信息系统运维管理系统功能框架
采集层
基础层(资产管理)
通用服务层(监控管理)
对象服务层(流程管理)
管理分析层
表达层(管理门户)
2、产品功能流程
(1)资产管理:实现对网络设备、服务器、PC、打印机、各种配件、软件、备品备件等设备资产信息的维护、统计及资产生命周期管理。
(2)流程管理:实现IT运维管理中所要求的管理流程,并对其进行监控,确保运维服务质量。
流程管理目标:一是对运维流程进行管控,按照服务登记协议(SLA)调用必要的资源,保证处理时限,确保服务质量,支持对故障和服务申请的跟踪,确保所有的故障和服务申请能够以闭环方式结束;二是利用运维管理系统固化运维服务的工作流程,提供标准的、统一的服务规范,提供灵活的流程定制功能。
(3)监控管理:包括对信息系统相关设备的监控管理,实现视图管理、配置管理、故障管理和性能管理。
(4)外包管理:是面向信息系统管理者,服务的结果控制管理和过程控制管理。
(5)安全管理:通过信息化节段实现安全管理支撑能力,安全管理应该包括但不限于通信及操作管理、访问控制、信息安全时间管理及风险评估和等级保护。
(6)综合管理:运维管理系统应该在资产管理、监控管理、安全管理、流程管理和外包管理功能的基础上,实现信息系统整体运维信息统计分析,并支持管理决策。
3、运维管理专用工具
ITIL管理平台Remedy
自动化运维操作管理平台Opsware:服务器自动化系统(SAS)、网络自动化系统(NAS)、过程自动化系统(PAS)
配置管理系统
2.6 信息系统运维管理的发展——云运维管理
云运维管理与当前传统IT运维管理的不同表现为:集中化和资源池化。
云运维管理需要尽量实现自动化和流程化,避免在管理和运维中因为人工操作带来的不确定性问题。
云运维管理和运维人员面向的是所有的云资源,要完成对不同资源的分配、调度和监控。