在线客服
IT服务连续性实现指南图书
人气:121

IT服务连续性实现指南

数据中心业务连续性从业人员必读,是一种系统地、地阐述IT服务连续性知识体系的专著,
  • 所属分类:图书 >计算机/网络>项目管理 IT人文  
  • 作者:[姚强]
  • 产品参数:
  • 丛书名:--
  • 国际刊号:9787302430384
  • 出版社:清华大学出版社
  • 出版时间:2016-05
  • 印刷时间:2016-04-01
  • 版次:1
  • 开本:16开
  • 页数:--
  • 纸张:胶版纸
  • 包装:平装-胶订
  • 套装:

内容简介

本书是一种系统地、地阐述IT服务连续性知识体系的专著,旨在为社会培养IT服务连续性领域的人才,为数据中心开展IT服务连续性活动提供详细指引,帮助数据中心实现“少停机、少丢数、少花钱”的夙愿。本书基于大量图表,直观地阐述以下内容:IT服务连续性涉及的IT服务、业务、IT资源、IT流程、IT组织和IT事件等方面的基础概念和知识。企业各条线的IT事件应急处置行动框架与IT事件应急处置机制。以IT服务连续性目标为导向建设IT应急响应机制、高可用恢复机制和灾难恢复机制的活动框架。IT服务连续性管理活动框架,包括实现IT服务连续性所必须具备的项目管理、运维管理、IT应急处置机制就绪管理、风险管理、IT应急处置机制持续更新管理、绩效管理、内部控制和内部审计活动。本书的读者对象包括IT应急管理人员、IT规划设计人员、IT项目管理人员、IT运维管理人员、IT风险管理人员、IT绩效管理人员、IT内部控制人员、IT内容审计人员以及准备迈入数据中心大门的所有IT人士。

编辑推荐

数据中心业务连续性从业人员必读。

本书是一种系统地、地阐述IT服务连续性知识体系的专著,旨在为社会培养IT服务连续性领域的人才,为数据中心开展IT服务连续性活动提供详细指引,帮助数据中心实现“少停机、少丢数、少花钱”的夙愿。 本书基于大量图表,直观地阐述以下内容:IT服务连续性涉及的IT服务、业务、IT资源、IT流程、IT组织和IT事件等方面的基础概念和知识。企业各条线的IT事件应急处置行动框架与IT事件应急处置机制。以IT服务连续性目标为导向建设IT应急响应机制、高可用恢复机制和灾难恢复机制的活动框架。IT服务连续性管理活动框架,包括实现IT服务连续性所必须具备的项目管理、运维管理、IT应急处置机制就绪管理、风险管理、IT应急处置机制持续更新管理、绩效管理、内部控制和内部审计活动。 本书的读者对象包括IT应急管理人员、IT规划设计人员、IT项目管理人员、IT运维管理人员、IT风险管理人员、IT绩效管理人员、IT内部控制人员、IT内容审计人员以及准备迈入数据中心大门的所有IT人士。

作者简介

姚强,华北电力学院计算机及其应用专业92届毕业生,DRII认证业务连续性专家(认证号:10180),曾服务于IBM、EMC、 SUN(ORACLE)、CENTRIN、TEAMSUN等多家知名企业,曾在中国民生银行、中国国航、中国银联、苏格兰皇家银行、广州电信等企业的IT服务连续性项目中担任首席咨询顾问,多年来以“促进国内数据中心少停机、少丢数、少花钱”为使命,坚守在数据中心及时线,坚定不移地致力于IT服务连续性理论及国际实践的研究、引进和推广工作,开创性地建立了IT服务连续性知识体系。

目录

目 录

第1章 IT服务剖析 1

1.1 IT服务 1

1.2 业务 3

1.3 IT资源 6

1.3.1 IT资源框架 6

1.3.2 应用系统 7

1.3.3 IT基础设施 10

1.3.4 IT资源的属性 10

1.3.5 IT资源属性与IT服务属性的映射关系 11

1.4 IT流程 12

1.5 IT组织 13

第2章 IT事件剖析 16

2.1 IT事件定义 16

2.2 IT事件前因 16

2.2.1 IT威胁源 17

2.2.2 IT威胁源消减措施 18

2.3 IT事件类别 19

2.4 IT事件后果 20

2.4.1 IT损害 20

2.4.2 IT事件影响 21

2.5 IT事件级别 23

2.6 IT服务连续性的意义 24

第3章 IT事件应对过程 26

3.1 IT事件闭环应对过程 26

3.2 IT事件防范 27

3.3 IT事件监测预测 27

3.4 IT事件应急处置 28

3.4.1 重大IT事件应急处置案例 28

3.4.2 IT事件应急处置行动框架 35

3.4.3 IT事件预警与预警响应 35

3.4.4 IT事件先期处置 39

3.4.5 IT事件后果评估 41

3.4.6 IT事件恢复决策 46

3.4.7 IT事件恢复 48

3.4.8 重大IT事件应急保障 52

3.5 重续运行 52

第4章 IT事件应急处置机制 55

4.1 IT应急处置机制 55

4.1.1 IT应急响应机制 56

4.1.2 高可用恢复机制 58

4.1.3 灾难恢复机制 61

4.2 企业层面IT事件应急处置机制 68

4.3 业务条线IT事件应急处置机制 71

第5章 IT应急处置机制开发过程 74

5.1 IT应急处置机制开发活动框架 74

5.2 风险分析 75

5.3 业务影响分析 77

5.3.1 获取企业层面和业务条线的BIA结果 78

5.3.2 IT关联性分析 78

5.3.3 应用系统影响分析 79

5.3.4 定义重要信息系统 80

5.3.5 定义重要信息系统的启停顺序 80

5.3.6 定义信息系统灾难RTO 81

5.3.7 定义信息系统灾难RPO 81

5.4 IT应急处置策略开发 82

5.4.1 IT应急响应策略开发 83

5.4.2 高可用恢复策略开发 85

5.4.3 灾难恢复策略开发 86

5.5 灾备中心选址 94

5.5.1 确定候选城市 94

5.5.2 初步筛选候选城市 94

5.5.3 比对并确定异地灾备中心所在城市 95

5.5.4 确定灾备中心的具体地址 96

5.6 IT应急处置资源设计 97

5.6.1 关键技术POC 98

5.6.2 生产环境改造设计 98

5.6.3 高可用备份系统设计 100

5.6.4 灾备系统设计 103

5.6.5 自动化灾备指挥与切换平台设计 115

5.6.6 IT应急指挥中心设计 116

5.7 IT应急处置资源实施 116

5.8 IT应急预案开发 118

5.8.1 IT总体应急预案开发 118

5.8.2 IT先期处置预案开发 120

5.8.3 高可用恢复手册开发 120

5.8.4 灾难恢复预案开发 121

5.8.5 其他条线的IT事件应急预案开发 122

5.9 应急演练 123

5.9.1 高可用备份系统切换演练 123

5.9.2 灾备演练 124

第6章 IT服务连续性管理过程 130

6.1 IT服务连续性管理活动框架 130

6.2 IT应急处置机制开发项目管理 131

6.2.1 管理活动 132

6.2.2 管理过程 137

6.2.3 管理角色与职责 138

6.3 IT应急处置资源运维管理 139

6.3.1 管理活动 139

6.3.2 管理过程 142

6.3.3 管理角色与职责 143

6.4 IT应急处置资源风险管理 143

6.4.1 管理活动 143

6.4.2 管理过程 150

6.4.3 管理角色与职责 152

6.5 IT应急处置机制就绪管理 152

6.5.1 管理活动 153

6.5.2 管理过程 156

6.5.3 管理角色与职责 158

6.6 IT应急处置机制持续更新管理 159

6.6.1 管理活动 159

6.6.2 管理过程 161

6.6.3 管理角色与职责 162

6.7 IT服务连续性绩效管理 162

6.7.1 管理活动 163

6.7.2 管理过程 170

6.7.3 管理角色与职责 171

6.8 IT服务连续性内部控制 172

6.8.1 管理活动 172

6.8.2 管理过程 175

6.8.3 管理角色与职责 177

第7章 IT服务连续性管理体系 178

7.1 IT服务连续性管理体系框架 178

7.2 IT服务连续性管理体系的边界环境 179

7.2.1 企业业务连续性管理体系 180

7.2.2 IT服务连续性内部审计机制 183

7.2.3 IT服务连续性法规 184

7.2.4 IT服务连续性SLA 185

7.2.5 IT服务连续性管理规范 185

7.3 IT服务连续性管理体系成熟度模型 186

第8章 IT服务连续性内审的关键审核事项 189

8.1 IT应急处置机制开发审计 189

8.1.1 IT应急响应机制开发审计 189

8.1.2 高可用恢复机制开发审计 191

8.1.3 灾难恢复机制开发审计 192

8.2 IT应急处置机制开发项目项目管理审计 198

8.3 IT应急处置资源运维管理审计 200

8.4 IT应急处置资源风险管理审计 201

8.5 IT应急处置机制就绪管理审计 202

8.6 IT应急响应与恢复行动审计 203

8.7 IT应急处置机制持续更新管理审计 203

8.8 IT服务连续性绩效管理审计 204

8.9 IT服务连续性内控审计 205

附录A 高可用风险检查列表库 207

在线预览

第5章 IT应急处置机制开发过程在IT条线,IT应急处置机制从无到有,IT人员经历了怎样的开发过程呢?

本章将详细阐述“IT应急处置机制开发活动框架”,该框架以实现IT服务连续性需求为目标和导向,涵盖IT服务连续性有关的需求分析、规划设计、实施、预案开发与演练等活动,该框架的用途是为数据中心开展IT应急处置机制建设提供切实可行的、系统化的方法论,解决数据中心IT应急响应机制、灾难恢复机制、高可用恢复机制之间衔接不畅的 问题。

5.1 IT应急处置机制开发活动框架

当前,国内外普遍遵循DRII的业务连续性实践(The DRII Professional Practices for Business Continuity)开展IT应急处置机制开发活动。 DRII业务连续性实践主要阐述了业务连续性机制开发阶段所涉及的以下10项活动。

(1)Program Initiation and Management(业务连续性项目立项与管理)。

(2)Risk Evaluation and Control(风险评估与控制)。

(3)Business Impact Analysis(业务影响分析)。

(4)Business Continuity Strategies(业务连续性策略开发)。

(5)Emergency Response and Operations(应急响应预案开发)。

(6)Plan Implementation and Documentation(业务连续性预案开发)。

(7)Awareness and Training Programs(业务连续性意识培养与培训)。

(8)Business Continuity Plan Exercise, Audit and Maintenance(预案的演练、审计与维护)。

(9)Crisis Communications(危机攻关计划开发)。

(10)Coordination with External Agencies(外部协作计划开发)。第5章 IT应急处置机制开发过程 在IT条线,IT应急处置机制从无到有,IT人员经历了怎样的开发过程呢?

本章将详细阐述“IT应急处置机制开发活动框架”,该框架以实现IT服务连续性需求为目标和导向,涵盖IT服务连续性有关的需求分析、规划设计、实施、预案开发与演练等活动,该框架的用途是为数据中心开展IT应急处置机制建设提供切实可行的、系统化的方法论,解决数据中心IT应急响应机制、灾难恢复机制、高可用恢复机制之间衔接不畅的 问题。

5.1 IT应急处置机制开发活动框架 当前,国内外普遍遵循DRII的业务连续性实践(The DRII Professional Practices for Business Continuity)开展IT应急处置机制开发活动。 DRII业务连续性实践主要阐述了业务连续性机制开发阶段所涉及的以下10项活动。

(1)Program Initiation and Management(业务连续性项目立项与管理)。

(2)Risk Evaluation and Control(风险评估与控制)。

(3)Business Impact Analysis(业务影响分析)。

(4)Business Continuity Strategies(业务连续性策略开发)。

(5)Emergency Response and Operations(应急响应预案开发)。

(6)Plan Implementation and Documentation(业务连续性预案开发)。

(7)Awareness and Training Programs(业务连续性意识培养与培训)。

(8)Business Continuity Plan Exercise, Audit and Maintenance(预案的演练、审计与维护)。

(9)Crisis Communications(危机攻关计划开发)。

(10)Coordination with External Agencies(外部协作计划开发)。

IT应急处置机制是直接支撑数据中心“业务”连续性的机制,数据中心的“业务”是IT服务相关的需求分析、规划设计、采购实施、交付与支持、控制改进等过程,数据中心的“业务”有其自身的鲜明的特点,DRII业务连续性实践对数据中心“业务”的连续性只能提供高层次的指导,并不能提供详细的IT应急处置机制开发活动框架。

本书基于DRII实践,制定IT应急处置机制开发活动框架,如图5-1所示。

在图5-1中,各个活动体现在不同的IT应急处置机制开发项目中,IT应急处置机制开发项目包括IT应急处置机制主体建设项目和后续持续更新项目,IT应急处置机制主体建设项目通常包括IT应急处置机制规划项目、IT应急响应机制建设项目、高可用恢复机制建设项目、灾难恢复机制建设项目,后续持续更新项目包括大大小小的IT应急处置机制完善项目。

图5-1 IT应急处置机制开发活动框架

下面,详细阐述IT应急处置机制开发活动框架中的各项活动。

5.2 风险分析 风险分析(Risk Analysis,RA)也叫风险评估,在本书中专指在IT应急处置机制开发项目中的风险分析活动。

RA的目的是评估IT应急处置机制需要应对的风险,包括生产系统高可用风险分析和生产系统灾难性风险分析。生产系统高可用风险分析是指分析生产系统各组件在高可用备份资源、高可用恢复手册、高可用恢复团队三方面存在的缺陷或不足,生产系统高可用风险分析结果用于确定高可用恢复机制的建设内容。生产系统灾难性风险分析是指分析可能造成生产系统灾难的威胁源,生产系统灾难性风险分析结果用于灾难恢复策略开发,例如,如果存在影响范围可波及整个城市的灾难,则需要建设异地灾备中心。

RA识别的风险在生产系统IT风险框架中的定位如图5-2所示。

识别生产系统IT风险框架中的所有IT风险,通常是数据中心IT风险管理人员的日常职责。RA活动需要基于IT风险管理人员日常的风险分析结果,完善并强化生产系统高可用风险分析工作和生产系统灾难性风险分析工作。

通常应在IT应急处置机制规划项目中开展RA活动。

国内的RA实践可谓五花八门,生产系统的安全性风险、性风险、性能和容量风险、ITSM流程风险等都曾被纳入RA的范围,这些都是典型的RA误区。实际上,以上风险的评估工作是数据中心IT风险管理人员的日常职责,而不是IT应急处置机制开发项目中需要开展的RA活动。

图5-2 生产系统IT风险框架

RA活动主要包括以下任务。

(1)确定需要分析的生产系统组件。

(2)开发风险检查项列表。

(3)调查与访谈。

(4)确定可能的风险。

(5)分析风险的可能性和风险的较大影响。

(6)编写《RA报告》。

在RA任务中,“开发风险检查项列表”是最重要的任务环节,为此,本书提供一个基本的生产系统高可用风险检查列表库(参见“附录A”)和一个生产系统灾难性风险检查项列表,如表5-1所示,供读者补充完善。

天有不测风云,在分析生产系统灾难性风险时,不可能覆盖生产系统可能面临的所有灾难性威胁源。例如,不可控的IT管理漏洞或技术漏洞、不可预知的人为或自然环境因素都可能是灾难性威胁源,但无法对它们进行评估。

表5-1 生产系统灾难性风险检查项

灾 难 分 类

灾难性风险检查项

区域性灾难

地震

生产中心是否位于地震带区域或地震多发区

海啸

生产中心是否位于海啸区域

楼宇级灾难

水灾

生产中心周边区域是否有水库、河流

地质灾害

生产中心是否位于地质灾害多发区

飞行器撞击

生产中心是否在航线之下

爆炸

生产中心邻近区域是否有加油站,是否有经营易爆品的单位

电网全部中断

生产中心的双路电源是否来自不同的变电所

通信网全部中断

生产中心的双通信网链路是否走不同的路径

网友评论(不代表本站观点)

来自无昵称**的评论:

思维缜密,耐看,值得看,好书!

2016-06-14 17:22:27
来自superzy**的评论:

好书 同事推荐看

2016-08-30 21:44:19
来自逍遥刀**的评论:

可以

2016-09-05 19:26:03
来自小马驹1**的评论:

不错,值得看看。!!!!!!!。。。。。。。

2016-12-06 16:17:09
来自无昵称**的评论:

质量嗷嗷的好

2016-12-19 12:24:52
来自匿名用**的评论:

对企业IT运维很有帮助

2016-12-31 18:27:07
来自匿名用**的评论:

一本很实用的参考书籍。

2017-02-20 11:17:22
来自匿名用**的评论:

包装不错啊

2017-03-09 14:26:38
来自l***8(**的评论:

书不错,很喜欢

2017-05-10 11:09:04
来自匿名用**的评论:

好书,值得一看

2017-06-09 09:29:15
来自匿名用**的评论:

给公司买的,还没看呢。

2017-08-02 17:37:57

免责声明

更多出版社