《Hadoop安全 大数据平台隐私保护》阐述了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变历程,介绍了包括身份验证、加密、密钥管理和商业实践在内的诸多主题,并在实际环境下加以讨论。第1章是介绍性内容,随后分为四大部分:部分是安全架构,第二部分是验证、授权和安全审计,第三部分是数据安全,第四部分是归纳总结。后介绍了几个使用案例,融合了书中诸多概念。 《Hadoop安全 大数据平台隐私保护》适合对Hadoop感兴趣的读者,有大数据平台保护需求的读者。
随着使用Hadoop存储并处理大量数据的企业不断增多,Hadoop安全性日益凸显,尤其是在金融和医疗等涉及敏感信息的行业。本书两位作者均来自Hadoop安全防范一线,书中详细论述了身份验证、加密、密钥管理等诸多重要主题,并给出了具体处理建议和案例分析,读者可以从中了解搭建和使用Hadoop的架构师是如何安全管理大数据的。 - 了解分布式系统,尤其是Hadoop所面临的安全挑战 - 学习如何尽可能确保Hadoop集群硬件的安全性 - Kerberos网络认证协议概览 - 身份验证、授权和审计原则在Hadoop中的应用 - 静态数据和动态数据的加密 - 客户端访问和数据提取过程的安全防护措施
Ben Spivey Cloudera解决方案架构师,曾在多家世界500强企业工作,涉及金融服务、零售、医疗等多个行业。在于客户的Hadoop集群进行规划、安装、配置以及安全保护方面有丰富经验。 Joey Echeverria Rocana软件工程师,负责在Apache Hadoop平台下构建一代IT运行分析系统。Hadoop生态系统数据API Kite SDK的贡献者,并为Flume、Hadoop、HBase等多个Apache项目做过了贡献。
序 xi
前言 xii
第1 章引言 1
1.1安全概览 1
1.1.1机密性 2
1.1.2完整性 2
1.1.3可用性 2
1.1.4验证、授权和审计 3
1.2Hadoop 安全:简史 5
1.3Hadoop 组件和生态系统 5
1.3.1Apache HDFS 6
1.3.2Apache YARN 7
1.3.3Apache MapReduce 8
1.3.4Apache Hive 9
1.3.5Cloudera Impala 9
1.3.6Apache Sentry 10
1.3.7ApacheHBase 11
1.3.8Apache Accumulo 11
1.3.9Apache Solr.13
1.3.10Apache Oozie 13
1.3.11Apache ZooKeeper 13
1.3.12Apache Flume .13
1.3.13Apache Sqoop .14
vi | 目录
1.3.14ClouderaHue 14
1.4小结 .14
及时部分安全架构
第2 章保护分布式系统 .16
2.1威胁种类 17
2.1.1非授权访问/伪装 17
2.1.2内在威胁 .17
2.1.3拒绝服务 .18
2.1.4数据威胁 .18
2.2威胁和风险评估 18
2.2.1用户评估 .19
2.2.2环境评估 .19
2.3漏洞 .19
2.4深度防御 20
2.5小结 .21
第3 章系统架构 22
3.1运行环境 22
3.2网络安全 23
3.2.1网络划分 .23
3.2.2网络防火墙 24
3.2.3入侵检测和防御 .25
3.3Hadoop 角色和隔离策略 27
3.3.1主节点 28
3.3.2工作节点 .29
3.3.3管理节点 .29
3.3.4边界节点 .30
3.4操作系统安全 31
3.4.1远程访问控制 31
3.4.2主机防火墙 31
3.4.3SELinux 33
3.5小结 .34
第4 章Kerberos 35
4.1为什么是Kerberos .35
4.2Kerberos 概览 36
4.3Kerberos 工作流:一个简单示例 .37
目录 | vii
4.4Kerberos 信任 38
4.5MIT Kerberos .39
4.5.1服务端配置 41
4.5.2客户端配置 44
4.6小结 .46
第二部分验证、授权和审计
第5 章身份和验证 .48
5.1身份 .48
5.1.1将Kerberos 主体映射为用户名 .49
5.1.2Hadoop 用户到组的映射 50
5.1.3Hadoop 用户配置 54
5.2身份验证 54
5.2.1Kerberos 55
5.2.2用户名和密码验证 56
5.2.3令牌 56
5.2.4用户模拟 .59
5.2.5配置 60
5.3小结 .70
第6 章授权 71
6.1HDFS 授权 71
HDFS 扩展ACL .72
6.2服务级授权 .74
6.3MapReduce 和YARN 的授权 .85
6.3.1MapReduce(MR1) 86
6.3.2YARN(MR2) 87
6.6HBase 和Accumulo 的授权 95
6.6.1系统、命名空间和表级授权 95
6.6.2列级别和单元级别授权 .99
6.7小结 .99
第7 章Apache Sentry(孵化中) 100
7.1Sentry 概念 100
7.2Sentry 服务 102
7.3Hive 授权 105
7.4Impala 授权 110
7.5Solr 授权 112
viii | 目录
7.6Sentry 特权模型 113
7.6.1SQL 特权模型 114
7.6.2Solr 特权模型 .116
7.7Sentry 策略管理 118
7.7.1SQL 命令 118
7.7.2SQL 策略文件 121
7.7.3Solr 策略文件 .123
7.7.4策略文件的验证和校验 124
7.7.5从策略文件迁移 126
7.8小结 127
第8 章审计 .128
8.1HDFS 审计日志 .129
8.2MapReduce 审计日志 .130
8.3YARN 审计日志132
8.4Hive 审计日志 134
8.5ClouderaImpala 审计日志 134
8.6HBase 审计日志 135
8.7Accumulo 审计日志 137
8.8Sentry 审计日志 139
8.9日志聚合 140
8.10小结 141
第三部分数据安全
第9 章数据保护 .144
9.1加密算法 144
9.2静态数据加密 .145
9.2.1加密和密钥管理 146
9.2.2HDFS 静态数据加密 .146
9.2.3MapReduce2 中间数据加密 151
9.2.4Impala 磁盘溢出加密 152
9.2.5全盘加密 152
9.2.6文件系统加密 154
9.2.7Hadoop 中重要数据的安全考虑 .155
9.3动态数据加密 .156
9.3.1传输层安全 .156
9.3.2Hadoop 动态数据加密 157
目录 | ix
9.4数据销毁和删除 162
9.5小结 163
第10 章数据导入安全 .164
10.1导入数据的完整性 165
10.2数据导入的机密性 166
10.2.1Flume 加密 167
10.2.2Sqoop 加密 173
10.3导入工作流 178
10.4企业架构 .179
10.5小结 180
第11 章数据提取和客户端访问安全 181
11.1Hadoop 命令行接口 .182
11.2保护应用安全 183
11.3HBase 184
11.3.1HBase shell 184
11.3.2HBase REST 网关 186
11.3.3HBase Thrift 网关 189
11.4Accumulo 190
11.4.1Accumulo shell 190
11.4.2Accumulo 服务 192
11.5Oozie .192
11.6Sqoop .194
11.7SQL 访问 195
11.7.1Impala .195
11.7.2Hive .200
11.8WebHDFS/HttpFS 208
11.9小结 209
第12 章Cloudera Hue .210
12.1Hue HTTPS 211
12.2Hue 身份验证 212
12.2.1SPNEGO 后端 212
12.2.2SAML 后端 .213
12.2.3LDAP 后端 .215
12.3Hue 授权 .218
12.4Hue SSL 客户端配置 219
12.5小结 219
x | 目录
第四部分综合应用
第13 章案例分析 .222
13.1案例分析:Hadoop 数据仓库 222
13.1.1环境搭建 223
13.1.2用户体验 226
13.1.3小结 .229
13.2案例分析:交互式HBaseWeb 应用 .230
13.2.1设计与架构 .230
13.2.2安全需求 231
13.2.3集群配置 232
13.2.4实现中的注意事项 .236
13.2.5小结 .237
后记 .238
关于作者 .240
关于封面 .240
“Hadoop能够让你存储更多数据,并使用多种高效工具对其进行挖掘。本书帮你了解如何安全无忧地体验Hadoop这些强大性能。” ——Doug Cutting,Hadoop之父
“本书的两位作者在将安全概念引入Hadoop平台方面做出过突出贡献,他们不但介绍了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变过程,还对如何安全管理大数据给出了具体意见。” ——Mike Olson,Cloudera公司首-席战略官、联合创始人