大数据将打开各行各业的数据"潘多拉魔盒"。
社交网站、电商巨头、电信运营商乃至金融、医疗、教育等行业,都将加入大数据的"淘金"热潮,政府部门同样会从大数据中获益匪浅。如何将海量数据应用于决策、营销和产品创新?如何利用大数据平台优化产品、流程和服务?如何利用大数据更科学地制定公共政策、实现社会治理?所有这一切,都离不开大数据治理。可以说,在大数据战略从顶层设计到底层实现的"落地"过程中,治理是基础,技术是承载,分析是手段,应用是目的。桑尼尔·索雷斯的《大数据治理》的翻译出版,正当其时。
《大数据治理》一书较好地满足了理解大数据治理框架的需要,系统地阐述了大数据治理的各个版块,分析了五大类大数据的治理,考察了大数据治理在典型行业的实践,并深入浅出地介绍了当今主流的大数据技术与平台。该书具有一定的可参照性、可操作性和可读性,是大数据治理领域值得一读的参考书。
桑尼尔·索雷斯的《大数据治理》是一个信息治理专家奉献的鸿篇巨制,作者以极其实用和通俗易懂的风格,倾心向读者解读大数据治理这一复杂主题。作为一家大公司的博学IT专家,我本人在面对数据窘境时,感觉不知所措。对数据领域的从业人员来说,面临的问题多过答案。我所在的组织是南非的主导电信运营商,我们拥有海量的电话详单、位置数据和社交媒体生成的数据。要明智地使用数据,就必须管理所有数据。本书匠心独运,揭开了大数据的迷人景致,为我们应对大数据领域的挑战,提供了必要的智力成果。
桑尼尔·索雷斯是信息资产公司LLC的创始人和执行合伙人,LLC专注于帮助组织构建信息治理计划。曾任IBM的信息治理总监,合作客户遍布六大洲和众多行业。
除本书外,桑尼尔著有《IBM数据治理统程》、《说服企业实施信息治理:行业和工作职能实践》两书,前者被许多组织用作信息治理计划的蓝本,并被译成中文。
匡斌,中国联通研究院信息室/编辑部副主任、博士,具有16年电信行业从业经验。专注于电信营销、电信规制、电信运营业新业态等领域的研究。
个人著译:《电信营销:理论精要》(编著)、《电信营销:案例精选》(编著)、《竞争与混沌:1996年电信法出台以来的美国电信业》(译)。
电子邮件:kuaJlgbin69@vip.sina.com
及时部分 开篇
第1章 大数据治理概述
第2章 大数据治理的框架
2.1 大数据类型
2.2 信息治理准则
2.3 大数据治理的产业和功能场景
第3章 成熟度评估
3.1 IBM信息治理委员会的成熟度模型
3.2 评估成熟度的示例问题
第4章 业务案例
4.1 通过大数据治理,提高运营实时性和旅客安全度
4.2 量化大数据治理对客户隐私的财务影响
4.3 通过治理大数据生命周期,降低IT成本
4.4 评估数据质量和主数据对大数据计划的影响
4.5 计算大数据质量的价值
第5章 路线图
5.1 路线图案例研究
第二部分 大数据治理准则
第6章 大数据治理的组织
6.1 绘制关键流程图并建立职责分配模型,以识别大数据治理中的利益攸关者
6.2 确定新角色和既有角色的适当组合
6.3 酌情任命大数据主管
6.4 在传统信息治理角色的基础上,酌情增加大数据责任
6.5 建立承担包括大数据在内的责任混合式信息治理组织
第7章 元数据
7.1 创建一个体现关键大数据术语的业务定义的词库
7.2 理解对ApacheHadoop中元数据的持续支持
7.3 对业务词库中的敏感大数据进行标记
7.4 从相关的大数据存储中输入技术元数据
7.5 将相关的数据源与业务词库中的术语进行链接
7.6 使用运营元数据监测大数据的流动
7.7 保留技术元数据,以支持数据血统和影响分析
7.8 从非结构化文件中采集元数据,支持企业搜索
7.9 扩展既有的元数据角色,将大数据纳入其中
第8章 大数据隐私
8.1 识别敏感的大数据
8.2 对元数据库中的敏感大数据进行标记
8.3 应对国家、州(省)层面的隐私立法和隐私限制
8.4 管理个人数据跨国界流动的情况
8.5 监控特权用户对敏感大数据的访问
第9章 大数据质量
9.1 与商业上的利益攸关者协作,建立并测度大数据质量的置信区间
9.2 利用准结构化和非结构化数据,提高人口稀疏的结构化数据的质量
9.3 使用流数据分析技术解决内存中的数据质量问题,无须将中间结果输入硬盘
9.4 任命对信息治理委员会负责的数据主管,由其负责提高测度的质量
第10章 业务流程整合
10.1 识别将会受到大数据治理影响的关键流程
10.2 建立关键活动的流程图
10.3 针对业务流程中的关键步骤,制定大数据治理政策
第11章 主数据整合
11.1 提高主数据的质量,以支持大数据分析
11.2 利用大数据提高主数据的质量
11.3 提高关键参考数据的质量和一致性,以支持大数据治理计划
11.4 审视社交媒体平台政策,以确定与主数据管理整合的程度
11.5 从非结构化文本中挖掘有用信息,以丰富主数据
第12章 管理大数据的生命周期
12.1 基于规制和业务要求,扩展保留时间表,将大数据包含其中
12.2 提供法律保留区,并支持电子证据展示(eDiscovery)
12.3 压缩大数据并将其存档,降低IT成本,提高应用绩效
12.4 管理实时流数据的生命周期
12.5 保留社交媒体记录,以符合规制要求,并支持电子证据展示
12.6 基于规制和业务要求,正当合理地处置不再需要的大数据
第三部分 大数据的类型
第13章 Web和社交媒体数据
13.1 在制定有关客户社交媒体数据的可接受使用的政策时,考虑不断变化的规制和习俗
13.2 制定有关雇员和求职者社交媒体数据的可接受使用的政策
13.3 利用置信区间评估社交媒体数据的质量
13.4 制定有关Cookies与其他Web跟踪装置的可接受使用的政策
13.5 在不侵犯隐私并遵从规制要求的基础上,定义连接在线和离线数据的政策
13.6 确保网络统计数据的一致性
第14章 机器对机器的数据
14.1 评估目前可用的地理位置数据
14.2 制定关于客户地理位置数据的可接受使用的政策
14.3 制定关于雇员地理位置数据的可接受使用的政策
14.4 保障RFID数据的隐私安全
14.5 制定与其他类型M2M数据的隐私相关的政策
14.6 处理元数据和M2M数据的质量问题
14.7 制定与M2M数据的保留期有关的政策
14.8 提高主数据的质量,以支持M2M计划
14.9 确保SCADA设施免遭网络攻击
第15章 大体量交易数据
第16章 生物计量学数据
16.1 评估与生物计量学数据的可接受使用相关的隐私含义
16.2 与法律顾问通力合作,确定演进中的规制对使用客户和雇员生物计量学数据的影响
第17章 人工生成的数据
17.1 制定屏蔽敏感的人工生成数据的政策
17.2 使用非结构化的人工生成数据,提高结构化数据的质量
17.3 管理人工生成数据的生命周期,降低成本并遵循规制要求
17.4 从非结构化的人工生成数据中获得洞察力,以丰富MDM
第四部分 行业视角
第18章 医疗保健机构
18.1 利用非结构化数据,提高人口稀疏的结构化数据的质量
18.2 提取从结构化数据中无法获得的更多临床因素
18.3 设定关键业务术语的一致性定义
18.4 确保跨科室的患者主数据的一致性
18.5 与美国HIPAA的规定一致,符合受保护的健康信息的隐私要求
18.6 创造性管理参考数据,以获得更多临床洞察
第19章 公用事业部门
19.1 复制仪表读数
19.2 主关键字的参照完整性
19.3 异常的仪表读数
19.4 客户地址的数据质量
19.5 信息生命周期管理
19.6 数据库监测
19.7 技术架构
第20章 通信服务提供商
20.1 大数据类型
20.2 将大数据与主数据进行整合
20.3 大数据隐私
20.4 大数据质量
20.5 大数据生命周期管理
第五部分 大数据技术
第21章 大数据的参考架构
21.1 大数据源
21.2 开源基础组件
21.3 Hadoop发行版
21.4 流数据分析
21.5 数据库
21.6 大数据整合
21.7 文本分析
21.8 大数据发现
21.9 大数据质量
21.10 大数据的元数据
21.11 信息政策管理
21.12 主数据管理
21.13 数据仓库与数据集市
21.14 大数据分析与报告
21.15 大数据安全与隐私
21.16 大数据生命周期管理
21.17 云
第22章 大数据平台
22.1 IBM
22.2 甲骨文
22.3 SAP
22.4 微软
22.5 HP
22.6 Informatica
22.7 SAS
22.8 Teradata
22.9 EMC
22.10 Amazon
22.11 谷歌
22.12 Pentaho
22.13 Talend
附录 缩略语列表
译者后记
第1章大数据治理概述当下,数据正在将我们淹没。蔚为壮观的数据,来自于社交媒体、电话GPS信号、公用事业智能仪表、RFID标签、数字图片和其他数据源中的在线视频。
IDC宣称,2011年,数字世界的信息量超过1.8ZB(泽字节,1.8亿GB),预计将以每两年翻番的速度增长。
大部分数据可视为大数据。谈到大数据,通常以"3V"——体量(Volume)、速度(Velocity)和多样性(Variety)概括其特征。我们增加了一个"V"(Value),代表数据的价值。以下是对这四个特征的简单描述:体量(数据的静态描述)。大数据通常具有较大体量。企业被数据堆砌,很容易积攒TB(太字节)级和PB(拍字节)级的信息,甚至在将来可轻易积攒ZB级的信息。
速度(数据的动态描述)。通常具有时间敏感性,流数据的分析必须以毫秒计,以支撑实时决策。
多样性(数据的多格式化)。大数据包括结构化数据、准结构化数据和非结构化数据,如电子邮件、音频、视频、点击流、日志文档和生物计量学数据。
价值(数据的经济有效性)。组织正在努力以经济有效的方式从大数据中获得洞察力。这正是ApacheHadoop等开源技术大行其道的原因所在。本书后续章节中详细介绍的Hadoop,是一种以经济有效的方式处理成百上千台计算机中的大数据集的软件。
组织必须治理全部大数据,由此引出了本书的主题。我们将大数据治理定义如下:大数据治理是广义信息治理计划的一部分,即制定与大数据有关的数据优化、隐私保护与数据变现的政策。
我们将上述大数据治理的定义分解为以下部分:(1)大数据是广义信息治理计划的一部分。信息治理机构必须采取以下措施,以将大数据整合到既有的信息治理框架中:扩展信息治理宪章的外延,将大数据治理纳入其中;拓宽信息治理委员会成员的范围,将数据科学家等大数据的超级用户吸纳进来;任命处理社交媒体等特定大数据的主管;将大数据与元数据、隐私、数据质量和主数据等信息治理准则结合。
(2)大数据治理关乎政策制定。政策包括人们在特定情形下如何作为的成文和非成文的宣告。譬如,大数据治理政策可能申明,未经顾客知情并同意,组织不得将顾客的Facebook资料整合到其主数据记录中。
(3)大数据必须优化。考虑一下组织是如何将现实世界的准则应用到大数据治理中的。公司设计了精致的企业资产管理计划,对机器、飞机、交通工具和其他资产进行妥善管理。与对实物资产进行登记类似,组织必须对大数据进行如下优化:元数据——建立大数据类别信息数据质量管理——像公司对实物资产进行定期检修一样,定期净化大数据。
信息生命周期管理——对大数据进行存档,并在没必要继续保存某些数据时,将其删除。
(4)大数据隐私至关重要。组织同样必须建立旨在防止大数据误用的适当政策。组织在处理社交媒体、地理定位、生物计量学和其他形式的个人可识别信息(PII)时,必须考虑涉及的声誉、规制和法律风险。
(5)大数据必须变现。所谓变现,就是将数据等资产转化为现金的过程,变现的方式可以是将数据卖给第三方,也可以是利用数据开发新的服务。在传统的会计准则下,不允许公司在平衡报表中将信息视同为财务资产,除非信息是从外部来源购买的。尽管传统的会计处理趋于保守,但在当下,公司意识到,必须将大数据视为具有财务价值的企业资产。例如,运营部门可以通过传感器数据,根据定期检修计划,提高设备正常运行时间。呼叫中心可以分析客户代表的记录,通过了解顾客呼叫的原因,降低呼叫量。此外,零售商可以使用主数据激活Facebook的应用程序,提升顾客忠诚度。
……P3-5
大数据涉及不同来源的复杂数据。倘若缺乏得当的数据治理,那就很难正确地整合数据。《大数据治理》一书为您提供了制定大数据治理计划所必须的信息和见识,而大数据治理计划是支持大数据整合项目不可或缺的。好样的,桑尼尔!
——Symphony IRI Group技术研究副总裁
杰·犹斯科 博士
本书是一个信息治理专家奉献的鸿篇巨制,作者以极其实用和通俗易懂的风格,倾心向读者解读大数据治理这一复杂主题。
作为一家大公司的博学IT专家,我本人在面对数据窘境时,感觉不知所措。对数据领域的从业人员来说,面临的问题多过答案。我所在的组织是南非的主导电信运营商,我们拥有海量的电话详单、位置数据和社交媒体生成的数据——要明智地使用数据,就必须管理所有数据。
本书匠心独运,揭开了大数据的迷人景致,为我们应对大数据领域的挑战,提供了必要的智力成果。
本书的字里行间,流淌着丰富的信息。如今,我终于有机会将本书所述的理念和知识融会贯通。我更有信心应对公司面临的大数据挑战,对此,我满怀热枕,决心已定。 大数据涉及不同来源的复杂数据。倘若缺乏得当的数据治理,那就很难正确地整合数据。《大数据治理》一书为您提供了制定大数据治理计划所必须的信息和见识,而大数据治理计划是支持大数据整合项目不可或缺的。好样的,桑尼尔!
——Symphony IRI Group技术研究副总裁
杰·犹斯科 博士
本书是一个信息治理专家奉献的鸿篇巨制,作者以极其实用和通俗易懂的风格,倾心向读者解读大数据治理这一复杂主题。
作为一家大公司的博学IT专家,我本人在面对数据窘境时,感觉不知所措。对数据领域的从业人员来说,面临的问题多过答案。我所在的组织是南非的主导电信运营商,我们拥有海量的电话详单、位置数据和社交媒体生成的数据——要明智地使用数据,就必须管理所有数据。
本书匠心独运,揭开了大数据的迷人景致,为我们应对大数据领域的挑战,提供了必要的智力成果。
本书的字里行间,流淌着丰富的信息。如今,我终于有机会将本书所述的理念和知识融会贯通。我更有信心应对公司面临的大数据挑战,对此,我满怀热枕,决心已定。
拜桑尼尔在本书中提供的指南所赐,我们所有数据从业人员都将获得成功!
——南非电信数据治理办公室主任
柯马林·伽迪
可以说,在大数据战略从顶层设计到底层实现的"落地"过程中,治理是基础,技术是承载,分析是手段,应用是目的。《大数据治理》一书的翻译出版,正当其时。
相信在可预见的将来,经过循序渐进的治理,大数据将成为重要的国家资源和企业的核心生产要素。大数据将给中国的政府、企业和其它组织,带来切切实实的收益。
——工业和信息化部软件服务业司司长 陈伟教授
大数据的淘金之旅,需要脚踏实地的努力。大数据治理是连接大数据科学和应用的桥梁,若要到达风光无限的大数据彼岸,大数据治理一定是"必修课"之一。
大数据的思想启蒙运动正在开始,从大数据治理起步,不断探索这个领域的产权、法律和交易等问题,才能成为进入大数据世界的先行者。
——宽带资本董事长 田溯宁博士
2013年,IBM在全球进行了5次有关大数据的调研,发现:超过2/3的企业正在使用大数据分析来支持企业创收策略;近40%的企业在采纳大数据分析后的6个月内,就看到了快速的投资回报(ROI)。
大数据治理是大数据分析的基础。本书梳理了大数据治理的各个方面,分享了全球很多经典案例,对于企业充分利用大数据帮助创造新的市场机会,有很大借鉴意义。
——IBM全球副总裁兼IBM软件集团大中华区总经理 胡世忠