《HBase企业应用开发实战》书评-杂志之家

内容简介

本书强调HBase在企业的实际应用，立足于企业的实际生产环境，旨在帮助企业切实解决大数据技术如何落地的问题。三位作者都是奋战在中国大数据技术一线的实践派专家，本书是他们实践经验的结晶。

本书内容在三个维度上具有重要特色：功能维度，从HBase的安装配置、参数设置，到数据模型、表结构设计、客户端使用、高级特性，本书做了系统且详尽的介绍；实战维度，不仅通过3个典型的应用案例详细讲解了如何使用HBase设计大型的数据应用系统，而且还结合实际生产系统讲解了HBase的集群运维、监控和性能调优；理论维度，则深入分析了HBase、框架设计、模式设计和基本原理。可谓是理论与实践结合，深度与广度兼备！

编辑推荐

国内博学Hadoop技术专家实践经验结晶，从企业实际生产环境和需求出发，旨在帮助企业真正解决大数据的落地问题

系统介绍HBase的功能使用、框架设计、基本原理和高级特性；详细讲解使用HBase设计大型数据应用系统的实践方法和技巧；深刻总结系统运维、监控和性能调优的实践

作者简介

马延辉博学Hadoop技术专家，对Hadoop生态系统相关技术有深刻的理解。曾就职于、Answers.com、暴风影音等知名互联网公司，从事Hadoop相关的技术工作，在企业级的大数据系统的研发、运维和管理方面积累了丰富的实战经验。开源HBase监控工具Ella作者。在国内Hadoop社区内非常活跃，经常在各种会议和沙龙上做技术分享，深受欢迎。现在专注于大数据技术在传统行业的落地，致力于大数据技术的普及和推广。

孟鑫博学Hadoop技术专家，在软件行业从业近10年，对海量数据处理技术有着深刻的认识，曾负责Hadoop平台建设工作，在Hadoop开发和运维方面积累了大量的实战经验。于2013年获取了Cloudera的Hadoop Developer认证，多次到企业和社区去分享Hadoop、HBase等方面的技术知识和经验。对技术拥有极大的兴趣，热衷于研究各种新技术，总结和分享经验及教训，目前从事管理工作，但依然热衷于产品设计和实现。

李立松博学Hadoop技术专家，Easyhadoop技术社区创始人之一，对HDFS、MapReduce、HBase、Hive等Hadoop生态系统中的技术有比较深入的研究，在Hadoop开发方面积累了丰富的经验。曾就职于暴风，负责暴风大数据平台开发与应用，暴风大数据项目负责人。现在就职于缔元信，担任Hadoop高级工程师，负责缔元信DMP平台的研发工作。

在线预览

及时部分 Part 1

基础篇

第1章认识HBase

第2章 HBase安装与配置

第3章数据模型

第4章 HBase表结构设计

第5章 HBase客户端

Chapter 1 第1章

认识HBase

本章将介绍大数据背景和HBase的基本概念，从大数据引申到NoSQL，并阐述HBase出现的契机。随后，将介绍HBase的概念、发展历史、发行版本和基本特性。其中，HBase的核心功能模块将作为一个小节单独重点介绍，通过介绍HBase的使用场景和经典案例，让读者朋友能够清晰地了解HBase可以做什么。

作为NoSQL家庭的一员，HBase的出现弥补了Hadoop只能离线批处理的不足，同时能够存储小文件，提供海量数据的随机检索，并保障一定的性能。而这些特性也完善了整个Hadoop生态系统，泛化其大数据的处理能力，结合其高性能、稳定、扩展性好的特行，给使用大数据的企业带来了福音。

因为本章是全书的开篇，唯有简明扼要地介绍才能帮助正在学习和想要学习HBase的读者，所以本章将提纲掣领地介绍HBase的相关知识，重点介绍HBase是什么以及HBase能做什么两部分。

1.1 理解大数据背景

经美国机构IDC调查发现，现如今的公司正在以前所未有的速度和丰富的类型产生数据，并且也有能力存储这些数据，但是，如何关联这两方面以便产生较大的商业价值，是所有公司共同面临的挑战。这个问题非常复杂：虽然业务人员在技能提升和专业工具的帮助下，越来越了解数据，但由于数据的增长速度越来越快，积累量级越来越大，公司可以利用的数据比例正在迅速下降。

1.1.1 什么是大数据

Gartner认为与过去相关概念相比，大数据强调3V特征，即Volume(量级)、Varity(种类)和Velocity(速度)，如图1-1所示。

图1-1 大数据三大特性

如今存储的数据量正在急剧增长，2000年全球存储了EB级别的数据，预计到2020年，该值将变为ZB级别。仅Twitter每天就会生成超过10TB的数据，Facebook的数据为几十TB，一些特殊的企业在每小时就会产生TB级别的数据。

上面这些企业是一些典型的案例，其实我们生活的方方面面都会形成很多"轨迹"。例如，打开手机会生成一个事件；乘坐公共交通刷卡，这是一个事件；检票登机、打卡上班、App Store上购买应用、更换电视频道、使用高速路电子收费系统等。每一项操作都会生成数据，并且该数据的量级与参与的人数相关，全球60亿人口，如果仅仅1/10的人参与进来，那么这个数据量级就已经非常惊人。就在10年前IT界超过1TB的数据仓库屈指可数，而现在则是"举不胜举"。

随着传感器、智能设备以及社交协作技术的激增，企业中的数据也变得更加复杂，因为它不仅包含传统的关系型数据，还包含来自网页、Web日志文件、社交媒体论坛、电子邮件、文档、传感器数据等原始、半结构化和非结构化数据。

传统系统可能很难存储、分析这些数据的内容，更不要说挖掘有价值的信息。因为传统的数据库、数据仓库、联机事务处理等技术并不适合处理这些数据。尽管一些公司正在朝大数据方向大力发展，但总体而言，大部分公司只是刚开始理解大数据。当回首整个数据库发展的历程会发现，人们将大部分时间都花在仅20%的数据上：这些数据格式整齐且符合严格模式的关系类型。但事实是，全球80%的数据是非结构化的或者半结构化的。

视频和图片不能轻松或高效地存储在关系型数据库中，某些事件信息可能动态地更改(如气象)，它们不太适合严格的模式。要利用大数据，企业必须能够分析所有类型的数据，包括关系和非关系数据：文本、传感器数据、音频和视频等。

有效处理大数据需要在数据变化的过程中对它的数量和种类进行分析，而不只是在"静止"状态进行分析。业界定义这种情况为从单纯批量计算模式到实时动态计算模式的内涵式转变。内涵式在这里也比较容易理解，即结构优化、质量提高，是一种实现实质性的跨越式的进程。大数据平台允许用户将所有数据存储为其原生的业务对象格式，通过可用组件上的大规模并行计算实现价值，不仅仅是批量处理和离线分析，同时支持实时查询和处理等特征，甚至要求响应时间在毫秒级别，并且可承受大规模的并发访问，这些都是"速度"特征的范畴。

看过该图书的还看过

网友评论(不代表本站观点)

免责声明

本站合法持有《出版物经营许可证》，仅销售经国家新闻出版署批准的合法期刊，不是任何杂志、图书官网，不涉及出版事务。本站仅提供有限咨询服务，需要用户自己向出版商投稿且没有绿色通道，是否录用一切以出版商通知为准。提及的第三方名称或商标，其知识产权均属于相应的出版商或期刊，本站与上述机构无从属关系，所有引用均出于解释服务内容的考量，符合商标法规范。本页信息均由法务团队进行把关，若期刊信息有任何问题，请联系在线客服，我们会认真核实处理。若用户需要出版服务，请联系相关出版商。