在线客服
大数据分布式计算与案例图书
人气:24

大数据分布式计算与案例

序言大数据分布式计算课程是大数据方向应用统计专业硕士学生的专业必修课,通过本课程的学习使学生能够掌握目前大数据挖掘领域常用的并行计算方法,加深学生对统计并行计算的理解,培养学生使用在现代并行架构下利...

内容简介

大数据分布式计算课程是大数据方向应用统计专业硕士学生的专业必修课,通过本课程的学习使学生能够掌握目前大数据挖掘领域常用的并行计算方法,加深学生对统计并行计算的理解,培养学生使用在现代并行架构下利用统计方法深入挖掘大数据中的数据结构并能解决一些实际问题的能力。

编辑推荐

导语_点评_推荐词

作者简介

李丰 中央财经大学统计与数学学院硕士生导师,院长助理。瑞典斯德哥尔摩大学统计学系统计学博士。研究方向与兴趣:大数据与复杂模型、贝叶斯推断与统计计算、计量经济与预测方法、多元模型等。曾获国际贝叶斯协会青年旅行奖励、瑞典Knut and Alice Wallenberg 基金会奖励。任中国统计教育学会高等教育分会副秘书长。金融工程与风险管理国际研讨会执行秘书等。

目录

目录

第1章 统计分析与并行计算

1.1 并行计算与并行计算机

1.2 统计计算的并行原理||以矩阵乘法为例

1.3 基于R 的单机并行计算

1.4 基于Python 的单机并行计算

1.5 大数据背景下的数据采集和存储

1.6 参考文献

第2章 Hadoop 基础

2.1 Hadoop 历史、生态系统

2.2 Hadoop 的分布式文件系统(HDFS)

2.3 MapReduce 工作原理

2.4 Hadoop 上运行MapReduce

2.5 MapReduce 实例: 分层随机抽样

2.6 MapReduce 实例: 聚类分析

2.7 参考文献

第3章 基于Hadoop 的分布式算法和模型实现

3.1 R 中实现Hadoop 分布式计算

3.2 Mahout 与大数据机器学习

3.3 利用Mahout 进行数据挖掘

3.4 Mahout 实例: Logistics 回归和随机森林分类算法

3.5 Mahout 实例: 随机森林的分布式实现

3.6 参考文献

第4章 统计模型的MapReduce 实现详解

4.1 泊松回归模型: 付费搜索广告分析

4.2 判别分析: 气象因素对雾霾影响分析

4.3 分块Logistics 回归

4.4 文本分类

4.5 朴素贝叶斯模型

4.6 岭回归模型

4.7 推荐系统

4.8 参考文献

第5章 分布式文件访问与计算

5.1 Hive 基础

5.2 HiveQL 数据定义(DDL)

5.3 HBase

5.4 Hive 实例: FoodMart 案例

5.5 Hive 实例: Hive Streaming 交互计算

5.6 参考文献

第6章 Spark 与统计模型

6.1 Spark 简介

6.2 Spark 工作原理介绍

6.3 Pyspark 命令介绍

6.4 Spark 实例: 通过Word Count 了解Spark 工作流程

6.5 Spark 实例: 二分类学习

6.6 Spark 实例: 决策树模型

6.7 参考文献

附录A Hadoop 安装运行

A.1 单机伪分布式安装

A.2 全分布式集群

附录B Mahout 安装与运行

附录C Hive 安装运行

C.1 准备

C.2 安装Hive

C.3 配置Hive

附录D HBase 安装运行

D.1 安装配置HBase

D.2 启动HBase

在线预览

前言

本书的编写受益于中央财经大学联合中国人民大学、北京大学、中国科学院大学和首都经济贸易大学五所高校与政府部门和产业界联合共建的大数据分析硕士培养协同创新平台。我有幸作为该平台主要课程设计和讲授的教师之一, 负责大数据分析方向研究生课程\大数据分布式计算" 的建设和教学。本教材是以该课程2014|2015 年的教学内容和讲义辅以教学案例为蓝本编写的。

目前市面上与大数据相关的计算类书籍有很多, 但是均面向计算机相关专业人员。有的侧重于大数据分布式平台Hadoop 或者Spark 的架构, 有的侧重于大数据计算相关计算机语言介绍, 有的侧重于大数据平台的系统开发, 但是针对大数据分析最为重要和骨髓部分之一的统计模型, 相关实践类书籍还相对较少。

本书侧重于统计和机器学习模型在大数据分布式平台的应用, 从案例入手, 介绍常见统计模型的大数据分布式计算原理。基于单机共享内存背景开发的统计软件很难直接应用于分布式存储的海量数据。对于初学者而言, 在大数据平台下, 即便是开发简单的回归模型或者逻辑斯蒂模型都非常困难, 更不用说复杂的统计、机器学习算法, 这直接阻碍了高效的统计模型在大数据中的开发和部署。

考虑到数据相关工作者在企业实际策略开发和建模中R 语言与Python 语言是基础语言, 为了方便相关读者快速入门, 本书的主要语言采用R 语言和Python 语言, 但是本书中提到的大数据建模思想是不受语言限制的, 读者可以根据自己擅长的语言实现相关模型的大数据开发。

与传统的大数据计算类书籍不同, 本书的侧重点是统计模型的实际案例解决, 因此本书每章均附有较完整的统计案例。考虑到市面上对于大数据平台的搭建和配置书籍已经很多,而且对于企业而言, 这样的平台往往已经很完善, 本书淡化了该部分, 感兴趣的读者可以参考相关书籍或者本书的附录。

本书按照如下结构组织: 第1 章介绍大数据分布式计算的背景和基于R 语言和Python语言的单机并行原理, 让读者熟悉分布式的基本概念。第2 章介绍目前流行的大数据分布式计算框架Hadoop 的历史、文件存储系统以及大数据分布式计算的各个击破原理, 即MapRe-duce。与Hadoop 相关的安装配置参见附录A。第3 章介绍现有大数据分布式平台中常见的统计模型的原理以及案例分析。与之相关的Mahout 安装和配置参见附录B。第4 章以多个案例的形式介绍如何在大数据平台开发常见统计模型。第5 章介绍分布式文件系统的访问和操作。与此相关的Hive、HBase 的安装参见附录C 和附录D。第6 章对学有余力的读者介绍Spark 平台下统计分析的基础, 并配有PySpark 使用基础和基于Scala 语言的案例。附录E 介绍Spark 和Scala 的安装和配置。

在此要特别感谢中国人民大学统计学院吕晓玲老师以及李天博、王小宁、丁维悦、曹昕、李荣庆、王张浩、王高斌同学在本书的编写过程中对文字和内容的大力贡献。感谢参加五校大数据分析方向研究生课程的同学对本书案例的贡献, 他们是成慧敏、陈思聪、陈晞、刘利恒、刘智彬、魏诗韵、吴雅雯、辛思、张楚妍、张诗玉、赵哲汇、郑巧筠、朱述政。没有吕老师和几位同学的协助, 就没有《大数据分布式计算与案例》一书的最终及时成稿。感谢百度大数据部高级工程师康雁飞博士、中央财经大学统计与数学学院方剑和刘静同学对本书的认真校对。

由于编写时间仓促和本人水平有限, 书中的错误和纰漏一定有很多, 恳请读者不吝指出以便作出修正。

网友评论(不代表本站观点)

免责声明

更多相关图书