《Spark MLlib机器学习实践（第2版）》书评-杂志之家

内容简介

Spark作为新兴的、应用范围为广泛的大数据处理开源框架引起了广泛的关注，它吸引了大量程序设计和开发人员进行相关内容的学习与开发，其中MLlib是Spark框架使用的核心。本书是一本细致介绍Spark MLlib程序设计的图书，入门简单，示例丰富。本书分为13章，从Spark基础安装和配置开始，依次介绍MLlib程序设计基础、MLlib的数据对象构建、MLlib中RDD使用介绍，各种分类、聚类、回归等数据处理方法，后还通过一个完整的实例，回顾了前面的学习内容，并通过代码实现了一个完整的分析过程。本书理论内容由浅而深，采取实例和理论相结合的方式，讲解细致直观，适合Spark MLlib初学者、大数据分析和挖掘人员，也适合高校和培训学习相关专业的师生教学参考。

编辑推荐

MLlib是Apache Spark机器学习库。本书入门简单，实例丰富，详解协同过滤、线性回归、分类、决策树、保序回归、聚类、关联、数据降维、特征提取和转换等MLlib主要算法，用实例说明MLlib大数据机器学习算法的运用。

作者简介

王晓华，高校博学计算机专业讲师,主要研究方向为云计算、数据挖掘；曾主持和参与多项国家和省级科研课题，发表过多篇论文，有一项专利。

在线预览

回归分析(regression analysis)是一种用来确定两种或两种以上变量间相互依赖的定量关系的统计分析方法，运用十分广泛。回归分析可以按以下要素分类：? 按照涉及的自变量的多少，分为回归和多重回归分析；? 按照自变量的多少，可分为一元回归分析和多元回归分析；? 按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多重线性回归分析。回归分析是最常用的机器学习算法之一，可以说回归分析理论与实际研究的建立使得机器学习作为一门系统的计算机应用学科得以确认。MLlib中，线性回归是一种能够较为预测具体数据的回归方法，它通过给定的一系列训练数据，在预测算法的帮助下预测未知的数据。本章将向读者介绍线性回归的基本理论与MLlib中使用的预测算法，以及为了防止过度拟合而进行的正则化处理，这些不仅仅是回归算法的核心，也是MLlib的最核心部分。本章主要知识点：? 随机梯度下降算法详解? MLlib回归的过拟合? MLlib线性回归实战6.1 随机梯度下降算法详解机器学习中回归算法的种类有很多，例如神经网络回归算法、蚁群回归算法、支持向量机回归算法等，这些都可以在一定程度上达成回归拟合的目的。MLlib中使用的是较为经典的随机梯度下降算法，它充分利用了Spark框架的迭代计算特性，通过不停地判断和选择当前目标下的路径，从而能够在最短路径下达到的结果，继而提高大数据的计算效率。6.1.1 道士下山的故事在介绍随机梯度下降算法之前，给大家讲一个道士下山的故事。请读者看图6-1。图6-1 模拟随机梯度下降算法的演示图这是一个模拟随机梯度下降算法的演示图。为了便于理解，笔者将其比喻成道士想要出去游玩的一座山。设想道士有24小时和道友一起到一座不太熟悉的山上去玩，在兴趣盎然中很快登上了山顶。但是天有不测，下起了雨。如果这时需要道士和其同来的道友以最快的速度下山，那该怎么办呢？如果想以最快的速度下山，那么最快的办法就是顺着坡度最陡峭的地方走下去。但是由于不熟悉路，道士在下山的过程中，每走过一段路程需要停下来观望，从而选择最陡峭的下山路线。这样一路走下来的话，可以在最短时间内走到山脚。这个最短的路线从图上可以近似的表示为：① → ② → ③ → ④ → ⑤ → ⑥ → ⑦每个数字代表每次停顿的地点，这样只需要在每个停顿的地点上选择最陡峭的下山路即可。这个就是一个道士下山的故事。随机梯度下降算法和这个类似，如果想要使用最迅捷的方法，那么最简单的办法就是在下降一个梯度的阶层后，寻找一个当前获得的较大坡度继续下降。这就是随机梯度算法的原理。6.1.2 随机梯度下降算法的理论基础从上一小节的例子可以看到，随机梯度下降算法就是不停地寻找某个节点中下降幅度较大的那个趋势进行迭代计算，直到将数据收缩到符合要求的范围为止。它可以用数学公式表达如下：在上一章介绍最小二乘法的时候，笔者通过最小二乘法说明了直接求解化变量的方法，也介绍了在求解过程中的前提条件是要求计算值与实际值的偏差的平方最小。但是在随机梯度下降算法中，对于系数需要通过不停地求解出当前位置下化的数据。这句话通过数学方式表达的话就是不停地对系数θ求偏导数。即公式如下：公式中θ会向着梯度下降的最快方向减少，从而推断出θ的解。因此可以说随机梯度下降算法最终被归结为通过迭代计算特征值从而求出最合适的值。θ求解的公式如下：公式中α是下降系数，用较为通俗的话来说就是用以计算每次下降的幅度大小。系数越大则每次计算中差值越大，系数越小则差值越小，但是计算时间也相对延长。6.1.3 随机梯度下降算法实战随机梯度下降算法将梯度下降算法通过一个模型来表示的话，如图6-2所示：图6-2 随机梯度下降算法过程从图中可以看到，实现随机梯度下降算法的关键是拟合算法的实现。而本例的拟合算法实现较为简单，通过不停地修正数据值从而达到数据的值。具体实现代码如程序6-1所示：代码位置：//SRC//C06// SGD.scala程序6-1 随机梯度下降算法import scala.collection.mutable.HashMap

object SGD { val data = HashMap[Int,Int]() //创建数据集 def getData():HashMap[Int,Int] = { //生成数据集内容 for(i (12i)) //写入公式y=2x } data //返回数据集 }

var θ:Double = 0 //及时步假设θ为0 var α:Double = 0.1 //设置步进系数

def sgd(x:Double,y:Double) = { //设置迭代公式 θ = θ - α ( (θx) - y) //迭代公式 } def main(args: Array[String]) { val dataSource = getData() //获取数据集 dataSource.foreach(myMap =>{ //开始迭代 sgd(myMap._1,myMap._2) //输入数据 }) println(“最终结果θ值为 ” θ) //显示结果 }}最终结果请读者自行验证完成。读者在重复运行本程序的时候，可以适当地增大数据量和步进系数。当增大数据量的时候可以看到，θ值会开始偏离一定的距离，请读者考虑为何会这样。6.2 MLlib回归的过拟合有计算就有误差，误差不可怕，我们需要的是采用何种方法消除误差。回归分析在计算过程中，由于特定分析数据和算法选择的原因，结果会对分析数据产生非常强烈的拟合效果；而对于测试数据，却表现得不理想，这种效果和原因称为过拟合。本节将分析过拟合产生的原因和效果，并给出一个处理手段供读者学习和掌握。6.2.1 过拟合产生的原因在上一节的，我们建议和鼓励读者对数据的量进行调整从而获得更多的拟合修正系数。相信读者也发现，随着数据量的增加，拟合的系数在达到一定值后会发生较大幅度的偏转。在上一节程序6-1的例子中，步进系数在0.1的程度下，数据量达到70以后就发生偏转。产生这样原因就是MLlib回归会产生过拟合现象。对于过拟合的例子请读者参看图6-3。图6-3 拟合与过拟合从图6-3所示A图和B图的对比来看，如果测试数据过于侧重某些具体的点，则会对整体的曲线形成构成很大的影响，从而影响到待测数据的测试精准度。这种对于测试数据过于接近而实际数据拟合程度不够的现象称为过拟合，而解决办法就是对数据进行处理，而处理过程称为回归的正则化。正则化使用较多的一般有两种方法，lasso回归(L1回归)和岭回归(L2回归)。其目的是通过对最小二乘估计加入处罚约束，使某些系数的估计为0。从6-3图中A图和B图回归曲线上看，A和B的差异较多地集中在回归系数的选取上。这里可以近似地将A假设为如下公式：而B公式可以近似的表示为：从A和B公式的比较来看，B公式更多的是增加了系数。因此解决办法就是通过对增加的系数进行消除从而使之消除过拟合。更加直观的理解就是，防止通过拟合算法计算出的回归公式比较大地响应和依赖某些特定的特征值，从而影响回归曲线的率。6.2.2 lasso回归与岭回归由前面对过拟合产生的原因分析来看，如果能够消除拟合公式中多余的拟合系数，那么产生的曲线可以较好地对数据进行拟合处理。因此可以认为对拟合公式过拟合的消除最直接的办法就是去除其多余的公式，那么通过数学公式表达如下：从公式可以看到，f(B')是f(B)的变形形式，其通过增加一个新的系数公式J(θ)从而使原始数据公式获得了正则化表达。这里J(θ)又称为损失函数，它通过回归拟合曲线的范数L1和L2与一个步进数α相乘得到。范数L1和范数L2是两种不同的系数惩罚项，首先来看L1范数。L1范数指的是回归公式中各个元素的值之和，其又称为“稀疏规则算子(Lasso regularization)”。其一般公式如下：即可以通过这个公式计算使得f(B')能够取得最小化。而L2范数指的是回归公式中各个元素的平方和，其又称为“岭回归(Ridge Regression)”可以用公式表示为： MLlib中SGD算法支持L1和L2正则化方法，而LBFGS只支持L2正则化，不支持L1正则化。L1范数和L2范数相比较而言，L1能够在步进系数α在一定值的情况下将回归曲线的某些特定系数修正为0。而L1回归由于其平方的处理方法从而使得回归曲线获得较高的计算精度。6.3 MLlib线性回归实战6.3.1 MLlib线性回归基本准备在前面的章节中，我们为读者介绍了线性回归的一些基本知识，这些知识将伴随读者的整个机器学习和数据挖掘的工作生涯。本节将带领读者开始学习及时个回归算法，即线性回归。首先需要完成线性回归的数据准备工作。MLlib中，线性回归的基本数据是严格按照数据格式进行设置。例如，如果想求得公式y=2x1 3x2系数，那么需要在数据基础中设置2个x值，并且在其前部设置y值。数据整理规则如下：数据位置：//DATA//D06//lpsa.data1,0 12,0 23,0 35,1 47,6 19,4 56,3 3这里逗号(,)前面的数值是根据不同的数据求出的结果值，而每个系数的x值依次地被排列在其后。这些就是数据的收集规则：Y = a bX其次是对既定的MLlib回归算法中数据格式的要求，我们可以从回归算法的源码来分析，源码代码段如下：def train( input: RDD[LabeledPoint], numIterations: Int, stepSize: Double): LinearRegressionModel = { train(input, numIterations, stepSize, 1.0)}从上面代码段可以看到，整理的训练数据集需要输入一个LabeledPoint格式的数据，因此在读取来自数据集中的数据时，需要将其转化为既定的格式。本例子数据转化的格式如下：val parsedData = data.map { line => val parts = line.split(',') LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ').map(_.toDouble)))}.cache()从中可以看到，程序首先对读取的数据集进行分片处理，根据逗号将其分解为因变量与自变量，即线性回归中的y和x值。其后将其转换为LabeledPoint格式的数据，这里part(0)和part(1)分别代表数据分开的y和x值，并根据需要将x值转化成一个向量数组。其次是训练模型的数据要求。numIterations是整体模型的迭代次数，理论上迭代的次数越多则模型的拟合程度越高，但是随之而来的是迭代需要的时间越长。而stepSize是上面章节中随机梯度下降算法中的步进系数，代表每次迭代过程中模型的整体修正程度。一部分就是根据数据集训练的线性回归模型预测数据。MLlib中线性回归模型预测方法有2种，其代码如下：def predict(testData: RDD[Vector]): RDD[Double] = {

def predict(testData: Vector): Double = {表示分别要求输入一个向量或者一个RDD化后的向量作为数据变量，这里可以通过RDD内建的方法对数据进行处理。一个完整的线性回归程序如程序6-2所示。代码位置：//SRC//C06// LinearRegression.scala程序6-2 线性回归程序import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LabeledPoint, LinearRegressionWithSGD}import org.apache.spark.{SparkConf, SparkContext}

object LinearRegression { val conf = new SparkConf() //创建环境变量 .setMaster("local") //设置本地化处理 .setAppName("LinearRegression ") //设定名称 val sc = new SparkContext(conf) //创建环境变量实例

def main(args: Array[String]) { val data = sc.textFile("c:/lpsa.data") //获取数据集路径 val parsedData = data.map { line => //开始对数据集处理 val parts = line.split(',') //根据逗号进行分区 LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ').map(_.toDouble))) }.cache() //转化数据格式 //建立模型 val model = LinearRegressionWithSGD.train(parsedData, 100,0.1) val prediction= model.predict(parsedData.map((_.features))) //检验测试集数据 prediction.foreach(obj => println(obj)) //打印原测试集数据使用模型后得出的结果 println(model.predict(Vectors.dense(0,1))) //提供新的待测数据 }

}这里顺带提示一下，读者在一步看到的Vectors.dense(0,1)代码是人为的创建一个MLLib数据向量输入到已构成的数据模型中。请读者自行输入数据和计算回归结果。6.3.2 MLlib线性回归实战：商品价格与消费者收入之间的关系本小节我们做一个MLlib线性回归的实例。某种商品的需求量(y，吨)、价格(x1，元/千克)和消费者收入(x2，元)观测值如表6-1所示。表6-1 消费和需求对应表yx1x2yx1x2

100 5 1000 65 7 40075 7 600 90 5 130080 6 1200 100 4 110070 6 500 110 3 130050 8 30 60 9 300要求：建立需求函数：；从要求可以看到，我们需要建立一个需求回归公式，首先需要对数据进行处理，而数据的处理可以如图6-4所示。数据位置：//DATA//D06//lr.txt 图6-4 数据示例从图6-4可以看到，“|”分割了y值与x值，而不同的x之间通过“,”进行分割。具体程序如程序6-3所示。代码位置：//SRC//C06// LinearRegression2.scala程序6-3 线性回归实战import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LabeledPoint, LinearRegressionWithSGD}import org.apache.spark.{SparkConf, SparkContext}

object LinearRegression { val conf = new SparkConf() //创建环境变量 .setMaster("local") //设置本地化处理 .setAppName("LinearRegression2 ") //设定名称 val sc = new SparkContext(conf) //创建环境变量实例

def main(args: Array[String]) { val data = sc.textFile("c:/lr.txt") //获取数据集路径 val parsedData = data.map { line => //开始对数据集处理 val parts = line.split('|') //根据逗号进行分区 LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(',').map(_.toDouble))) }.cache() //转化数据格式 //建立模型 val model = LinearRegressionWithSGD.train(parsedData, 200,0.1) val prediction = model.predict(parsedData.map((_.features)))//检验测试集数据prediction.foreach(obj => println(obj)) //打印原测试集数据使用模型后得出的结果 println(model.predict(Vectors.dense(0,1))) //提供新的待测数据 }

}结果请读者自行验证完成。6.3.3 对拟合曲线的验证上一节中，笔者通过数据拟合出了每个元素对应系数，根据系数的确定可以定义出回归曲线公式。而至于根据系数拟合出的公式是否符合真实的数据表现则需要另外一个检验标准。均方误差(Mean Squared Error，MSE)是衡量“平均误差”的一种较方便的方法，可以评价数据的变化程度。均方根误差是均方误差的算术平方根。标准误差定义为各测量值误差的平方和的平均值的平方根。设n个测量值的误差为θ1、θ2……θn，则这组测量值的标准误差σ计算公式如下：数理统计中均方误差是指参数估计值与参数真值之差平方的期望值，记为MSE。MSE是衡量“平均误差”的一种较方便的方法，MSE可以评价数据的变化程度，MSE的值越小，说明预测模型描述实验数据具有更好的度。与此相对应的，还有均方根误差RMSE、平均百分误差等。因此，为了衡量数据预测结果与真实结果之间的差异，可以使用MSE来计算相关的预测误差。代码如下：val valuesAndPreds = parsedData.map { point => { val prediction = model.predict(point.features) (point.label, prediction) }}

val MSE = valuesAndPreds.map{ case(v, p) => math.pow((v - p), 2)}.mean()我们可以将这些代码添加到已有的程序代码中计算回归曲线的MSE，具体程序如程序6-4所示。代码位置：//SRC//C06// LinearRegression3.scala程序6-4 计算回归曲线的MSEimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LabeledPoint,