通过做数据分析学习数据分析 《数据挖掘与预测分析(第2版)》提供了从数据准备到探索性数据分析、数据建模及模型评估等整个数据分析过程的内容。《数据挖掘与预测分析(第2版)》不仅提供了理解软件底层算法的“白盒”方法,而且提供了能够使读者利用现实世界数据集开展数据挖掘与预测分析的应用方法。 第2版的新内容: ● 添加了500多页的新内容,包括20个新章节,例如,数据建模准备、成本-效益分析、缺失数据填充、聚类优劣度量以及细分模型等。 ● 针对前沿主题的新章节,例如,多元分类模型、BIRCH聚类、集成学习(bagging及boosting)、模型投票与趋向平均等。 ● 每章节后均附有R语言开发园地,读者可以获得完成书中分析所需的R语言源代码,以及通过R代码生成的图、表和结果。 ● 书中的附录为那些对统计基础生疏的读者提供了了解基本概念的材料。 ● 超过750个章节练习,使读者能够自己测试对所学知识的掌握程度,并着手开展数据挖掘与预测分析工作。 《数据挖掘与预测分析(第2版)》将对数据分析人员、数据库分析人员以及CIO具有极大的吸引力,通过学习将使他们知道何种类型的分析将会增加其投资回报。
本书提出的方法和技术、深入,几乎涵盖了当前应用中常见的各类挖掘与分析方法。对方法的介绍从概念、算法、评价等部分着手,深入浅出地加以介绍。在介绍方法的章节中增加了R语言开发园地,帮助读者利用R语言开展实际设计和开发工作,获得章节中涉及内容的结果,便于读者掌握所学内容。
Daniel T. Larose博士,美国中康涅狄格州立大学数学科学教授,数据挖掘项目负责人。出版与数据挖掘、Web挖掘和统计理论等相关论著多本。他也是《微软》、《福布斯》杂志以及《经济学人》杂志等数据挖掘与统计分析领域的顾问。Chantal D. Larose是美国康涅狄格大学的在读博士。其研究领域包括缺失数据填补以及基于模型的聚类等。她已获得美国新帕尔兹纽约州立大学商学院决策科学领域助理教授的职位。
第Ⅰ部分 数据准备
第1章 数据挖掘与预测分析概述 3
1.1 什么是数据挖掘和预测分析 3
1.2 需求:数据挖掘技术人员 4
1.3 数据挖掘离不开人的参与 5
1.4 跨行业数据挖掘标准过程:
CRISP-DM 6
1.5 数据挖掘的谬误 8
1.6 数据挖掘能够完成的任务 9
1.6.1 描述 9
1.6.2 评估 10
1.6.3 预测 11
1.6.4 分类 11
1.6.5 聚类 13
1.6.6 关联 14
R语言开发园地 15
R参考文献 16
练习 16
第2章 数据预处理 17
2.1 需要预处理数据的原因 17
2.2 数据清理 18
2.3 处理缺失数据 19
2.4 识别错误分类 22
2.5 识别离群值的图形方法 22
2.6 中心和散布度量 24
2.7 数据变换 26
2.8 min-max规范化 26
2.9 Z-score标准化 27
2.10 小数定标规范化 28
2.11 变换为正态数据 28
2.12 识别离群值的数值方法 34
2.13 标志变量 35
2.14 将分类变量转换为数值变量 35
2.15 数值变量分箱 36
2.16 对分类变量重新划分类别 37
2.17 添加索引字段 37
2.18 删除无用变量 38
2.19 可能不应该删除的变量 38
2.20 删除重复记录 39
2.21 ID字段简述 39
R语言开发园地 39
R参考文献 45
练习 45
第3章 探索性数据分析 49
3.1 假设检验与探索性数据分析 49
3.2 了解数据集 49
3.3 探索分类变量 52
3.4 探索数值变量 58
3.5 探索多元关系 62
3.6 选择感兴趣的数据子集作进一步研究 64
3.7 使用EDA发现异常字段 64
3.8 基于预测值分级 65
3.9 派生新变量:标志变量 67
3.10 派生新变量:数值变量 69
3.11 使用EDA探测相关联的预测
变量 70
3.12 EDA概述 73
R语言开发园地 73
R参考文献 80
练习 80
第4章 降维方法 83
4.1 数据挖掘中降维的必要性 83
4.2 主成分分析 84
4.3 将主成分分析应用于房屋
数据集 87
4.4 应提取多少个主成分 91
4.4.1 特征值标准 91
4.4.2 解释变异的比例标准 92
4.4.3 最小共性标准 92
4.4.4 坡度图标准 92
4.5 主成分描述 94
4.6 共性 96
4.7 主成分验证 97
4.8 因子分析法 98
4.9 因子分析法在成年人数据集中的
应用 99
4.10 因子旋转 101
4.11 用户自定义合成 104
4.12 用户自定义合成的示例 105
R语言开发园地 106
R参考文献 110
练习 111
第Ⅱ部分 统计分析
第5章 单变量统计分析 117
5.1 数据知识发现中的数据挖掘
任务 117
5.2 用于估计和预测的统计方法 117
5.3 统计推理 118
5.4 我们对评估的确信程度如何 119
5.5 均值的置信区间估计 120
5.6 如何减少误差范围 121
5.7 比例的置信区间估计 122
5.8 均值的假设检验 123
5.9 拒绝零假设的证据力度的
评估 125
5.10 使用置信区间执行假设检验 126
5.11 比例的假设检验 127
R语言开发园地 128
R参考文献 129
练习 129
第6章 多元统计 133
6.1 描述均值差异的两样例t-检验
方法 133
6.2 判断总体差异的两样例
Z-检验 134
6.3 比例均匀性的测试 135
6.4 多元数据拟合情况的
卡方检验 137
6.5 方差分析 138
R语言开发园地 141
R参考文献 143
练习 143
第7章 数据建模准备 145
7.1 有监督学习与无监督学习 145
7.2 统计方法与数据挖掘方法 146
7.3 交叉验证 146
7.4 过度拟合 147
7.5 偏差-方差权衡 148
7.6 平衡训练数据集 150
7.7 建立基线性能 151
R语言开发园地 152
R参考文献 153
练习 153
第8章 简单线性回归 155
8.1 简单线性回归示例 155
8.2 外推的危险 161
8.3 回归有用吗?系数的确定 162
8.4 估计标准误差 166
8.5 相关系数r 167
8.6 简单线性回归的方差分析表 169
8.7 离群点、高杠杆率点与有影响
的观察点 170
8.8 回归方程概括 178
8.9 回归假设验证 179
8.10 回归推理 184
8.11 x与y之间关系的t-检验 185
8.12 回归直线斜率的置信区间 187
8.13 相关系数ρ的置信区间 188
8.14 给定均值的置信区间 190
8.15 给定随机选择值的预测区间 191
8.16 获得线性特性的变换 194
8.17 博克斯-考克斯变换 199
R语言开发园地 199
R参考文献 205
练习 205
第9章 多元回归与模型构建 213
9.1 多元回归示例 213
9.2 总体多元回归方程 218
9.3 多元回归推理 219
9.3.1 y与xi之间关系的t-检验 219
9.3.2 营养等级与含糖量之间关系
的t-检验 220
9.3.3 营养等级与纤维含量之间
关系的t-检验 220
9.3.4 总体回归模型显著性的
F-检验 221
9.3.5 营养等级与含糖量和纤维
含量之间关系的F-检验 222
9.3.6 特定系数βi的置信区间 223
9.3.7 (在给定x1,x2,…,xm的情况下)y
的均值的置信区间 223
9.3.8 (在给定x1,x2,…,xm的情况下
随机选择的y值的预测区间 223
9.4 利用指示变量的包含范畴型预测变量的回归 224
9.5 调整R2:惩罚包含无用预测变量的模型 230
9.6 序列平方和 231
9.7 多重共线性 233
9.8 变量选择方法 239
9.8.1 有偏F-检验 239
9.8.2 前向选择过程 240
9.8.3 反向删除过程 241
9.8.4 逐步选择过程 241
9.8.5 子集过程 241
9.8.6 “所有可能子集”过程 242
9.9 油耗数据集 242
9.10 变量选择方法的应用 243
9.10.1 应用于油耗数据集的前向
选择过程 244
9.10.2 应用于油耗数据集的后向
删除过程 245
9.10.3 应用于油耗数据集的逐步选择过程 246
9.10.4 应用于油耗数据集的子集过程 246
9.10.5 Mallows’Cp统计量 247
9.11 将主成分作为预测变量进行
多元回归 251
R语言开发园地 255
R参考文献 265
练习 265
第Ⅲ部分 分类
第10章 K-最近邻算法 273
10.1 分类任务 273
10.2 k-最近邻算法 274
10.3 距离函数 276
10.4 组合函数 279
10.4.1 简单权重投票方式 279
10.4.2 加权投票 279
10.5 量化属性的相关性:轴伸缩 280
10.6 数据库方面的考虑 281
10.7 将k-最近邻算法用于评估和
预测 281
10.8 k值的选择 282
10.9 利用IBM/SPSS建模工具应用
k-最近邻算法 283
R语言开发园地 284
R参考文献 286
练习 286
第11章 决策树 289
11.1 决策树是什么 289
11.2 使用决策树的要求 291
11.3 分类与回归树 291
11.4 C4.5算法 297
11.5 决策规则 302
11.6 比较C5.0和CART算法应用
到实际的数据 303
R语言开发园地 306
R参考文献 307
练习 308
第12章 神经元网络 311
12.1 输入和输出编码 312
12.2 神经元网络用于评估和预测 313
12.3 神经元网络的简单示例 314
12.4 sigmoid激活函数 316
12.5 反向传播 317
12.6 梯度下降法 317
12.7 反向传播规则 318
12.8 反向传播示例 319
12.9 终止条件 320
12.10 学习率 321
12.11 动量项 322
12.12 敏感性分析 323
12.13 神经元网络建模应用 324
R语言开发园地 326
R参考文献 328
练习 328
第13章 logistic回归 331
13.1 logistic回归简单示例 331
13.2 较大似然估计 333
13.3 解释logistic回归的输出 334
13.4 推理:这些预测有显著性吗 335
13.5 概率比比率与相对风险 337
13.6 对二分logistic回归预测的
解释 339
13.7 对应用于多元预测变量的
logistic回归的解释 342
13.8 对应用于连续型预测变量的
logistic回归的解释 346
13.9 线性假设 351
13.10 零单元问题 353
13.11 多元logistic回归 355
13.12 引入高阶项处理非线性 359
13.13 logistic回归模型的验证 366
13.14 WEKA:应用logistic回归的
实践分析 370
R语言开发园地 374
R参考文献 380
练习 380
第14章 朴素贝叶斯与贝叶斯网络 385
14.1 贝叶斯方法 385
14.2 较大后验(MAP)分类 387
14.3 后验概率比 391
14.4 数据平衡 393
14.5 朴素贝叶斯分类 394
14.6 解释对数后验概率比 397
14.7 零单元问题 398
14.8 朴素贝叶斯分类中的数值型
预测变量 399
14.9 WEKA:使用朴素贝叶斯开展
分析 402
14.10 贝叶斯信念网络 406
14.11 衣物购买示例 407
14.12 利用贝叶斯网络发现概率 409
R语言开发园地 413
R参考文献 417
练习 417
第15章 模型评估技术 421
15.1 用于描述任务的模型评估
技术 421
15.2 用于评估和预测任务的模型
评估技术 422
15.3 用于分类任务的模型评估
方法 423
15.4 率和总误差率 425
15.5 灵敏性和特效性 426
15.6 假正类率和假负类率 427
15.7 真正类、真负类、假正类、
假负类的比例 427
15.8 通过误分类成本调整来反映
现实关注点 429
15.9 决策成本/效益分析 430
15.10 提升图表和增益图表 431
15.11 整合模型评估与模型建立 434
15.12 结果融合:应用一系列
模型 435
R语言开发园地 436
R参考文献 436
练习 437
第16章 基于数据驱动成本的
成本-效益分析 439
16.1 在行调整条件下的决策
不变性 439
16.2 正分类标准 440
16.3 正分类标准的示范 442
16.4 构建成本矩阵 444
16.5 在缩放条件下的决策不变性 445
16.6 直接成本和机会成本 446
16.7 案例研究:基于数据驱动误
分类成本的成本-效益分析 446
16.8 再平衡作为误分类成本的
450
R语言开发园地 452
R参考文献 455
练习 455
第17章 三元和k元分类模型的成本-
效益分析 459
17.1 三元目标的分类评估变量 459
17.2 三元分类评估度量在贷款审批问题中的应用 462
17.3 三元贷款分类问题的数据驱动成本-效益分析 466
17.4 比较使用/不使用数据驱动误分类成本的CART模型 467
17.5 一般的k元目标的分类评估
度量 470
17.6 k元分类中评估度量和数据驱动误分类成本的示例 472
R语言开发园地 474
R参考文献 475
练习 475
第18章 分类模型的图形化评估 477
18.1 回顾提升图表和增益图表 477
18.2 使用误分类成本的提升图表
和增益图表 477
18.3 响应图表 479
18.4 利润图表 479
18.5 投资回报(ROI)图表 482
R语言开发园地 482
R参考文献 484
练习 484
第Ⅳ部分 聚类
第19章 层次聚类和k-均值聚类 489
19.1 聚类任务 489
19.2 层次聚类方法 491
19.3 单一链聚类 492
19.4 链聚类 493
19.5 k-均值聚类 494
19.6 k-均值聚类实操示例 495
19.7 k-均值算法执行中MSB、MSE和伪-F的行为 498
19.8 SAS Enterprise Miner中k-均值算法的应用 499
19.9 使用簇成员关系来预测客户
流失 501
R语言开发园地 502
R参考文献 503
练习 504
第20章 Kohonen网络 505
20.1 自组织映射 505
20.2 Kohonen网络 507
20.3 Kohonen网络学习示例 508
20.4 簇有效性 511
20.5 使用Kohonen网络进行聚类
应用 511
20.6 解释簇 512
20.7 将簇成员关系作为下游数据
挖掘模型的输入 517
R语言开发园地 518
R参考文献 520
练习 520
第21章 BIRCH聚类 521
21.1 BIRCH聚类的理论基础 521
21.2 簇特征 522
21.3 簇特征树 523
21.4 阶段1:构建CF树 523
21.5 阶段2:聚类子簇 525
21.6 BIRCH聚类示例之阶段1:
构建CF树 525
21.7 BIRCH聚类示例之阶段2:
聚类子簇 530
21.8 候选聚类解决方案的评估 530
21.9 案例研究:在银行贷款数据集
上应用BIRCH聚类 531
21.9.1 案例研究第1课:对于
任意聚类算法避免高度
相关的输
双十一买的书,物流多少有点问题,不过可以理解
暴力快递,很难受
这个商品很好
跟书本身没有关系,快递太差了。表现为以下几点:1.还没收到货就显示物流就显示订单已送达,当时一脸懵逼,既没收到短信也没有电话,觉得可能是别人拿错了,中午问了客服,说货没有拿错,明天就给送来,所以是为了显示送货速度快,在客户没签收的情况下先确认送达了;2.后面催客服,既然已经送达就给我今天送来,客服说帮忙联系,下午的时候快递给我打电话,说上午的时候给我打电话了,我说手机上没有未接来电啊,快递员说当时提示没人接听,我仔细想了一下,上午我手机就放在办公桌上,而且11点的时候外卖给我打了电话,所以他是为什么打不通而且可以没有未接来电很…
好好好好好好好好好好好好好好好好好好................
还没看,看了再说
还不错还不错,还没看
還可以不錯
基本上数据挖掘的算法都有了,用了R语言来实现
很不错 好
类目非常全 很不错的书
很好,正版的。
活动很给力,帮朋友买的
内容不错,学习一下大数据的实际案例。
帮别人买的书,一般我都挑着优惠一些的来买。
很不错,就是,就是,有点厚啊,耐心啃吧
帮别人买的书。
不错啊不错不错不错啊不错不错不错啊不错不错
不错的话。
不错不错!
书名有点托大,内容上预测的东西没那么多篇幅
基本上数据挖掘的算法都有了,用了R语言来实现
好端端的一本书给我摔成这样!我买的是新书不是破书!