本书注重实用性,是一本而细致的R指南,高度概括了该软件和它的强大功能,展示了使用的统计示例,且对于难以用传统方法处理的凌乱、不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。新版做了大量更新和修正,新增了近200页内容,介绍数据挖掘、预测性分析和高级编程。本书适合数据分析人员及R用户学习参考。
大数据时代已经到来,在商业、经济及其他领域中基于数据和分析去发现问题并作出科学、客观的决策越来越重要。开源软件R是世界上流行的数据分析、统计计算及制图语言,几乎能够完成任何数据处理任务,可安装并运行于所有主流平台,为我们提供了成千上万的专业模块和实用工具,是从大数据中获取有用信息的绝佳工具,是数据挖掘、数据分析人才的必备技能。
本书从解决实际问题入手,尽量跳脱统计学的理论阐述来讨论R语言及其应用,讲解清晰透澈,具有实用性。作者不仅高度概括了R语言的强大功能,展示了各种实用的统计示例,而且对于难以用传统方法分析的凌乱、不完整和非正态的数据也给出了完备的处理方法。第2版新增6章内容,涵盖时间序列、聚类分析、分类、高级编程、创建包和创建动态报告等,并分别详细介绍了如何使用ggplot2和lattice进行高级绘图。通读本书,你将掌握使用R语言进行数据分析、数据挖掘的技巧,领略大量探索和展示数据的图形功能,并学会如何撰写动态报告,从而更加高效地进行分析与沟通。
想要成为备受高科技企业追捧的数据分析师吗?想要科学分析数据并正确决策吗?不妨从本书开始,挑战大数据,用R开始炫酷地统计与分析数据吧!
Robert I. Kabacoff
R语言社区著名学习网站Quick-R的维护者,现为全球化开发与咨询公司Management研究集团研发副总裁。此前,Kabacoff博士是佛罗里达诺瓦东南大学的教授,讲授定量方法和统计编程的研究生课程。Kabacoff还是临床心理学博士、统计顾问,擅长数据分析,在健康、金融服务、制造业、行为科学、政府和学术界有20余年的研究和统计咨询经验。
译者简介:
王小宁
中国人民大学统计学院14级硕士,16级博士,统计之都副主编,中国人民大学数据挖掘中心分布式计算负责人,研究兴趣包括统计机器学习和缺失数据。
刘撷芯
中国人民大学统计学院13级硕士,爱荷华大学商学院16级博士,中国人民大学数据挖掘中心核心成员之一,研究兴趣包括统计机器学习和文本分析。
黄俊文
2014年毕业于中山大学数学系,2016年毕业于加州大学圣地亚哥分校统计学专业,统计之都成员,易易网创始人之一,目前关注计算机科学和统计学的结合与应用,包括机器学习方法等。他致力于成为一个有趣的人。
及时部分 入门
第1章R语言介绍3
1.1为何要使用R4
1.2R的获取和安装6
1.3R的使用6
1.3.1新手上路7
1.3.2获取帮助10
1.3.3工作空间10
1.3.4输入和输出12
1.4包13
1.4.1什么是包14
1.4.2包的安装14
1.4.3包的载入14
1.4.4包的使用方法14
1.5批处理15
1.6将输出用为输入:结果的重用16
1.7处理大数据集16
1.8示例实践16
1.9小结18
第2章创建数据集19
2.1数据集的概念19
2.2数据结构20
2.2.1向量21
2.2.2矩阵22
2.2.3数组23
2.2.4数据框24
2.2.5因子27
2.2.6列表28
2.3数据的输入30
2.3.1使用键盘输入数据31
2.3.2从带分隔符的文本文件导入数据32
2.3.3导入Excel数据35
2.3.4导入XML数据36
2.3.5从网页抓取数据36
2.3.6导入SPSS数据36
2.3.7导入SAS数据37
2.3.8导入Stata数据37
2.3.9导入NetCDF数据38
2.3.10导入HDF5数据38
2.3.11访问数据库管理系统38
2.3.12通过Stat/Transfer导入数据40
2.4数据集的标注40
2.4.1变量标签40
2.4.2值标签41
2.5处理数据对象的实用函数41
2.6小结42
第3章图形初阶 43
3.1使用图形43
3.2一个简单的例子45
3.3图形参数46
3.3.1符号和线条47
3.3.2颜色 49
3.3.3文本属性50
3.3.4图形尺寸与边界尺寸51
3.4添加文本、自定义坐标轴和图例53
3.4.1标题 54
3.4.2坐标轴54
3.4.3参考线56
3.4.4图例57
3.4.5文本标注58
3.4.6数学标注60
3.5图形的组合61
3.6小结67
第4章基本数据管理68
4.1一个示例68
4.2创建新变量70
4.3变量的重编码71
4.4变量的重命名72
4.5缺失值74
4.5.1重编码某些值为缺失值74
4.5.2在分析中排除缺失值75
4.6日期值76
4.6.1将日期转换为字符型变量77
4.6.2更进一步78
4.7类型转换78
4.8数据排序79
4.9数据集的合并79
4.9.1向数据框添加列79
4.9.2向数据框添加行80
4.10数据集取子集80
4.10.1选入(保留)变量80
4.10.2剔除(丢弃)变量81
4.10.3选入观测82
4.10.4subset()函数82
4.10.5随机抽样83
4.11使用SQL语句操作数据框83
4.12小结84
第5章高级数据管理85
5.1一个数据处理难题85
5.2数值和字符处理函数86
5.2.1数学函数86
5.2.2统计函数87
5.2.3概率函数90
5.2.4字符处理函数92
5.2.5其他实用函数94
5.2.6将函数应用于矩阵和数据框95
5.3数据处理难题的一套解决方案96
5.4控制流100
5.4.1重复和循环100
5.4.2条件执行101
5.5用户自编函数102
5.6整合与重构104
5.6.1转置104
5.6.2整合数据105
5.6.3reshape2包106
5.7小结108
第二部分 基本方法
第6章基本图形110
6.1条形图110
6.1.1简单的条形图111
6.1.2堆砌条形图和分组条形图112
6.1.3均值条形图113
6.1.4条形图的微调114
6.1.5棘状图115
6.2饼图116
6.3直方图118
6.4核密度图120
6.5箱线图122
6.5.1使用并列箱线图进行跨组比较123
6.5.2小提琴图125
6.6点图127
6.7小结129
第7章基本统计分析130
7.1描述性统计分析131
7.1.1方法云集131
7.1.2更多方法132
7.1.3分组计算描述性统计量134
7.1.4分组计算的扩展135
7.1.5结果的可视化137
7.2频数表和列联表137
7.2.1生成频数表137
7.2.2独立性检验143
7.2.3相关性的度量144
7.2.4结果的可视化145
7.3相关145
7.3.1相关的类型145
7.3.2相关性的显著性检验147
7.3.3相关关系的可视化149
7.4t 检验 149
7.4.1独立样本的t 检验150
7.4.2非独立样本的t检验151
7.4.3多于两组的情况151
7.5组间差异的非参数检验152
7.5.1两组的比较152
7.5.2多于两组的比较153
7.6组间差异的可视化155
7.7小结155
第三部分 中级方法
第8章回归158
8.1回归的多面性159
8.1.1OLS回归的适用情境159
8.1.2基础回顾160
8.2OLS回归160
8.2.1用lm()拟合回归模型161
8.2.2简单线性回归163
8.2.3多项式回归164
8.2.4多元线性回归167
8.2.5有交互项的多元线性回归169
8.3回归诊断171
8.3.1标准方法172
8.3.2改进的方法175
8.3.3线性模型假设的综合验证181
8.3.4多重共线性181
8.4异常观测值182
8.4.1离群点182
8.4.2高杠杆值点182
8.4.3强影响点184
8.5改进措施186
8.5.1删除观测点186
8.5.2变量变换187
8.5.3增删变量188
8.5.4尝试其他方法188
8.6选择“”的回归模型189
8.6.1模型比较189
8.6.2变量选择190
8.7深层次分析193
8.7.1交叉验证193
8.7.2相对重要性195
8.8小结197
第9章方差分析 198
9.1术语速成198
9.2ANOVA模型拟合201
9.2.1aov()函数201
9.2.2表达式中各项的顺序202
9.3单因素方差分析203
9.3.1多重比较204
9.3.2评估检验的假设条件206
9.4单因素协方差分析208
9.4.1评估检验的假设条件209
9.4.2结果可视化210
9.5双因素方差分析211
9.6重复测量方差分析214
9.7多元方差分析217
9.7.1评估假设检验218
9.7.2稳健多元方差分析220
9.8用回归来做ANOVA220
9.9小结222
第10章功效分析223
10.1假设检验速览223
10.2用pwr包做功效分析225
10.2.1t检验226
10.2.2方差分析228
10.2.3相关性228
10.2.4线性模型229
10.2.5比例检验230
10.2.6卡方检验231
10.2.7在新情况中选择合适的效应值232
10.3绘制功效分析图形233
10.4其他软件包235
10.5小结236
第11章中级绘图237
11.1散点图238
11.1.1散点图矩阵240
11.1.2高密度散点图242
11.1.3三维散点图244
11.1.4旋转三维散点图247
11.1.5气泡图248
11.2折线图250
11.3相关图253
11.4马赛克图258
11.5小结260
第12章重抽样与自助法261
12.1置换检验261
12.2用coin包做置换检验263
12.2.1独立两样本和K 样本检验264
12.2.2列联表中的独立性266
12.2.3数值变量间的独立性266
12.2.4两样本和K 样本相关性检验267
12.2.5深入探究267
12.3lmPerm包的置换检验267
12.3.1简单回归和多项式回归268
12.3.2多元回归269
12.3.3单因素方差分析和协方差分析270
12.3.4双因素方差分析271
12.4置换检验点评271
12.5自助法272
12.6boot包中的自助法272
12.6.1对单个统计量使用自助法274
12.6.2多个统计量的自助法276
12.7小结278
第四部分 高级方法
第13章广义线性模型280
13.1广义线性模型和glm()函数281
13.1.1glm()函数281
13.1.2连用的函数282
13.1.3模型拟合和回归诊断283
13.2Logistic回归284
13.2.1解释模型参数286
13.2.2评价预测变量对结果概率的影响287
13.2.3过度离势288
13.2.4扩展289
13.3泊松回归289
13.3.1解释模型参数291
13.3.2过度离势292
13.3.3扩展294
13.4小结295
第14章主成分分析和因子分析296
14.1R 中的主成分和因子分析297
14.2主成分分析 298
14.2.1判断主成分的个数298
14.2.2提取主成分300
14.2.3主成分旋转303
14.2.4获取主成分得分304
14.3探索性因子分析305
14.3.1判断需提取的公共因子数306
14.3.2提取公共因子307
14.3.3因子旋转308
14.3.4因子得分312
14.3.5其他与EFA相关的包312
14.4其他潜变量模型312
14.5小结313
第15章时间序列315
15.1在R中生成时序对象317
15.2时序的平滑化和季节性分解319
15.2.1通过简单移动平均进行平滑处理319
15.2.2季节性分解321
15.3指数预测模型326
15.3.1单指数平滑326
15.3.2Holt指数平滑和Holt-Winters指数平滑 329
15.3.3ets()函数和自动预测331
15.4ARIMA 预测模型333
15.4.1概念介绍333
15.4.2ARMA和ARIMA模型334
15.4.3ARIMA的自动预测339
15.5延伸阅读340
15.6小结340
第16章聚类分析342
16.1聚类分析的一般步骤343
16.2计算距离344
16.3层次聚类分析345
16.4划分聚类分析350
16.4.1K均值聚类350
16.4.2围绕中心点的划分354
16.5避免不存在的类356
16.6小结359
第17章分类360
17.1数据准备361
17.2逻辑回归362
17.3决策树363
17.3.1经典决策树364
17.3.2条件推断树366
17.4随机森林368
17.5支持向量机370
17.6选择预测效果好的解374
17.7用rattle包进行数据挖掘376
17.8小结381
第18章处理缺失数据的高级方法382
18.1处理缺失值的步骤383
18.2识别缺失值384
18.3探索缺失值模式385
18.3.1列表显示缺失值385
18.3.2图形探究缺失数据386
18.3.3用相关性探索缺失值389
18.4理解缺失数据的来由和影响391
18.5理性处理不完整数据 391
18.6完整实例分析(行删除)392
18.7多重插补394
18.8处理缺失值的其他方法397
18.8.1成对删除398
18.8.2简单(非随机)插补398
18.9小结399
第五部分 技能拓展
第19章使用ggplot2进行高级绘图402
19.1R 中的四种图形系统402
19.2ggplot2包介绍403
19.3用几何函数指定图的类型407
19.4分组411
19.5刻面413
19.6添加光滑曲线416
19.7修改ggplot2图形的外观418
19.7.1坐标轴419
19.7.2图例420
19.7.3标尺421
19.7.4主题423
19.7.5多重图425
19.8保存图形426
19.9小结426
第20章高级编程427
20.1R 语言回顾427
20.1.1数据类型427
20.1.2控制结构433
20.1.3创建函数436
20.2环境437
20.3面向对象的编程439
20.3.1泛型函数439
20.3.2S3模型的限制441
20.4编写有效的代码442
20.5调试445
20.5.1常见的错误来源445
20.5.2调试工具446
20.5.3支持调试的会话选项448
20.6深入学习451
20.7小结451
第21章创建包452
21.1非参分析和npar包453
21.2开发包457
21.2.1计算统计量457
21.2.2打印结果460
21.2.3汇总结果461
21.2.4绘制结果463
21.2.5添加样本数据到包464
21.3创建包的文档466
21.4建立包467
21.5深入学习471
21.6小结471
第22章创建动态报告472
22.1用模版生成报告474
22.2用R和Markdown创建动态报告475
22.3用R和LaTeX创建动态报告480
22.4用R和Open Document创建动态报告483
22.5用R和Microsoft Word创建动态报告485
22.6小结489
第23章使用lattice进行高级绘图490
23.1lattice包490
23.2调节变量494
23.3面板函数495
23.4分组变量498
23.5图形参数502
23.6自定义图形条带503
23.7页面布局504
23.8深入学习507
附录A图形用户界面508
附录B自定义启动环境511
附录C从R中导出数据513
附录DR中的矩阵运算515
附录E本书中用到的扩展包517
附录F处理大数据集522
附录G更新R526
后记:探索R的世界528
参考文献530
“对于所有使用R语言进行数据分析的人来讲,本书都是必不可少的,不论用于业内实践还是学术研究。”——Cristofer Weber,NeoGrid软件架构师
“一般R语言问题与许多统计学问题的参考。”——George Gaines,KYOS Systems公司首席运营官
“语言易懂,示例真实,代码清晰。”——Samuel D. McQuillin,休斯顿大学心理学院助理教授
“为R语言初学者提供了柔和的学习曲线。”——Indrajit Sen Gupta, 就职于Mu Sigma数据分析公司
这本书非常详细,是新手小白最适合的书,我感觉很好用,而且这本书的编写者非常有名,写的非常认真。我推荐大家购买,很适合新手,也很适合R语言有一定基础的人。
权威性毋庸置疑,学习软件的同时还可以学习统计思想,何乐而不为呢~
封膜到手就已经破了,书的中间有一个很深的类似指甲盖的印,封面左上角已经起皱了。。。书不错,内容非常好。就是书本质量不行
这次购物给满分,物流速度快,书的人包装也很给力。赞一个!
今天刚收到还没有使用,是别人推荐的据说很不错,期待
刚收到,物流包装都很好, 应该是正版的 ,看后再评吧
有第一版的电子版,第二版直接买了,还需要好好研读,很好的一本书!
之前只有第一版的电子版,一直想买纸质版,没货。看到第二版比第一版厚实了些,接下来就是好好学习了!!!
书的纸质没有第一版好,偏黄,但书的内容比较好
不错啊,唯一的缺点就是书中的图都是黑白的,讲得特别细致,极力推荐哦
昨天晚上下的单,今天中午左右到了,蛮快的。书的质量和内容目前没发现什么大问题
想学数据分析,买来一本看,我先学完SPSS后,准备攻读
作为初学者完全没什么可借鉴性,不实用理论性太强,已经转为视频学习了,好很多
服务很到位,书的质量很好,不过我有一个小请求,能不能重新寄一张发票呀,我弄错了,发票抬头应该是我的单位,好尴尬呀!
绝对经典,看起来专业性极强,以后得下功夫加倍努力了。
看了前两章,作者写得挺好的,特别是介绍的一些补充内容对初学者很有用
表扬一下快递小哥,现在很少送楼下了,搞的每次去门口大妈拿,欠着人家似的。当当自营,还是放心,推荐
学习R都推荐这本书,已经在学习了,跟着书一起敲敲代码,书很实用。
适合有一定统计和r语言基础的人 内容很不错 难度适中
很好的一本书,对R语言介绍的很详细,值得一看
物流很快,书的纸质很好,没有什么缺页之类的问题存在,包装也很好,这本书内容丰富,适合学习
R语言基础,可以让你对R语言学习有较为全面的认知,毕竟是图灵出版
R语言入门经典书,在学校图书馆看过第一版,第二版出来以后果断购买作为工具书。
很好很好,字体清晰,内容丰富系统。早点开始学习这本书就好了
整体而言,书的内容还可以,就是发货速度,很让人无语,当当网曾经的当日达,隔日达实现不了了。业绩下滑不是没有理由。
实用 难度适中 把前面基础章学完后 基本可以在网上照着教程自学 但是想玩好的话还是得有数学和编程基础
这是一本好书,我非常喜欢,对我计算机网络和数学算法的帮助极大。R需要很牛叉
很经典的一本书,浅显易懂,适合初学者学习简单的统计分析之用。
这本书是学R语言的经典教材,讲的很直白。但是对于我这种电脑小白还有点小难度。要网络上找相关视频,与此书结合学习。
一直想学习一下R语言,这本书据说是学R语言必备的一本书,深入浅出,非常通俗易懂。如果做统计分析,R语言是一门可以让你提高效率的程序语言。
十分好用啊啊啊!!上金融建模买的那本统计建模与r软件,但是作为一个对r一无所知的上课还老不听讲的人来说,我还是适合这本书……。大作业终于做完了_(:3」∠?)_。书挺大的挺厚的。与mini的对比图_(:з」∠)_