R数据分析——方法与案例详解(双色)》是一本R 语言和数据分析的入门教材,循序渐进、深入浅出,每个知识点尽量从实际的应用案例出发,以问题为导向,在解决问题中学习统计方法、R 语言的基本使用以及编程技巧。
R数据分析——方法与案例详解(双色)》内容涵盖R 数据结构、函数与优化、抽样模拟、统计分析、假设检验、回归分析、统计绘图和R 包制作等内容。
R数据分析——方法与案例详解(双色)》的定位是为业界数据分析人员、经济管理类、医学的学生提供方法和程序上的参考,在写作过程中尽量删去比较理论的数学原理,这样能够帮助读者轻松上手学习。
1.浓缩十年R统计分析、数据分析与R包开发经验。
2.统计分析理论与实践并重,知道怎么用,更懂其来龙去脉。
3.通俗易懂,注释一目了然,插图清新,双色阅读好体验。
方匡南
厦门大学经济学院统计系副教授、博士生导师、美国耶鲁大学博士后。主要研究大数据与数据挖掘、计量经济学等。主持过多项国家自然科学基金、国家社会科学基金以及企业横向课题。精通R语言并编写过多个R软件包。
朱建平
厦门大学经济学院统计系教授、博士生导师、教育部新世纪人才、国家社科基金重大项目首席专家,福建省哲学社会科学领军人才。现任厦门大学数据挖掘研究中心主任,中国统计学会副会长、国务院学位办统计专业学位研究生教育指导委员会委员、教育部高等学校统计学类专业教学指导委员会秘书长。
姜叶飞方匡南
厦门大学经济学院统计系副教授、博士生导师、美国耶鲁大学博士后。主要研究大数据与数据挖掘、计量经济学等。主持过多项国家自然科学基金、国家社会科学基金以及企业横向课题。精通R语言并编写过多个R软件包。
朱建平
厦门大学经济学院统计系教授、博士生导师、教育部新世纪人才、国家社科基金重大项目首席专家,福建省哲学社会科学领军人才。现任厦门大学数据挖掘研究中心主任,中国统计学会副会长、国务院学位办统计专业学位研究生教育指导委员会委员、教育部高等学校统计学类专业教学指导委员会秘书长。
姜叶飞
厦门大学统计学硕士,现任某软件公司博学数据分析师。精通R语言、数据库、统计图形、数据挖掘等,具有多年移动互联网、金融数据分析等经验。
第 1 章 初识R语言..................................... 1
1.1 什么是R语言........................................ 1
1.2 为什么用R语言.................................... 2
1.3 安装R..................................................... 4
1.4 R扩展包................................................. 4
1.4.1 R扩展包的安装与载入............ 5
1.4.2 R包的使用................................ 6
1.5 R编辑器................................................. 7
1.6 工作空间............................................. 11
第 2 章 数据结构与基本运算.................... 13
2.1 数据类型............................................. 13
2.2 数据对象............................................. 14
2.2.1 向量......................................... 15
2.2.2 矩阵......................................... 21
2.2.3 数组......................................... 31
2.2.4 因子......................................... 32
2.2.5 列表......................................... 33
2.2.6 数据框..................................... 34
2.3 习题..................................................... 36
第 3 章 函数与优化.................................. 38
3.1 常用的R内置函数.............................. 38
3.2 条件控制语句..................................... 38
3.2.1 if/else语句............................... 38
3.2.2 ifelse 语句............................... 39
3.2.3 switch语句............................... 39
3.3 循环语句............................................. 40
3.3.1 for循环.................................... 40
3.3.2 while循环................................ 40
3.3.3 repeat语句............................... 41
3.4 编写自己的函数................................. 41
3.4.1 函数名..................................... 42
3.4.2 关键词function........................ 42
3.4.3 参数......................................... 42
3.4.4 函数体和函数返回值............ 44
3.5 程序调试............................................. 45
3.6 程序运行时间与效率......................... 46
3.7 用R做优化求解.................................. 47
3.7.1 一元函数优化求解................ 48
3.7.2 多元函数优化求解................ 48
3.7.3 约束条件下的优化求解........ 50
3.8 习题..................................................... 52
第 4 章 随机数与抽样模拟........................ 54
4.1 一元随机数的产生............................. 54
4.1.1 均匀分布随机数.................... 54
4.1.2 正态分布随机数.................... 56
4.1.3 指数分布随机数.................... 57
4.1.4 离散分布随机数的生成........ 58
4.1.5 常见分布函数表.................... 59
4.2 多元随机数的生成............................. 61
4.2.1 多元正态分布随机数............ 61
4.2.2 多元正态分布密度函数、分位数与累积概率................ 63
4.2.3 多元t分布随机数................... 64
4.3 随机抽样............................................. 65
4.3.1 放回与无放回抽样................ 65
4.3.2 bootstrap重抽样...................... 66
4.4 统计模拟............................................. 67
4.4.1 几种常见的模拟方法............ 67
4.4.2 模拟函数的建立方法............ 70
4.5 习题..................................................... 73
第 5 章 数据读写与预处理........................ 74
5.1 数据的读入......................................... 74
5.1.1 直接输入数据........................ 74
5.1.2 读R包中的数据...................... 75
5.1.3 从外部文件读入数据............ 75
5.2 写出数据............................................. 79
5.3 数据预处理......................................... 80
5.3.1 变量预处理............................ 81
5.3.2 变量重编码............................ 82
5.3.3 变量重命名............................ 84
5.3.4 变量类型的转换.................... 85
5.3.5 日期变量的变换.................... 86
5.4 缺失数据处理..................................... 87
5.4.1 缺失数据的识别.................... 87
5.4.2 缺失数据的探索与检验........ 88
5.4.3 缺失数据的处理.................... 89
5.5 数据集的合并与拆分......................... 90
5.5.1 数据框的合并与拆分............ 90
5.5.2 数据集的合并........................ 92
5.5.3 数据集的抽取........................ 92
5.6 习题..................................................... 93
第 6 章 探索性数据分析........................... 94
6.1 主要分析工具..................................... 94
6.1.1 探索性数据分析的工具........ 94
6.1.2 数据的类型............................ 98
6.2 单变量数据分析................................. 99
6.2.1 分类型数据............................ 99
6.2.2 数值型数据.......................... 101
6.2.3 离群值探索.......................... 106
6.3 双变量数据分析............................... 109
6.3.1 分类数据对分类数据.......... 109
6.3.2 分类数据对数值型数据...... 111
6.3.3 数值型数据对数值型数据.... 112
6.4 多变量数据分析............................... 115
6.4.1 访问数据框数据.................. 115
6.4.2 多变量数据的分析.............. 118
6.5 习题................................................... 124
第 7 章 参数假设检验............................. 126
7.1 假设检验的思想与步骤................... 126
7.1.1 假设检验的基本思想.......... 126
7.1.2 假设检验的基本步骤.......... 128
7.2 正态总体单样本参数假设检验....... 129
7.2.1 均值的检验.......................... 130
7.2.2 方差检验............................... 132
7.3 正态总体双样本参数假设检验....... 134
7.3.1 双样本方差的检验(方差齐性检验).............. 134
7.3.2 两样本均值检验.................. 135
7.4 比例假设检验................................... 139
7.4.1 单样本比例检验.................. 139
7.4.2 两样本比例检验.................. 141
7.5 习题................................................... 142
第 8 章 非参数假设检验......................... 144
8.1 图示法............................................... 144
8.2 卡方检验........................................... 146
8.2.1 卡方分布(χ 2 distribution)...... 147
8.2.2 卡方拟合优度检验.............. 148
8.2.3 卡方独立性检验.................. 151
8.2.4 卡方两样本同质性检验...... 151
8.3 秩和检验........................................... 152
8.3.1 秩的概念............................... 153
8.3.2 单样本符号秩检验.............. 153
8.3.3 两独立秩和检验.................. 154
8.3.4 多个独立样本的秩和检验.... 155
8.3.5 多个相关样本的秩和检验.... 158
8.4 K-S检验............................................ 160
8.4.1 K-S单样本总体分布验证.... 160
8.4.2 K-S两独立样本同质检验.... 160
8.5 常用正态性检验............................... 162
8.5.1 偏度、峰度检验法.............. 162
8.5.2 Shapiro-Wilk(W检验)..... 163
8.5.3 其他常用正态检验.............. 165
8.6 习题................................................... 167
第 9 章 方差分析.................................... 169
9.1 单因素方差分析............................... 170
9.2 双因素方差分析............................... 174
9.2.1 不考虑交互作用的双因素方差分析.......................... 174
9.2.2 考虑交互作用的双因素分析....................................... 178
9.3 习题................................................... 183
第 10 章 线性回归模型........................... 184
10.1 问题提出......................................... 184
10.2 一元线性回归................................. 185
10.2.1 一元线性回归概述............ 186
10.2.2 一元线性回归的参数估计.... 188
10.2.3 一元线性回归模型的检验.... 195
10.2.4 一元线性回归的预测........ 197
10.2.5 一元线性回归综合案例.... 201
10.3 多元线性回归分析......................... 205
10.3.1 多元线性回归模型及假定.... 206
10.3.2 参数估计............................. 207
10.3.3 模型检验............................. 209
10.3.4 预测..................................... 211
10.3.5 多元线性回归综合案例.... 213
10.4 习题................................................. 218
第 11 章 线性回归模型的扩展................ 220
11.1 多重共线性..................................... 220
11.1.1 问题的提出........................ 220
11.1.2 多重共线性定义及后果..... 222
11.1.3 多重共线性检验................ 222
11.1.4 多重共线性克服................ 225
11.2 异方差性......................................... 229
11.2.1 问题的提出........................ 229
11.2.2 异方差性定义及后果........ 231
11.2.3 异方差性检验.................... 232
11.2.4 异方差性克服.................... 236
11.3 序列相关性..................................... 240
11.3.1 问题的提出........................ 241
11.3.2 序列相关性定义及后果..... 243
11.3.3 序列相关性检验................ 245
11.3.4 序列相关性克服................ 248
11.4 习题................................................. 251
第 12 章 非线性回归分析....................... 254
12.1 问题的提出..................................... 254
12.2 可线性化的非线性回归................. 255
12.2.1 Cobb-Douglas生产函数..... 255
12.2.2 多项式方程模型................ 257
12.2.3 指数函数模型.................... 259
12.3 不可线性化的非线性回归............. 260
12.3.1 非线性模型的参数估计与迭代算法......................... 262
12.3.2 初始值选取........................ 269
12.3.3 收敛性................................. 270
12.4 非线性回归评价和假设检验......... 271
12.4.1 可决系数............................. 271
12.4.2 参数显著性的F 检验....... 271
12.4.3 似然比检验........................ 272
12.5 习题................................................. 274
第 13 章 二元选择模型........................... 275
13.1 问题的提出..................................... 276
13.2 线性概率(LP)模型原理............ 277
13.3 Probit模型原理................................ 279
13.4 Logit模型原理................................. 280
13.5 边际效应分析................................. 281
13.6 较大似然估计(MLE)................. 282
13.7 似然比检验和拟合优度................. 282
13.8 案例分析:经济学教学新方法的效果............................................. 284
13.9 扩展案例:信用卡违约预测分析..... 289
13.9.1 描述性统计........................ 290
13.9.2 模型建立与参数估计........ 291
13.9.3 系数意义与边际分析........ 295
13.9.4 拟合与预测........................ 296
13.9.5 结论与建议........................ 297
13.10 习题............................................... 297
第 14 章 多元选择模型........................... 299
14.1 有序选择模型................................. 299
14.1.1 问题的提出:本科生申请研究生的影响因素........ 300
14.1.2 有序选择模型.................... 300
14.1.3 案例分析:本科生申请研究生的影响因素......
该书深入浅出、通俗易懂、案例详实,从数据分析角度讲解R在实际数据分析中的使用,是难得的一本R和数据分析入门的好书。
谢邦昌,教授,台湾辅仁大学统计资讯系
该书的每一章以实际问题启发的方式引出统计方法,再介绍数据分析和R软件的使用,辅以详细、恰当的案例,这样让枯燥乏味的数据分析和软件课程变得生动活泼,这是一本很好的数据分析入门教材,值得推荐。
马双鸽,副教授,美国耶鲁大学生物统计系
方老師在R领域着墨多年,今將多年的教学及研究成果整理成册,对读者而言乃是一大福音。 该书深入浅出、通俗易懂、案例详实,从数据分析角度讲解R在实际数据分析中的使用,是难得的一本R和数据分析入门的好书。
谢邦昌,教授,台湾辅仁大学统计资讯系
该书的每一章以实际问题启发的方式引出统计方法,再介绍数据分析和R软件的使用,辅以详细、恰当的案例,这样让枯燥乏味的数据分析和软件课程变得生动活泼,这是一本很好的数据分析入门教材,值得推荐。
马双鸽,副教授,美国耶鲁大学生物统计系
方老師在R领域着墨多年,今將多年的教学及研究成果整理成册,对读者而言乃是一大福音。
本书浅显易懂,理论与实务兼具,是非常实用的书籍!
李御玺,教授、系主任,台湾铭传大学计算机工程学系
我很喜欢这本书的编写体例,从问题出发,然后介绍方法和R语言的实现,非常适合需要用R来解决实际分析问题的读者。
李舰,Mango Solutions,中国区数据总监
包装简单,而且书还破了一点!!!!
不错的书 买给朋友的家的孩子 努力学习中
物流很快,当天下午就到了!
好
东西挺好
双色内容,容易查找,就是内容太基本了
好
看着不错,希望对自己有帮助
不错啊 还会来的!
还没看,感觉不错
满意
非常满意的一次购物。
换开个发票这么难么?
不错的图书
买贵了买贵了买贵了买贵了
很好
感觉还不错。
这次一下买了几十本书,当当服务很好,其中有一本破损了,很快过来换,服务很好。
琪奶奶啊琪奶奶
非常好的书,值得入手啊
正品,很好
很好的R语言书,纸张不错,物流服务也很快
对编程感兴趣,慢慢看
纸张很好!
纸张很好!
包装完好,物流很快!
双色印刷是噱头,没有什么很有建树的内容,抄袭较多~
买了一大堆,来不及看,准备休假了好好学习一下