数据科学是一门新兴的热门科学,国外大学纷纷设立同名课程,相应的专业、课程及书籍也深受欢迎。本书是国内及时部系统阐述数据科学的重要专著,填补了国内此领域的空白。本书在结构设计和内容选择上不仅充分借鉴了国外著名大学设立的相关课程以及全球畅销的外文专著,也考虑到了国内相关课程定位与专业人才的培养需求。 本书共包括8个部分(基础知识、数据预处理、数据统计、机器学习、数据可视化、数据计算、数据管理以及R编程),既涵盖了数据科学的基本内容,又避免了与相关课程的低级重复。每章设有综合例题,做到理论学习与动手操作相结合。例题均采用R语言完成数据科学的特定任务。每章的首尾配有“导读”与“小结”,便于教师的教学和学生的自学。“习题”部分以主动数据收集和分析的开放题目为主,旨在帮助学生提高自我学习能力。书后附有R语言语法,便于入门的教学与学习。 本书可以满足数据科学、计算机科学与技术、管理学、数据统计、数据分析、图情档类等多个专业的老师、学生(含硕士生和博士生)的教学与自学需要。
(1)本书是国内本系统介绍数据科学的重要的专著,填补了国内此领域的空白。 (2)在结构设计和内容选择上,不仅充分借鉴了国外著名大学设立的相关课程以及全球畅销的英文专著,而且也考虑到了国内相关课程定位与专业人才的培养需求。
目录
第1章基础理论
1.1数据
1.1.1数据模型
1.1.2数据维度
1.2大数据
1.2.1内涵与特征
1.2.2大数据时代的新理念
1.2.3大数据时代的新术语
1.3数据科学概述
1.3.1研究目的
1.3.2理论基
1.3.3研究内容
1.3.4基本流程
1.3.5主要原则
1.3.6典型应用
1.4数据科学家
1.4.1主要任务
1.4.2能力要求
1.4.3常用工具
1.4.4团队工作
1.5数据科学项目
1.5.1角色定义
1.5.2基本流程
1.6应用案例
小结
习题
参考文献及扩展阅读资料
第2章数据预处理
2.1数据质量
2.1.1统计学规律
2.1.2语言学规律
2.1.3数据连续性理论
2.1.4数据鉴别技术
2.1.5探索性数据分析
2.2数据审计
2.2.1预定义审计
2.2.2自定义审计
2.2.3可视化审计
2.3数据清洗
2.3.1缺失数据处理
2.3.2冗余数据处理
2.3.3噪声数据处理
2.4数据变换
2.4.1大小变换
2.4.2类型变换
2.5数据集成
2.5.1基本类型
2.5.2主要问题
2.6其他预处理方法
2.6.1数据脱敏
2.6.2数据归约
2.6.3数据标注
2.7应用案例
小结
习题
参考文献及扩展阅读资料
第3章数据统计
3.1概率分布
3.1.1正态分布
3.1.2卡方分布
3.1.3t分布
3.1.4F分布
3.2参数估计
3.2.1点估计
3.2.2区间估计
3.3假设检验
3.3.1参数检验
3.3.2非参数检验
3.4基本分析方法
3.4.1相关分析
3.4.2回归分析
3.4.3方差分析
3.4.4分类分析
3.4.5聚类分析
3.4.6时间序列分析
3.4.7其他方法
3.5元分析方法
3.5.1加权平均法
3.5.2优化方法
3.6应用案例
小结
习题
参考文献及扩展阅读资料
第4章机器学习
4.1基本概念
4.1.1定义
4.1.2应用
4.2机器学习活动
4.2.1训练经验的选择
4.2.2目标函数的选择
4.2.3目标函数的表示
4.2.4函数逼近算法的选择
4.3机器学习系统
4.3.1执行器
4.3.2评价器
4.3.3泛化器
4.3.4实验生成器
4.4主要类型
4.4.1基于实例学习
4.4.2概念学习
4.4.3决策树学习
4.4.4人工神经网络学习
4.4.5贝叶斯学习
4.4.6遗传算法
4.4.7分析学习
4.4.8增强学习
4.5典型算法
4.5.1KMeans算法
4.5.2KNN算法
4.5.3ID3算法
4.6应用案例
小结
习题
参考文献及扩展阅读资料
第5章数据可视化
5.1主要类型
5.1.1科学可视化
5.1.2信息可视化
5.1.3可视分析学
5.2基本模型
5.2.1顺序模型
5.2.2循环模型
5.2.3分析模型
5.3常用方法
5.3.1视觉编码
5.3.2统计图表
5.3.3图论方法
5.3.4视觉隐喻
5.3.5图形符号学
5.3.6面向领域的方法
5.4视觉编码
5.4.1视觉感知
5.4.2数据类型
5.4.3视觉通道
5.4.4视觉假象
5.5评价与改进
5.5.1测评原则
5.5.2测评流程
5.5.3测评方法
5.6应用案例
小结
习题
参考文献及扩展阅读资料
第6章数据计算
6.1计算模式的演变
6.1.1集中式计算
6.1.2分布式计算
6.1.3网格计算
6.1.4云计算
6.2主流计算框架——MapReduce
6.2.1基本思想
6.2.2实现过程
6.2.3主要特征
6.2.4关键技术
6.5.5下一代MapReduce
6.3主流计算平台——Hadoop MapReduce
6.3.1数据流
6.3.2任务处理
6.3.3技术实现
6.3.4YARN
6.4其他相关计算系统——Hadoop生态系统
6.4.1HDFS
6.4.2Hive
6.4.3Pig
6.4.4Mahout
6.4.5HBase
6.4.6ZooKeeper
6.4.7Flume
6.4.8Sqoop
6.5应用案例
小结
习题
参考文献及扩展阅读资料
第7章数据管理
7.1基本类型
7.1.1关系数据库
7.1.2NoSQL
7.1.3关系云
7.2体系结构
7.2.1MasterSlave结构
7.2.2P2P结构
7.3关键技术
7.3.1数据模型
7.3.2数据分布
7.3.3数据一致性
7.3.4CAP理论与BASE原则
7.3.5视图与物化视图
7.3.6事务与版本戳
7.4典型系统
7.4.1Memcached
7.4.2MongoDB
7.4.3Cassandra
7.4.4HBase
7.5应用案例
小结
习题
参考文献及扩展阅读资料
附录AR语言与R软件
附录B术语索引
入门学者也能看懂,买值了!
书很好赞,卖家发货很快~
收到之后很满意 推荐大家购买
内容详实,转行数据科学必备的启蒙书
包装完好,物流很快!
因推荐而屯书,要慢慢挤时间来看,时间太少了呀,另外,当当包装确实太大意,有一本书都磕碰坏了,哎
书挺不错的。
物流很快,当当服务也Nice;一本内容前沿,通俗易懂的好书~~~
今天收到书了,制作很精美。内容很新,结构清晰。目测是一本能看得进去的书,一级赞哦~~
非常棒的一本书!受益匪浅,朋友看了也让帮忙买!
前言句句深入人心,很有范。一口气读下机器学习那一章,原来深奥的理论也这样通俗易懂,好书好书,非常经典,大赞
购买了很多大数据和数据科学相关的图书,这本书才是符合我需要的,满满的干货
当当发货速度很快,早就对数据科学很敢兴趣,此书作为国内学者关于数据科学的第一本专著,一定要好好拜读一下。
正在看,感觉整个体系架构很严谨,很适合对数据科学有兴趣的初学者。其实对我来讲数据科学的内容还是有点枯燥的,但是这本书就很能让人读得下去。好评!
大数据热的时代,处处充斥对数据、对数据应用的讨论,但是对一些基本的数据知识比较迷茫,所以看到书名眼前一亮。大致翻阅,这本书系统性很强,引用材料较新,理论知识普及和实践引用性都很强,为相关研究者、对数据科学感兴趣的读者提供了很有用知识,值得购买,赞一个。
大道至简,通俗易懂,简约而不简单。这本书选材新颖,包含了数据科学的最新成果与实践,内容详实,介绍了数据科学的理论基础与实验操作,体系严谨,搭建了数据科学的整体框架,对于数据科学的学习参考、激发灵感、开阔视野大有裨益,???...
本站合法持有《出版物经营许可证》,仅销售经国家新闻出版署批准的合法期刊,不是任何杂志、图书官网,不涉及出版事务。本站仅提供有限咨询服务,需要用户自己向出版商投稿且没有绿色通道,是否录用一切以出版商通知为准。提及的第三方名称或商标,其知识产权均属于相应的出版商或期刊,本站与上述机构无从属关系,所有引用均出于解释服务内容的考量,符合商标法规范。本页信息均由法务团队进行把关,若期刊信息有任何问题,请联系在线客服,我们会认真核实处理。若用户需要出版服务,请联系相关出版商。
特别声明:本站持有《出版物经营许可证》,主要从事期刊杂志零售,不是任何杂志官网,不涉及出版事务,特此申明。
工信部备案:蜀ICP备09010985号-11 川公网安备:51092202000082 统一信用码:91510922MACX24HU41
出版物经营许可证:射行审新出发2023字第016号 股权代码:102064© 版权所有:四川博文网络科技有限责任公司太和分公司