本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握当下流行的机器学习、数据挖掘与自然语言处理工具,如Scikitlearn、NLTK、Pandas、gensim、XGBoost、Google Tensorflow等。
全书共分4章。章简介篇,介绍机器学习概念与Python编程知识;第2章基础篇,讲述如何使用Scikitlearn作为基础机器学习工具;第3章进阶篇,涉及怎样借助高级技术或者模型进一步提升既有机器学习系统的性能;第4章竞赛篇,以Kaggle平台为对象,帮助读者一步步使用本书介绍过的模型和技巧,完成三项具有代表性的竞赛任务。
范淼,清华大学计算机系人工智能研究所博士,研究方向涉及机器学习与自然语言处理技术。2015年3月受国家留学基金委公派至美国纽约大学计算机系联合培养。攻读博士期间,于所在研究领域内多个重要国际会议与期刊上近20篇。先后在Hulu、MSRA(微软亚洲研究院)、百度自然语言处理部、Bosch(博世)北美硅谷研究院等多个公司的研发部门实习,并承担机器学习与自然语言处理相关的研究任务。
李超,工学博士,清华大学副研究员,信息技术研究院Web与软件技术研究中心副主任。中国计算机学会信息存储技术专委会委员、中国计算机学会高级会员、全国文献影像技术标准化技术委员会(SAC/TC86/SC6)委员、IEEE会员。研究领域包括海量数据存储、组织与管理、分析,及其在数字图书馆/档案馆/教育/医疗/金融等领域的应用。主持及参与多项国家973、863、科技支撑、自然基金等纵向项目及横向合作项目。已发表学术论文50余篇、获得授权发明专利10余项。
第1章简介篇
1.1机器学习综述
1.1.1任务
1.1.2经验
1.1.3性能
1.2Python编程库
1.2.1为什么使?
1.2.2Python机器学习的优势
1.2.3NumPy&SciPy
1.2.4Matplotlib
1.2.5Scikit-learn
1.2.6
1.2.7An
1.3Python环境配置
1.3.1Windows系统环境
1.3.2MacOS系统环境
1.4Python编程基
1.4.1Python基本语法
1.4.2Python数据类型
1.4.3Python数据运算
1.4.4Python流程控制
1.4.5Python函数(模块)设计
1.4.6Python编程库(包)的导入.
1.4.7Python基础综合实践.
1.5章末小结
第2章基础篇
2.1监督学习经典模型
2.1.1分类学习
2.1.1.1线性分类器
2.1.1.2支持向量机(分类)
2.1.1.3朴素贝叶斯
2.1.1.4K近邻(分类)
2.1.1.5决策树
2.1.1.6集成模型(分类)
2.1.2回归预测
2.1.2.1线性回归器
2.1.2.2支持向量机(回归)
2.1.2.3K近邻(回归)
2.1.2.4回归树
2.1.2.5集成模型(回归)
2.2无监督学习经典模型
2.2.1数据聚类
2.2.1.1K均值算法
2.2.2特征降维
2.2.2.1主成分分析
2.3章末小结
第3章进阶篇
3.1模型实用技巧
3.1.1特征提升
3.1.2模型正则化
3.1.3模型检验
3.1.4超参数搜索
3.2流行库/模型实践
3.2.1自然语言处理包(NLTK)
3.2.2词向量(Word2Vec)技术
3.2.3XGBoost模型
3.2.4Tensorflow框架
3.3章末小结
第4章实战篇
4.1Kaggle平台简介
4.2Titanic罹难乘客预测
4.3IMDB影评得分估计
4.4MNIST手写体数字图片识别.
4.5章末小结.
后记
参考文献