《干净的数据·数据清洗入门与实践》书评-杂志之家

内容简介

本书主要内容包括：数据清洗在数据科学领域中的重要作用，文件格式、数据类型、字符编码的基本概念，组织和处理数据的电子表格与文本编辑器，各种格式数据的转换方法，解析和清洗网页上的HTML 文件的三种策略，提取和清洗PDF 文件中数据的方法，检测和清除RDBMS 中的坏数据的解决方案，以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。

编辑推荐

理解数据清洗在整个数据科学过程中的作用

掌握数据清洗的基础知识，包括文件清洗、数据类型、字符编码等

发掘电子表格和文本编辑器中与数据组织和操作相关的重要功能

学会常见数据格式的相互转换，如JSON、CSV和一些特殊用途的格式

采用三种策略来解析和清洗HTML文件中的数据

揭开PDF文档的秘密，提取需要的数据

借助一系列解决方案来清洗存放在关系型数据库里的坏数据

创建自己的干净数据集，为其打包、添加授权许可并与他人共享

使用书中的工具以及Twitter和Stack Overflow数据，完成两个真实的项目

作者简介

Megan Squire 依隆大学计算科学专业教授，主要教授数据库系统、Web开发、数据挖掘和数据科学课程。有二十年的数据收集与清洗经验。她还是FLOSSmole研究项目的领导者，致力于收集与分析数据，以便研究免费软件、自由软件和开源软件的开发。

看过该图书的还看过

网友评论(不代表本站观点)

免责声明

本站合法持有《出版物经营许可证》，仅销售经国家新闻出版署批准的合法期刊，不是任何杂志、图书官网，不涉及出版事务。本站仅提供有限咨询服务，需要用户自己向出版商投稿且没有绿色通道，是否录用一切以出版商通知为准。提及的第三方名称或商标，其知识产权均属于相应的出版商或期刊，本站与上述机构无从属关系，所有引用均出于解释服务内容的考量，符合商标法规范。本页信息均由法务团队进行把关，若期刊信息有任何问题，请联系在线客服，我们会认真核实处理。若用户需要出版服务，请联系相关出版商。