《数据挖掘与机器学习·WEKA应用技术与实践（第二版）》书评-杂志之家

内容简介

本书借助代表当今数据挖掘和机器学习较高水平的著名开源软件Weka，通过大量的实践操作，使读者了解并掌握数据挖掘和机器学习的相关技能，拉近理论与实践的距离。全书共分9章，主要内容包括Weka介绍、探索者界面、知识流界面、实验者界面、命令行界面、Weka高级应用、Weka API、学习方案源代码分析和机器学习实战。本书系统讲解Weka 3.7.13的操作、理论和应用，内容、实例丰富、可操作性强，做到理论与实践的统一。本书适合数据挖掘和机器学习相关人员作为技术参考书使用，也适合用作计算机专业高年级本科生和研究生的教材或教学参考用书。

编辑推荐

系统讲解数据挖掘机器学习工具Weka 经典的开源挖掘工具、开放的Java环境

作者简介

袁梅宇，男，工学博士，硕士导师，现在昆明理工大学计算机系任教。为本科生和研究生主讲Java程序设计、Java EE技术、数据库原理、人工智能、Dot Net技术等核心课程，参加过863 CIMS Net建设、中欧合作项目DRAGON和多项国家基金和省基金项目，及时作者公开十余篇，软件著作权(颁证)六项。

在线预览

第2章探索者界面

探索者(Explorer)界面是Weka的主要图形用户界面，其全部功能都可通过菜单选择或表单填写进行访问。本章介绍探索者的图形用户界面、预处理、分类、聚类、关联、选择属性和可视化等内容，内容非常丰富，学习这些知识可以了解Weka的功能，快速上手实际的挖掘任务。

2.1 图形用户界面

启动Weka GUI 选择器窗口之后，单击Explorer按钮，即可启动探索者界面。这时，由于没有加载数据集，除Preprocess标签页外，其他标签页都变灰而不可用。可以使用Open file、Open URL、Open DB或者Generate按钮加载或产生数据集，加载数据集之后，其他标签页才可以使用。

这里以打开文件为例进行说明。单击Open file按钮，通过弹出的“打开”对话框，选择打开data子目录下的iris.arff文件，加载数据集后的探索者界面如图2.1所示。

图2.1 探索者界面

下面按照先整体后局部的顺序介绍图形用户界面。

2.1.1 标签页简介

图2.1所示界面的顶部有六个不同的标签页，分别对应Weka所支持的多种数据挖掘方式。

这六个标签页的介绍如下。

1) Preprocess(预处理)：选择数据集，并以不同方式对其进行修改。

2) Classify(分类)：训练用于分类或回归的学习方案，并对其进行评估。

3) Cluster(聚类)：学习数据集聚类方案。

4) Associate(关联)：学习数据关联规则，并对其进行评估。

5) Select attributes(选择属性)：选择数据集中预测效果好的部分属性。

6) Visualize(可视化)：查看不同的二维数据散点图，并与其进行互动。

每个标签页都可完成不同工作，单击相应的标签即可实现标签页的切换。

界面底部包括Status(状态)栏、Log(日志)按钮和一只Weka鸟，这些都一直保持可见，不论用户切换到哪一个标签页。

2.1.2 状态栏

状态栏位于界面最下部，可以让用户了解到现在进行到哪一步。例如，如果Weka探索者正在忙于加载数据文件，状态栏中会显示相应的状态信息。

除了显示状态之外，还可以右击鼠标来显示内存信息，以及运行垃圾回收器以清理内存。在状态栏的任意位置右击，弹出的快捷菜单中只包括两个菜单项：Memory information(内存信息)和Run garbage collector(运行垃圾回收器)。及时个菜单项用于显示Weka当前可用的内存空间；第二个菜单项用于启动Java垃圾回收器，搜寻不再使用的内存并释放，以回收部分内存空间，提供给新的任务使用。需要指出的是，垃圾回收器是一个不间断运行的后台任务，如果不强制进行垃圾回收，Java虚拟机也会在适当时候自动启动垃圾回收器。

Log按钮位于状态栏的右面，单击该按钮会打开可以滚动的日志窗口，显示在此次运行期间内Weka 进行的全部活动以及每项活动的时间戳。不管是使用GUI、命令行还是Simple CLI，日志都会包含分类、聚类、属性选择等操作的完整的设置字符串，用户可以进行复制和粘贴操作。顺便提醒读者，通过学习日志里记录的命令，可以深层次地了解Weka的内部运行机制。

在Log按钮的右边，可以看到被称为Weka状态图标的鸟。如果没有处理过程在运行，小鸟会坐下来打个盹。“´”符号旁边的数字显示目前有多少个正在进行处理的进程，当系统空闲时，该数字为零，数字会随着正在进行处理进程数的增加而增加。当启动处理进程时，小鸟会站起来不停走动。如果小鸟长时间站着不动，说明Weka出现运行错误，此时用户需要关闭并重新启动探索者界面。

2.1.3 图像输出

Weka中显示的大部分图形，包括本章的探索者界面和后面章节的知识流界面、实验者界面显示的图形，以及通过Weka GUI选择器菜单带出的GraphVisualizer(图可视化工具)或TreeVisualizer(树可视化工具)显示的图形，都可以保存为图像文件以备将来使用。保存方法是，在按住Alt键和Shift键的同时，在要保存的图形上单击，启动保存文件对话框。Weka支持的图像文件格式有BMP、JPEG、PNG和Postscript的EPS，用户可以选择图像文件格式，还可以修改输出图像文件的尺寸。

2.1.4 手把手教你用

1. 启动Weka

双击桌面上的Weka 3.7快捷方式，启动Weka GUI选择器窗口，如图2.2所示。

单击Explorer按钮启动探索者界面，如图2.3所示。现在，除Preprocess标签页可用外，其余标签页都不可用。

图2.2 Weka GUI选择器窗口

图2.3 探索者界面

2. 了解标签页

单击图2.3所示界面中的Open file按钮，弹出“打开”对话框，导航至Weka安装目录下的data子目录，选择iris.arff文件，如图2.4所示。单击“打开”按钮，打开该文件。

图2.4 “打开”对话框

打开文件(或称为加载数据)后的探索者界面如图2.5所示。可以看到，加载数据后，六个标签页都变为可用状态。

图2.5 打开文件后的探索者界面

读者可以自行切换标签页，初步了解各标签页的功能，为后续学习打下基础。

3. 了解状态栏

不论切换到哪个标签页，都可在探索者界面下部的状态栏中查看状态信息。在状态栏任意位置右击，在弹出的快捷菜单中选择Memory information菜单项，状态栏显示用斜杠分割的内存信息，格式为：空闲内存/全部内存/较大内存，单位是字节，如图2.6所示。

图2.6 内存信息

如果在快捷菜单中选择Run garbage collector菜单项，状态栏中会显示OK信息，表示已经启动了垃圾回收器，如图2.7所示。

图2.7 运行垃圾回收器

单击状态栏右边的Log按钮，可以查看当前日志，如图2.8所示。

图2.8 日志窗口

4. 保存图像文件

单击图2.5所示界面右边的Visualize All(全部可视化)按钮，打开如图2.9所示的全部可视化窗口。

图2.9 全部可视化窗口

同时按住Alt键和Shift键，并在图2.9所示的五幅图标中任选一图标，在图标的任意位置单击，启动Save as对话框。设置“文件名”为test，选择“文件类型”为jpg(或其他格式)，单击“保存”按钮，就可将其保存为图像文件，如图2.10所示。

图2.10 Save as对话框

在图2.10的右边，还可以定制图像文件的长、宽尺寸，单位为像素。选中Use custom dimensions(使用自定义尺寸)复选框，就可以设置图像尺寸。如果选中Keep aspect ratio(保持宽高比)复选框，则在修改图像长(或宽)的同时，会按比例自动缩放宽(或长)。

看过该图书的还看过

网友评论(不代表本站观点)

来自无昵称**的评论：

不错

2016-09-13 13:20:16

来自微笑每**的评论：

very good book!

2016-11-10 15:05:00

来自楚天浩**的评论：

书很不错，等着看了过后再评论

2016-11-15 16:19:47

来自无昵称**的评论：

作者很负责，难得。

2016-11-28 22:04:04

来自无昵称**的评论：

不错

2016-11-28 23:21:39

来自无昵称**的评论：

等着寒假啃

2016-12-13 15:47:15

来自匿名用**的评论：

不错的一本书

2017-01-01 13:08:19

来自无昵称**的评论：

纸质不错，很重，内容还没来得及看

2017-01-10 18:07:27

来自匿名用**的评论：

数据挖掘与机器学习·WEKA应用技术与实践（第二版）好好学习，好好研究！！！

2017-03-11 10:53:57

来自狮***羊**的评论：

好好好，正版

2017-03-15 13:14:23

来自匿名用**的评论：

软件的使用介绍的比较详细，不错。

2017-03-19 20:55:43

来自草***4(**的评论：

嗯。。。。。。。我准备学完再来评。。。。

2017-03-25 16:25:58

来自m***w(**的评论：

机器学习的专用软件，不错。

2017-03-27 21:58:38

来自班***(**的评论：

物流感人。谢谢物流先生。

2017-04-18 18:48:52

来自***(匿**的评论：

weka非常牛逼的数据挖掘软件

2017-05-15 20:13:08

来自匿名用**的评论：

还没看质量可以

2017-09-15 06:15:50

来自ddsuton**的评论：

很不错。。。。很不错。。。不错

2017-10-18 08:53:38