《大数据搜索与挖掘及可视化管理方案》书评-杂志之家

内容简介

对大数据的搜索、挖掘、可视化以及集群管理，在当今的“互联网 ”时代是很有必要的。本书的分布式大数据搜索、日志挖掘、可视化、集群监控与管理等方案是基于Elastic Stack 5而提出的，它能有效应对海量大数据所带来的分布式数据存储与处理、全文检索、日志挖掘、可视化、集群管理与性能监控等问题。构建在全文检索开源软件Lucene之上的Elasticsearch，不仅能对海量规模的数据完成分布式索引与检索，还能提供数据聚合分析；Logstash能有效处理来源于各种数据源的日志信息；Kibana是为Elasticsearch提供数据分析的Web接口，可使用它对数据进行高效的搜索、可视化、分析等操作；XPack监控组件可通过Kibana监控集群的状态；Beats是采集系统监控数据的。了解基于Elastic Stack 5的各相关组件并掌握它们的基本使用方法和技巧，对于大数据搜索与挖掘及管理是很有必要的。和第1版、第2版相比，本书力求反映基于Elastic Stack 5架构的成果，内容新颖，强调实践。本书可为高等学校相关专业(如计算机科学与技术、软件工程、物联网、信息管理与信息系统、数据科学与大数据技术)学生的学习和科研工作提供帮助，同时对于从事大数据搜索与挖掘、日志分析、信息可视化、集群管理与性能监控的工程技术人员和希望了解网络信息检索技术的人员也具有较高的参考价值和工程应用价值。

编辑推荐

本书着重介绍关于Elastic Stack的基本知识，带领读者深入了解Elastic Stack的实际应用，通过对数据搜索、日志挖掘与结果可视化展示等相关功能的介绍和实战，引导读者掌握相关的大数据搜索、日志分析和可视化技术。本书还详细介绍了X-Pack和Beats组件，展示了在Elastic Stack中的一些实践。

作者简介

作者简介高凯，本书主编。教授，博士毕业于上海交通大学计算机应用技术专业，省级重点学科“计算机软件与理论”中“信息检索与云计算”方向学术带头人，研究生导师，中国计算机学会高级会员，中国计算机学会计算机应用专委会常委，International Journal of Computer Applications in Technology副主编；主要研究方向为大数据搜索与挖掘、自然语言处理、网络信息检索、社会计算等；近几年出版了《信息检索与智能处理》、《大数据搜索与挖掘》、《网络信息检索技术及搜索引擎系统开发》等学术专著及多部规划教材；在Expert Systems With Applications、International Journal on Intelligent Information and Database System、International Journal on Modelling, Identification and Control、《中文信息学报》、《电子学报》、《小型微型计算机系统》等学术期刊以及在PAKDD等国际学术会议上发表学术论文五十余篇；主持及参与国家自然科学基金课题、省级科技支撑计划课题、省级自然科学基金课题等多项，申请计算机软件著作权登记十余项。

在线预览

Chapter 5第5章Elasticsearch配置与集群管理“Elasticsearch comes with reasonable defaults for most settings. Before you set out to tweak and tune the configuration,make sure you understand what are you trying to accomplish and the consequences. The primary way of configuring a node is via the elasticsearch.yml file. This template lists the most important settings you may want to configure for a production cluster.”——elasticsearch.yml基于Elasticsearch，可以完成很多和信息存储、检索等相关的问题。本章将对Elasticsearch的配置、集群管理等进行说明，并对提高索引和查询效率的策略进行简述。通过对本章的学习，能达到更好地配置和使用Elasticsearch的目的。5.1Elasticsearch部分基本配置及其说明Elasticsearch的大多数配置信息位于{es_home}/config/elasticsearch.yml文件中，所有配置都可使用环境变量。另一个是日志配置文件{es_home}/config/log4j2.properties，它对日志进行配置，其设置按普通log4j2配置文件来设置即可。Elasticsearch.yml负责设置服务器的默认状态，Elasticsearch的大多数配置在该配置文件中完成。参考文献\[Open,2014a\]\[子猴博客,2014\]，本节给出针对elasticsearch.yml的部分配置设置信息，包括:(1) 集群名称cluster.name: 例如“cluster.name: elasticsearch”。设置好以后，会自动发现在同一网段下的节点，如果在同一网段下有多个集群，可用这个属性来区分不同的集群。(2) 节点名称node.name: Elasticsearch启动时会自动创建节点名称，但也可在node.name中配置，例如“node.name: "Franz Kafka"”。指定节点名称有助于利用API访问具体的节点。虽然默认的集群启动时会给每个节点初始化一个名称，但仍然建议在这里手动设置节点名称。(3) 节点是否为master主节点: 每个节点都可被配置成为主节点，默认值为true，如“node.master: true”。在node.master: true中进行设置，目的是指定该节点是否有资格被选举成为node，默认集群中的及时台机器为master，如果这台机器宕机就会重新选举master。[1][2][1][3](4) 设置节点是否存储数据: 默认值为true，即设置node.data的值为“node.data: true”。如果希望节点只是一个master但不存储数据，则应当设置为代码段5.1所示的属性(注: 的#标记后的文字是注释说明)。#代码段5.1: 设置节点是master但不存储数据node.master: truenode.data: false如果希望节点只存储数据但不是一个master，则应当设置为代码段5.2所示的属性。#代码段5.2: 设置节点不作为master但存储数据node.master: falsenode.data: true如果既不希望该节点为一个master也不想它存储数据，则应该设置为代码段5.3所示的属性。对部分相关配置的说明如下:#代码段5.3: 设置节点既不是master也不存储数据node.master: falsenode.data: false(1) node.attr.rack设置机架编号，如“r1”。(2) 可在node.max_local_storage_nodes中设置一台机器能运行的较大节点数目。 (3) 设置配置文件的存储路径: path.conf: /path/to/conf，默认是Elasticsearch根目录下的config文件夹。(4) 设置分配给当前节点的索引数据所在的位置: 可在配置文件的path.data: /path/to/data中进行设置，默认是Elasticsearch根目录下的data文件夹，可以选择包含一个以上的位置，用逗号隔开，这样使得数据在文件级别可跨越位置，在创建时就有更多的自由路径可供选择。(5) 设置日志文件所在位置: 可在path.logs: /path/to/logs中进行设置，默认是Elasticsearch根目录下的logs文件夹。(6) 设置绑定的IP地址，可以是IPv4或IPv6的，默认为0.0.0.0。默认情况下Elasticsearch使用0.0.0.0地址，并为HTTP传输开启9200～9300端口，为节点到节点的通信开启9300～9400端口。也可自行设置IP地址，可在配置文件的network.bind_host和network.publish_host中进行设置。(7) 设置节点与其他节点交互的TCP端口，默认是9300，可在配置文件的transport.tcp.port中进行设置。(8) 设置是否压缩TCP传输时的数据，默认为false，可在配置文件的transport.tcp.compress中进行设置。(9) 设置为HTTP传输监听定制的端口，默认是9200，可在配置文件的http.port中进行设置。(10) 设置是否使用HTTP协议对外提供服务，默认为true，可在配置文件的http.enabled中进行设置。(11) 设置内容的较大长度，默认是100MB，可在配置文件的http.max_content_length中进行设置。(12) 设置参数来保障集群中的节点可以知道其他N个有master资格的节点，默认为1。对于较大的集群来说，可以将该值设置为 (具有master资格的节点数/2) 1，可在配置文件的discovery.zen.minimum_master_nodes中进行设置。(13) 设置集群中自动发现其他节点时ping连接超时时间，默认为3s，即3秒，对于比较差的网络环境可以提高该值来防止自动发现时出错，可在配置文件的discovery.zen.ping_timeout中进行设置。(14) 设置集群中N个节点启动时进行数据恢复，默认为1，可在配置文件的gateway.recover_after_nodes中进行设置。(15) 设置初始化数据恢复进程的超时时间，默认是5分钟: 可在配置文件的gateway.recover_after_time中进行设置。(16) 设置这个集群中节点的数量，默认为2，一旦这N个节点启动，就会立即进行数据恢复，可在gateway.expected_nodes中进行设置。(17) 初始化数据恢复时并发恢复线程的个数，默认为4，可在配置文件的cluster.routing.allocation.node_initial_primaries_recoveries中进行设置。