在线客服

数据挖掘技术论文实用13篇

引论:我们为您整理了13篇数据挖掘技术论文范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。

数据挖掘技术论文

篇1

Weka的全名是怀卡托智能分析环境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免费的、非商业化的、基于JAVA环境下开源的机器学习以及数据挖掘软件[2]。它包含了许多数据挖掘的算法,是目前最完备的数据挖掘软件之一。Weka软件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四种模块[2]。其中Explorer是用来探索数据环境的,Experimenter是对各种实验计划进行数据测试,KnowledgeFlow和Explorer类似,但该模块通过其特殊的接口可以让使用者通过拖动的形式去创建实验方案,Simple-CLI为简单的命令行界面。以下数据挖掘任务主要用Ex-plorer模块来进行。

(一)数据预处理

数据挖掘所需要的所有数据可以由系统排序模块生成并进行下载。这里我们下载近两年的教师科研信息。为了使论文总分、学术著作总分、科研获奖总分、科研立项总分、科研总得分更有利于数据挖掘计算,在这里我们将以上得分分别确定分类属性值。

(二)数据载入

点击Explorer进入后有四种载入数据的方式,这里采用第一种Openfile形式。由于Weka所支持的标准数据格式为ARFF,我们将处理好的xls格式另存为csv,在weka中找到这个文件并重新保存为arff文件格式来实现数据的载入。由于所载入的数据噪声比较多,这里应根据数据挖掘任务对数据表中与本次数据任务不相关的属性进行移除,只将学历、职称、论文等级、学术著作等级、科研获奖等级、科研立项等级、科研总分等级留下。

(三)关联挖掘与结果分析

WeakExplorer界面中提供了数据挖掘多种算法,在这里我们选择“Associate”标签下的Apriori算法。之后将“lowerBoundMinSupprot”(最小支持度)参数值设为0.1,将“upperBoundMinSupprot”(最大支持度)参数值设为1,在“metiricType”的参数值选项中选择lift选项,将“minMetric”参数值设为1.1,将“numRules”(数据集数)参数值设为10,其它选项保存默认值,这样就可以挖掘出支持度在10%到100%之间并且lift值超过1.1且排名前10名的关联规则。其挖掘参数信息和关联挖掘的部分结果。

三、挖掘结果与应用

以上是针对教师基本情况和科研各项总分进行的反复的数据挖掘工作,从挖掘结果中找到最佳模式进行汇总。以下列出了几项作为参考的关联数据挖掘结果。

1、科研立项得分与论文、科研总得分关联度高,即科研立项为A级的论文也一定是A。这与实际也是相符的,因为科研立项得A的教师应该是主持了省级或是国家级的立项的同时也参与了其他教师的科研立项,在课题研究的过程中一定会有国家级论文或者省级论文进行发表来支撑立项,所以这类教师的论文得分也会很高。针对这样的结果,在今后的科研工作中,科研处要鼓励和帮助教师搞科研,为教师的科研工作提供精神上的支持和物质上的帮助,这样在很大程度上能够带动整个学校科研工作的进展。

篇2

一、客户关系管理(CRM)

CRM是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。

二、数据挖掘(DM)

数据挖掘(DataMining,简称DM),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。

常用的数据挖掘方法有:(1)关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购买习惯。(2)序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果)关系。例如,可以通过分析客户在购买A商品后,必定(或大部分情况下)随着购买B商品,来发现客户潜在的购买模式。(3)分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。(4)聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。(5)孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。

三、数据挖掘在客户关系管理中的应用

1.进行客户分类

客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类,针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。

2.进行客户识别和保留

(1)在CRM中,首先应识别潜在客户,然后将他们转化为客户

这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为“是”或“否”会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。

(2)在客户保留中的应用

客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。

(3)对客户忠诚度进行分析

客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客。

(4)对客户盈利能力分析和预测

对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。

(5)交叉销售和增量销售

交叉销售是促使客户购买尚未使用的产品和服务的营销手段,目的是可以拓宽企业和客户间的关系。增量销售是促使客户将现有产品和服务升级的销售活动,目的在于增强企业和客户的关系。这两种销售都是建立在双赢的基础上的,客户因得到更多更好符合其需求的服务而获益,公司也因销售增长而获益。数据挖掘可以采用关联性模型或预测性模型来预测什么时间会发生什么事件,判断哪些客户对交叉销售和增量销售很有意向,以达到交叉销售和增量销售的目的。例如,保险公司的交叉营销策略:保险公司对已经购买某险种的客户推荐其它保险产品和服务。这种策略成功的关键是要确保推销的保险险种是用户所感兴趣的,否则会造成用户的反感。

四、客户关系管理应用数据挖掘的步骤

1.需求分析

只有确定需求,才有分析和预测的目标,然后才能提取数据、选择方法,因此,需求分析是数据挖掘的基础条件。数据挖掘的实施过程也是围绕着这个目标进行的。在确定用户的需求后,应该明确所要解决的问题属于哪种应用类型,是属于关联分析、分类、聚类及预测,还是其他应用。应对现有资源如已有的历史数据进行评估,确定是否能够通过数据挖掘技术来解决用户的需求,然后将进一步确定数据挖掘的目标和制定数据挖掘的计划。

2.建立数据库

这是数据挖掘中非常重要也非常复杂的一步。首先,要进行数据收集和集成,其次,要对数据进行描述和整合。数据主要有四个方面的来源:客户信息、客户行为、生产系统和其他相关数据。这些数据通过抽取、转换和装载,形成数据仓库,并通过OLAP和报表,将客户的整体行为结果分析等数据传递给数据库用户。

3.选择合适的数据挖掘工具

如果从上一步的分析中发现,所要解决的问题能用数据挖掘比较好地完成,那么需要做的第三步就是选择合适的数据挖掘技术与方法。将所要解决的问题转化成一系列数据挖掘的任务。数据挖掘主要有五种任务:分类,估值预测,关联规则,聚集,描述。前三种属于直接的数据挖掘。在直接数据挖掘中,目标是应用可得到的数据建立模型,用其它可得到的数据来描述感兴趣的变量。后两种属于间接数据挖掘。在间接数据挖掘中,没有单一的目标变量,目标是在所有变量中发现某些联系。

4.建立模型

建立模型是选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型的过程。一个好的模型没必要与已有数据完全相符,但模型对未来的数据应有较好的预测。需要仔细考察不同的模型以判断哪个模型对所需解决的问题最有用。如决策树模型、聚类模型都是分类模型,它们将一个事件或对象归类。回归是通过具有已知值的变量来预测其它变量的值。时间序列是用变量过去的值来预测未来的值。这一步是数据挖掘的核心环节。建立模型是一个反复进行的过程,它需要不断地改进或更换算法以寻找对目标分析作用最明显的模型,最后得到一个最合理、最适用的模型。

5.模型评估

为了验证模型的有效性、可信性和可用性,从而选择最优的模型,需要对模型进行评估。我们可以将数据中的一部分用于模型评估,来测试模型的准确性,模型是否容易被理解模型的运行速度、输入结果的速度、实现代价、复杂度等。模型的建立和检验是一个反复的过程,通过这个阶段阶段的工作,能使数据以用户能理解的方式出现,直至找到最优或较优的模型。

6.部署和应用

将数据挖掘的知识归档和报告给需要的群体,根据数据挖掘发现的知识采取必要的行动,以及消除与先前知识可能存在的冲突,并将挖掘的知识应用于应用系统。在模型的应用过程中,也需要不断地对模型进行评估和检验,并做出适当的调整,以使模型适应不断变化的环境。

参考文献:

[1]罗纳德.S.史威福特.客户关系管理[M].杨东龙译.北京:中国经济出版社,2002

[2]马刚:客户关系管理[M]大连:东北财经大学出版社,2008

[3]朱美珍:以数据挖掘提升客户关系管理[J].高科技产业技术与创新管理,2006,(27)

篇3

Web数据挖掘技术的主要工作流程可以分为以下几个步骤:第一步,确立目标样本,这一步是用户选取目标文本,以此来作为提取用户的特征信息;第二步,提取特征信息,这一步就是根据第一步得到的目标样本的词频分布,从现有的统计词典中获取所要挖掘的目标的特征向量,并计算出其相应的权值;第三步,从网络上获取信息,这一步是利用通过搜索引擎站点选择采集站点,然后通过Robot程序采集静态的Web页面,最后再获取这些被访问站点的网络数据库中的动态信息,然后生成WWW资源库索引;第四步,进行信息特征匹配,通过提取源信息的特征向量,去和目标样本的特征向量进行匹配,最后将符合阈值条件的信息返回个用户。

三、Web数据挖掘技术在高校数字图书馆中的应用

高校数字图书馆为师生主要提供以下功能:查找图书、期刊论文、会议文献等数字资源;图书借阅、归还等服务;图书信息、管理制度;导航到图书光盘、视频资源等数据库系统。师生时常登录到网站中查找其需要的信息,根据师生所学专业、研究方向不同,关注目标也不同。通常这类师生会到常用的图书馆网站上,查找自己所需要的特定领域的资源;浏览一下有哪些内容发生变化,是否有新知识增加,而且所有改变常常是用户所关注的内容;另外,当目标网页所在的位置有所改变或这个网站的组织结构、层次关系有所变动时,所有这些问题只要稍加改动,容易使用户难以找到所需内容。本课题采用Web挖掘技术与搜索技术相结合。首先允许用户对感兴趣的内容进行定制,构造数据挖掘的先验知识,然后通过构造浏览器插件,捕获用户在浏览器上的行为数据,采用Web数据挖掘的方法,深入分析用户的浏览行为数据,获得用户的信息资料集,最终为用户提供不同的个性化服务页面,并提供用户对站内信息进行搜索功能,同时可以满足师生对于图书馆资源进行查找访问的需求,实现高校图书馆网站资源真正意义上的个性化服务。

1、为开发网络信息资源提供了工具

数字图书馆需要的是一种可以有效的将信息进行组织管理,同时还能够对信息进行深层的加工管理,提供多层次的、智能化的信息服务和全方位的知识服务,提供经过加工、分析综合等处理的高附加值的信息产品和知识产品的工具。目前许多高校数字图书馆的查询手段还只局限于一些基本的数据操作,对数据只能进行初步的加工,不具有从这些数据中归纳出所隐含的有用信息的功能,也使得这些信息不为人知,从而得不到更好的使用,这些都是对网络信息资源的一种浪费。而通过Web数据挖掘技术科研有效的解决这一问题。这种技术可以用于挖掘文档的隐含的有用的内容,或者可以在其他工具搜索的基础上进一步进行处理,得到更为有用和精确的信息。通过Web数据挖掘技术科研对数字图书关注中的信息进行更加有效地整合。

2、为以用户为中心的服务提供帮助

通过浏览器访问数字图书馆后,可被记载下来的数据有两类,一类是用户信息,另一类是用户访问记录。其中用户信息包括了用户名,用户访问IP地址,用户的职业、年龄、爱好等。用户名师用户登录图书馆时输入,用户访问IP地址通过程序获得,其他的信息都是用户在注册时所填写的,访问记录则是在用户登录时所记录的,也是由程序获得。对这些用户信息进行分析可以更加有效的了解用户的需求通过分析服务器中用户请求失败的数据,结合聚集算法,可以发现信息资源的缺漏,从而指导对信息资源采集的改进,让高校数字图书馆的信息资源体系建设的更加合理。对数字图书馆系统的在线调查、留言簿、荐书条等的数据进行收集整理,并使之转化为标准的结构化数据库,然后在通过数据挖掘,皆可以发现用户所感兴趣的模式,同时还可以预先发现用户群体兴趣的变迁,调整馆藏方向,提前做好信息资源的采集计划。通过Web数据挖掘,可以对用户的信息需求和行为规律进行总结,从而为优化网络站点的结构提供参考,还可以适当各种资源的配置更加的合理,让用户可以用更少的时间找到自己所需要的资源。例如可以通过路径分析模式采掘捕捉确定用户频繁浏览访问的路径,调整站点结构,并在适当处加上广告或荐书条。

3、Web数据挖掘技术在图书馆采访工作中的应用

在图书馆的工作中有一步十分的重要,这就是采访工作,采访工作的做的好坏程度会直接的对图书馆的服务质量产生影响。通常情况图书馆的工作人员会根据图书馆的性质、服务对象及其任务来决定采访的内容。但是这种采访局限性很大,很多时候会受采访人员的主观意识的影响,同时这种方式也会显得死板不灵活。很多时候会出现应该购进的文献没有买,不应该买的文献却买了很多等与读者的需求不符的现象。这些现象的产生都是因为缺乏对读者需求的了解和分析。要解决这些问题就必须对读者的需求进行全面的了解和分析,而Web数据挖掘则为解决该问题提供了一种较好的方法。通过对各种日志文件和采访时获得的数据进行分析,可以很清楚的得到读者需要的是什么样的书籍、不需要的又是什么样的书籍,从而为采购提供各种科学合理的分析报告和预测报告。根据对分析还能帮组图书馆管理人员确定各种所需书籍的比例,从而确定哪些文献应该及时的进行补充,哪些文献应该进行剔除,对馆藏机构进行优化,真正的为高校里的师生提供所需要的文献和资料。

4、使用Web数据挖掘技术提供个性化服务

篇4

通常,数据挖掘过程包括4个步骤,即选择数据、预处理、实施挖掘以及吸收数据。数据挖掘整个过程具有交互性,有时数据需要重新选择,有时也要对数据预处理进行改进,也可能出现算法反复被调整现象,基于这种特征,数据挖掘时要设置反馈环。挖掘数据第1步是将管理和目标反映到1个(或多个)挖掘任务中,整个过程可主要划分成为六种:1)评估、预测。评估包括对软件产品、过程以及资源的属性进行相应检查就是整个评估过程,同时也需要根据这些属性,赋值给未知属性,当然这些未知属性需要进行量化。评估工作完成后,要对属性值进行预测。2)分类。检查1个特定实体属性,根据结果将其划分到另1个类别或范畴(事先定义好)中。3)关联发现。关联发现能够识别出特定内容中互相存在关联某些属性。如,可将找出在软件开发属性和产品属性相互关联的内容找出来。4)聚类。将1个结构不相同的群体划分到另1个具有相同结构的子群集合中,这个过程叫做聚类,它的划分依据是成员之间具有高度相似性。5)数据可视化。数据可视化是利用可视化描述方法来定义复杂信息。6)可视数据探察。可视化数据探察是对描述工作的相应拓展,可利用数据可视化交互控制来分析和检视海量数据[3]。它应用具有可视化功能和数据挖掘技术来对数据进行处理。

3挖掘技术在软件工程中应用

上文提及到软件工程度量,部分可利用信息已在海量数据中被提取出来,但普遍认为更为有效且数量众多的数据依然在软件工程相关数据库中隐藏,而没有被发现。实际上,数据挖掘就是1种被公认为提升软件工程度量的技术。图1为数据挖掘在软件工程中的应用。

3.1数据挖掘繁荣原因1)计算机硬件系统和软件系统的基础设施建立具备发现驱动、分析数据等功能;2)每种技术都在实际应用中不断得到改进,其使用能力不断提升。如,模式识别、神经网络等有明显进步趋势;3)数据存储、贮藏、集成成本不高,海量数据可轻松获得。数据挖掘技术被人们认识,并在实践中逐渐被重视,同时也给研究和进一步提高数据挖掘技术提供了便利条件。

3.2面临挑战软件工程自身存在很多数据上的特殊性,给数据挖掘领域研究工作带来制约和影响,主要表现在以下三个方面:1)数据复杂。软件工程数据主要分为两个组成部分,即结构化数据、非结构化数据。结构化数据主要包括缺陷报告、版本信息等内容,而非结构化数据则包含数据代码、相应注释以及文档等内容。结构化数据、非结构化数据并不能同时适用一种算法,而且两种数据间还存在对应联系。如,1个缺陷报告中往往包括缺陷代码段。而结构化数据里常常涵盖部分非结构化信息,非结构化数据中亦是如此,这也是今后工作中需要重点解决的问题之一。2)非传统分析存在局限。数据挖掘最终想实现的目标就是将转化而来的信息传达给用户,实现信息共享。传统数据挖掘技术在使用过程中,信息手段比较单一,如文字、图表等表达形式。其实,软件开发商对信息的要求很高,1个统计结果根本不能满足其工作需求。为促进软件开发不断向上发展,开发人员需要相关信息作为参考依据,包括开发实际案例、编程所需模板、系统缺陷定位以及软件结构设计等。研究数据挖掘技术,提升其实际使用功能,需要不断提交新信息、新知识,并改进相应手方法。3)挖掘结果评价标准不够具体。软件工程数据挖掘尚未形成完善的结果表示体系,其评价体系也有待加强。人员在软件开发过程中需要大量信心,这些信息非常具体且复杂,表示方法不尽相同,互相之间难以做出对比,也很难用定量方法去分析挖掘结果。

篇5

二、Web数据挖掘技术的工作流程

Web数据挖掘技术的主要工作流程可以分为以下几个步骤:第一步,确立目标样本,这一步是用户选取目标文本,以此来作为提取用户的特征信息;第二步,提取特征信息,这一步就是根据第一步得到的目标样本的词频分布,从现有的统计词典中获取所要挖掘的目标的特征向量,并计算出其相应的权值;第三步,从网络上获取信息,这一步是利用通过搜索引擎站点选择采集站点,然后通过Robot程序采集静态的web页面,最后再获取这些被访问站点的网络数据库中的动态信息,然后生成www资源库索引;第四步,进行信息特征匹配,通过提取源信息的特征向量,去和目标样本的特征向量进行匹配,最后将符合阈值条件的信息返回个用户。

三、Web数据挖掘技术在高校数字图书馆中的应用

1、为开发网络信息资源提供了工具

数字图书馆需要的是一种可以有效的将信息进行组织管理,同时还能够对信息进行深层的加工管理,提供多层次的、智能化的信息服务和全方位的知识服务,提供经过加工、分析综合等处理的高附加值的信息产品和知识产品的工具。目前许多高校数字图书馆的查询手段还只局限于一些基本的数据操作,对数据只能进行初步的加工,不具有从这些数据中归纳出所隐含的有用信息的功能,也使得这些信息不为人知,从而得不到更好的使用,这些都是对网络信息资源的一种浪费。而通过web数据挖掘技术科研有效的解决这一问题。这种技术可以用于挖掘文档的隐含的有用的内容,或者可以在其他工具搜索的基础上进一步进行处理,得到更为有用和精确的信息。通过web数据挖掘技术科研对数字图书关注中的信息进行更加有效地整合。

2、为以用户为中心的服务提供帮助

通过浏览器访问数字图书馆后,可被记载下来的数据有两类,一类是用户信息,另一类是用户访问记录。其中用户信息包括了用户名,用户访问IP地址,用户的职业、年龄、爱好等。用户名师用户登录图书馆时输入,用户访问IP地址通过程序获得,其他的信息都是用户在注册时所填写的,访问记录则是在用户登录时所记录的,也是由程序获得。对这些用户信息进行分析可以更加有效的了解用户的需求通过分析服务器中用户请求失败的数据,结合聚集算法,可以发现信息资源的缺漏,从而指导对信息资源采集的改进,让高校数字图书馆的信息资源体系建设的更加合理。对数字图书馆系统的在线调查、留言簿、荐书条等的数据进行收集整理,并使之转化为标准的结构化数据库,然后在通过数据挖掘,皆可以发现用户所感兴趣的模式,同时还可以预先发现用户群体兴趣的变迁,调整馆藏方向,提前做好信息资源的采集计划。通过web数据挖掘,可以对用户的信息需求和行为规律进行总结,从而为优化网络站点的结构提供参考,还可以适当各种资源的配置更加的合理,让用户可以用更少的时间找到自己所需要的资源。例如可以通过路径分析模式采掘捕捉确定用户频繁浏览访问的路径,调整站点结构,并在适当处加上广告或荐书条。

3、web数据挖掘技术在图书馆采访工作中的应用

在图书馆的工作中有一步十分的重要,这就是采访工作,采访工作的做的好坏程度会直接的对图书馆的服务质量产生影响。通常情况图书馆的工作人员会根据图书馆的性质、服务对象及其任务来决定采访的内容。但是这种采访局限性很大,很多时候会受采访人员的主观意识的影响,同时这种方式也会显得死板不灵活。很多时候会出现应该购进的文献没有买,不应该买的文献却买了很多等与读者的需求不符的现象。这些现象的产生都是因为缺乏对读者需求的了解和分析。要解决这些问题就必须对读者的需求进行全面的了解和分析,而web数据挖掘则为解决该问题提供了一种较好的方法。通过对各种日志文件和采访时获得的数据进行分析,可以很清楚的得到读者需要的是什么样的书籍、不需要的又是什么样的书籍,从而为采购提供各种科学合理的分析报告和预测报告。根据对分析还能帮组图书馆管理人员确定各种所需书籍的比例,从而确定哪些文献应该及时的进行补充,哪些文献应该进行剔除,对馆藏机构进行优化,真正的为高校里的师生提供所需要的文献和资料。

4、使用web数据挖掘技术提供个性化服务

篇6

模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。该方法在20世纪70年代,由国际劳工组织引入教学之中,开发出以现场教学为主,以技能培训为核心的模块化教学模式,在很多国家得到广泛应用。由于该教学法具有针对性、灵活性、现实性等特点,越来越受到教育界的关注。模块化教学本质上是以知识点与实践的细化为出发点研究,本课程的知识点细化分为两个层次:一是从宏观角度,参考ACM的SIGKDD的数据挖掘课程建设建议,设计课程的基础内容模块和高级主题模块;二是从微观角度,针对较为复杂的算法进行的知识点划分。课程内容的一至五章属于基础内容模块,介绍本课程的基础理论和入门的数据挖掘技术;六至第八章介于基础内容与高级主题之间,介绍数据挖掘的核心算法,可以根据学生情况进行灵活处理,可强调应用,也可深化算法介绍;第九、十章为高级主题模块,可以作为扩展材料介绍应用,或为感兴趣同学提供算法介绍;课程实践模块包含数据仓库建设与数据挖掘算法的应用,难度居中,可以在引导学生思考的前提下给出实验步骤,并引导学生使用类似的方法处理不同的数据。

3、基于模块化方法进行重要知识点的模块化分析

重要知识点内涵较为丰富,一般体现在经典数据挖掘算法上,通常一大类算法下还分有多个算法,不同算法的在难度上有渐进层次,同一种算法也有很大改进研究空间,讲授弹性比较大。因此,适合使用模块化方法进行处理,并且需要在课程设计中明确一定课时量所要达到的内容和难度。基础部分为必选内容,介绍基本概念和基本原理;决策树作为数据挖掘分类算法的最基础算法也是必选内容,决策树算法有多种分类,需要进行按照难易程度进行选择;最后要根据难度选择其他分类算法进行介绍。

篇7

大数据是指数据量很大(一般是TB到PB数量级)的巨量资料,无法通过主流软件工具,在合理时间内完成数据处理并获取有价值的信息。数据大多以非结构化或者半结构化数据为主,大数据具有4V特点:Volume、Velocity、Variety、Veracity。大数据处理的一般思路是数据压缩、数据抽样、数据挖掘等。数据挖掘是一种新的信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、推荐系统等,它们分别从不同的角度对数据进行挖掘。大数据挖据的数据源和处理方式对比。

3数据挖据流程和模型选取

3.1数据挖掘的主要流程

数据挖掘主要包括以下6大步骤。

(1)商业理解:确定挖掘目标以及产生一个项目计划。

(2)数据理解:知晓有哪些数据,以及数据的特征是什么。

(3)数据准备:对数据作出转换、清洗、选择、合并等工作。

(4)建模:根据挖掘目标确定适合的模型,建模并对模型进行评估。

(5)模型评估:评估建模效果,对效果较差的结果我们需要分析原因。

(6)结果部署:用所建挖掘模型去解决实际问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。

3.2垃圾短信治理指标体系设计

垃圾短信用户识别建模数据主要从信令监测系统、经营分析系统获取,所获取的用户行为数据主要包括用户通信行为信息、用户基础业务属性、用户通信业务信息等7个维度。其中,用户通信行为信息包括活动轨迹、终端IMEI和数据业务访问等信息。

3.3模型的选取

对白名单用户的识别可以利用社交网络模型与业务规则相结合的方法。利用社交网络进行白名单用户识别,重点考虑用户之间发生的通信行为、增值业务交互行为等群体行为,通过对用户之间关系的辨识。本文建模的重点着眼于垃圾短信用户的识别及其治理。

3.3.1现有垃圾短信识别模型的优势与不足

识别垃圾短信用户是数据挖掘中的分类问题,数据挖掘中常用的分类算法主要有逻辑回归、决策树、贝叶斯网络等算法。其中,神经网络因本身算法的复杂性,造成模型结果解释性较差,模型落地较困难而很少在实际项目中使用。目前识别垃圾短信的数据挖掘模型基本上为逻辑回归模型和决策树模型。决策树模型主要具有以下优势:模型非常直观,容易让人理解和应用;决策树搭建和应用的速度比较快;决策树对于数据分布没有严格要求;受缺失值和极端值对模型的影响很小。但是,使用决策树作为垃圾短信用户识别模型主要存在以下不足。

(1)决策树最大缺点是其原理中的贪心算法。贪心算法总是做出在当前看来最好的选择,却不从整体上思考最优的划分,因此,它所做的选择只能是某种意义上的局部最优选择。

(2)决策树缺乏像回归或者聚类那样丰富多样的检测指标和评价方法。

(3)容易出现过拟合。当某些自变量的类别数量比较多,或者自变量是区间型时,决策树过拟合的危险性会增加。

(4)决策树算法对区间型自变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因分箱丧失某些重要信息。尤其是当分箱前的区间变量与目标变量有明显的线性关系时,这种分箱操作造成的信息损失更为明显。

相比于数据挖掘建模常用的其它算法如决策树、神经网络、支持向量机等,逻辑回归技术是最成熟,得到广泛应用,逻辑回归模型主要存在以下不足。

(1)变量之间的多重共线性会对模型造成影响。

(2)应删除异常值,否则它会给模型带来很大干扰。

(3)逻辑回归模型本身不能处理缺失值,所以应用逻辑回归算法时,要注意针对缺失值进行适当处理,或者赋值,或者替换,或者删除。

3.3.2垃圾短信识别预测模型选取

鉴于目前研究者对垃圾短信识别使用的决策树和逻辑回归模型存在较多不足之处,本文从模型算法上对其进行改进,力求得到更加科学合理的垃圾短信识别预测模型。本文使用的数据挖掘模型为随机森林模型。

3.3.2.1模型简介

随机森林(RandomForest)算法是一种专门为决策树分类器设计的优化方法。它综合了多棵决策树模型的预测结果,其中的每棵树都是基于随机样本的一个独立集合的值产生的。随机森林和使用决策树作为基本分类器的Bagging有些类似。以决策树为基本模型的Bagging在每次自助法(Boostrap)放回抽样之后,产生一棵决策树,抽多少样本就生成多少棵树,在生成这些树的时候没有进行更多的干预。而随机森林也是进行许多次自助法放回抽样,所得到的样本数目及由此建立的决策树数量要大大多于Bagging的样本数目。随机森林与Bagging的关键区别在于,在生成每棵树的时候,每个节点变量都仅仅在随机选出的少数变量中产生。因此,不但样本是随机的,就连每个节点变量产生都有相当大的随机性。随机森林让每棵树尽可能生长,而不进行修剪。随机森林算法主要包括决策树的生长和投票过程。随机森林中单棵树的生长可概括为以下几步。

(1)使用Bagging方法形成个别的训练集:假设原始训练集中的样本数为N,从中有放回地随机选取N个样本形成一个新的训练集,以此生成一棵分类树。

(2)随机选择特征(指评估指标,以下同)对分类树的节点进行分裂:假设共有M个特征,指定一个正整数m<M,在每个内部节点,从M个特征中随机抽取m个特征作为候选特征,选择这m个特征上最好的分裂方式对节点进行分裂。在整个森林的生长过程中,m的值保持不变。

(3)每棵树任其生长,不进行剪枝。Bagging方法形成新的训练集和随机选择特征进行分裂,使得随机森林能较好地容忍噪声,并且能降低单棵树之间的相关性;单棵树不剪枝能得到低偏差的分类树,同时保证了分类树的分类效能(Strength),分类树的分类效能是指分类树对新的测试数据的分类准确率。

3.3.2.2随机森林分类预测模型的主要优势

(1)随机森林的预测精度高,它可以产生高准确度的分类器。

(2)可以处理相当多的输入变量。随机森林不惧怕很大的维数,即使有数千个变量,也不必删除,它也会给出分类中各个变量的重要性。

(3)当在构建随机森林模型时候,对GenerlizationError估计是无偏估计。

(4)随机森林在设计上具有很快训练速度,训练出结果模型不必花费大量时间。

(5)对缺失值和极端值具有很强容忍能力,即使有较多缺失数据仍可以维持准确度。

(6)当遇到分类数据不平衡时,可以较好地平衡误差。

(7)随机森林算法并不会导致过拟合。定义组合分类器的总体分类效能s为:s=Ex,ymg(x,y)。若用ρ表示每棵分类树之间相关度的均值,则随机森林的泛化误差PE的上界可由下式给出:PE*≤ρ(1-s2)/s2。当随机森林有相当多的分类树时,随机森林的泛化误差几乎处处收敛于一个有限值。因此,随着森林中分类树数目的增长,随机森林算法并不会导致过拟合。

(8)随机森林在模型训练过程中,能够对特征之间的相互影响行为做出检测。随机森林算法具有以上优势,在垃圾短信治理预测中具有应用的优势,本文采用随机森林模型作为垃圾短信用户的分类预测。综上所述,随机森林模型主要在不会出现过拟合、训练精度高、能处理大量输入变量并输出变量重要性3个方面优越于决策树模型;在容忍缺失值和极端值方面明显优越于逻辑回归模型。随机森林模型在算法设计上有效弥补了决策树和逻辑回归模型的不足之处,在垃圾短信识别分类预测中具有较好的应用价值。

3.3.2.3垃圾短信数据挖掘模型构建

通过前述的商业理解确定了垃圾短信识别业务需求,并进行数据理解构建了垃圾短信识别指标体系,再抽取需要的数据,并进行数据清洗、转换、衍生变量计算等步骤,具备了建模的目标数据,接下来的任务就是通过随机森林模型构建垃圾短信分类预测模型,对垃圾短信用户进行识别。

3.4用户分类治理策略

通过随机森林模型的识别,根据用户是垃圾短信发送者的可能性评估,制定不同的治理策略,如图3所示。实际的执行过程中,需要根据清单的范围大小,适当的调整预测概率门限,以保证策略执行的效果,同时避免过多的正常用户的业务感知受到影响。

4垃圾短信治理平台的实现

4.1系统架构

垃圾短信治理平台的数据来源较多,需要处理的数据量也非常大,因此,数据采集和数据处理过程是相互影响的过程。垃圾短信治理平台的系统架构图如图4所示。

(1)数据采集层:是垃圾短信治理平台与多个数据库来源的安全访问接口,通过数据采集层实现数据挖掘和分析所需要的基础信息:用户属性信息、用户卡号信息、用户业务记录、用户的位置信息和消费记录。

(2)数据处理层:需要根据数据挖掘的需求,将采集的基础数据转换为业务服务层可以使用的数据,通过对基础数据进行整形、清洗和预处理,为后续的数据挖掘做好数据准备。

(3)业务服务层:主要包括应用和安全服务两个部分,应用包括数据查询统计服务、用户查询服务和GIS应用服务,同时,补充报表服务和文件管理服务以方便日常的工作。通过外部接口服务,可以部署相应的权限管理、数据管理维护以及注册服务等,降低系统的风险,保证信息的安全传递。

(4)功能模块:主要是根据客户需求,定制开发的功能单元,功能模块的个数以实际部署的情况为准。以图4垃圾短信治理平台的系统架构图某省公司的定制模块为例,主要包括指标查询模块、垃圾短信治理模块、用户综合信息分析模块和市场支撑应用模块4个部分。

4.2效果展现

针对不同的部门或用户,垃圾短信治理平台展现不同的数据,主要包括以下的结果展现方式。

(1)治理效果掌控:通过指标查询系统,及时掌握垃圾短信的治理效果,发现工作的成果和风险,达到及时发现问题并快速响应的目的。

(2)治理效率提升:通过垃圾短信治理模块,快速准确识别垃圾短信源头并定位区域,下发至地市公司快速处理,减小垃圾短信带来的不良社会影响。

(3)实现预先管控:通过用户综合信息分析模块,可以对潜在的具有垃圾短信源头特征的风险终端进行监控、通过外呼、资费信息等情况,提前发现和治理潜在垃圾短信源。

篇8

2.1采集有效数据

数据采集是动态取证重要的环节之一,只有做好数据采集工作,才能保证取证的质量以及完整性,在当前网络患者下,为了保证数据库中数据的充足性,需要提高数据采集的效率。在网络数据获取时,需要注意三点内容,首先,要保证数据的完整性,在采集的过程中,不能对数据进行修改或者破坏;其次,数据采集系统不能受到网络流量的影响;最后,数据采集获取的过程中,要具有较高的透明度,要保证被检测的网络不会受到外界因素的影响。

2.2数据存储

动态取证技术是公安部门应用比较多的技术,与NIDS技术相比,其不但可以对特殊文字以及词汇进行摘录,还可以对数据进行完整性记录,通过对数据模块的分析,可以追查到相关内容。利用动态取证技术,可以将需要的报文完整的保存起来,还可以对网络流量进行详细的记录,可以确保系统不会丢失文件,另外,当系统遭到黑客的入侵或者破坏后,动态取证技术还可以进行实时恢复,所以,这项技术具有一定防御以及反击作用。在应用动态取证技术时,需要保证系统存储空间的容量。

2.3数据分析

数据分析是动态取证中一项关键的环节,通过分析可以辨识不良入侵,是保证数据库安全的有效措施。在网络还原或者重建的过程中,利用数据分析技术还可以将损失降到最低。网络数据分析有两种方式,一种是基本分析,另一种是深入分析,如果取证问题比较简单,则利用基本分析方法就可以解决,但是如果取证比较复杂,并且要求比较高,则必须进行深入数据分析。深入分析需要对重组网络数据以及来源进行分析,还需要对数据间的关联性进行分析,通过数据分析还可以还原与模拟网络事件现场。动态取证技术也具有一定缺点,在取证的过程中存在漏报或者误报的情况。

3数据挖掘技术在动态取证系统中的应用

基于数据挖掘的计算机动态取证技术,与传统的动态取证技术相比,有着较大的优势,其可以对海量收集的数据进行实时取证分析,而且准确性比较高,其具有关联分析的特点,可以对与案件有关的信息或者电子证据进行快速的查找。这一过程需要利用数据分析模块,在对数据进行分析时,需要对犯罪证据进行筛选,动态分析最大的优点是可以对实时数据进行获取,在黑客对原始数据进行篡改或者删除时,这项技术可以对这些犯罪过程详细的记录下来。基于数据挖掘的动态取证技术具有高效性以及可扩展性,利用数据挖掘技术,可以对海量的、不完全或者模糊的数据进行潜在价值的分析。基于数据挖掘的计算机动态取证技术主要有:

3.1关联分析

关联分析是基于数据挖掘的计算机动态取证技术一大特征,利用关联规则,可以对相关数据进行深层挖掘,通过关联分析可以掌握犯罪行为的关联性特征,这些特征有些已经经过了预处理,所以,相关工作这需要做好审查以及审计工作,要通过相关规则对用户犯罪特征以及规律进行总结。为了保证数据动态取证的安全性,需要在系统中设置加密软件,还要将入侵信息反馈到检测系统中,这样可以提高数据分析的效率,还可以实现实时动态取证。

3.2分类分析

分类分析就是通过对分析示例数据库中的相关数据进行分析,准确描述出每个类别的特征,建立分析模型,挖掘出分类的规则,将其它数据库中的记录传送到分类规则中,在动态取证系统的数据采集模块收集了用户或程序足够数据后,在取证的数据分析阶段,应用分类的相关规则来判断用户或程序是否非法。应用分类样品数据来训练数据分析器的学习,还预测一些未知的数据是否具有犯罪证据。

篇9

挑选中国知网数据库,以“知识管理”为主题关键词进行精确检索,共找到 31,324 篇文献,其中 2004 年至2014 年间共发表文献 24,895 篇,近十年是知识管理领域研究的高峰期。以“高校知识管理”或“大学知识管理”为主题关键字进行精确检索,得到 248 篇相关文献,可发现针对高校的知识管理研究较少。针对结果进行二次检索,增加主题关键词“数据挖掘”得到相关文献 3 篇,表明对高校知识管理与数据挖掘技术结合的研究较少,所得文献主要观点包括:1.数据挖掘技术可用于高校知识发现;2.数据挖掘对知识管理体系建设有推动作用;3. 高校知识管理成果可通过数据挖掘技术进行评价。对国外学者的研究情况进行分析,挑选 Web ofScience 数据库。以“knowledge management”为主题关键字进行检索,共得到 62,474 篇文献,以“knowledgemanagement of college”为主题关键字检索,得到 647篇文献,再结合关键词“Data mining”,共得到文献 5 篇。由此可见,国外相关研究比国内多出近一倍,并且研究的程度深、范围广。但关于高校知识管理与具体信息技术结合应用的文献仍较少,且发表日期多为 2010 年后。

3、知识管理与数据挖掘结合的软件要求

知识管理与数据挖掘技术的结合运用对高校相关设备提出了一定的要求,包括对服务器、客户端计算机的硬件要求以及对知识管理平台、数据挖掘工具的软件要求,本文中将重点叙述软件要求。

知识管理平台要求

知识管理平台是高校知识管理的实施基础,它为高校人员提供了可视化的操作界面,其应实现的基本功能包括:1.数据接口;2.工具接口;3.数据挖掘(内置或外接);4.知识仓库;5.知识索引、推荐;6.信息检索;7.组织内交流;8. 管理评价。一个知识管理平台应分为:表现层、服务层、处理层、存储层。表现层是面向用户的可视化界面,用于人机交互,接受用户的任务;服务层对任务进行调度、处理,直接执行无需数据挖掘的任务并反馈至表现层,调度需要数据挖掘的任务至处理层;处理层负责数据预处理、数据挖掘、知识发现等功能;存储层包括校方数据库及知识仓库。具体层次如图 1 所示。根据高校组织的特征,知识管理平台应在实现基本功能的前提下具有以下特点:1. 接口质量高。高校集行政、科研、社会服务等任务于一体,需要处理海量数据,应提供接口以使用专业处理工具处理复杂任务,保证数据处理的效率与深度;2. 内置数据挖掘功能。高校所含数据种类多、范围广,对结构简单、数据量小的数据可直接使用内置数据挖掘功能处理,节省时间;3. 交流功能强。高校为知识密集型组织,其学科、职能间存在交叉,优秀的交流功能保证了知识的共享及创新。4. 完善的激励体系。激励体系不仅体现在平台的评价功能中,更体现在管理人员的管理中,通过提高人员的积极性促进知识管理进程的实施。

数据挖掘工具要求

高校所含知识从相关对象分类可分为两类:1. 管理知识,指高校各部门(教学、后勤部门等)用于高校管理的知识;2. 科研知识,指各学科的专业知识。前者主要与高校行政、管理人员相关,后者则与高校学者、教授关系更大。针对不同的用户,知识管理与数据挖掘的结合运用对数据挖掘软件提出了不同的要求。高校行政、管理人员所面对的数据多来自高校各类信息系统的记录,如:校园卡消费信息、机房上机信息,具有量大、范围广、结构一致等特点。用于该类数据挖掘的挖掘工具可内置于知识管理平台中,便于数据存取,提高挖掘速度。常用功能为预测、分类、评价三项,主要方法可选用回归分析、趋势外推、特征分类、层次分析、模糊综合评价法等。结合使用者特点,该类挖掘工具应提供独立的、具有既定模式的工作界面,减少用户与算法的接触,挖掘结果应具有较强可视性,提供图、表界面,以便用户理解。高校科研知识主要来自于学者、教授的科学研究,包括:实验数据、主观推测描述等,具有专业性强、层次深、结构复杂等特点。针对挖掘要求较低的数据,可使用知识管理平台中的内置挖掘工具,而针对挖掘要求高的数据,可选用专业数据挖掘软件,如:Intelligent Miner、QUEST 等,通过知识管理平台的接口进行对接。

4、知识管理与数据挖掘结合的具体策略

知识管理的基本职能可概括为外化、内化、中介、认知四大部分,其中前三项职能对信息技术的依赖较强,可用数据挖掘技术进行辅助。数据挖掘的过程分为条件匹配、选择、激活、应用四部分,即对数据进行预处理后,选择相关数据记录,根据用户要求选择相应技术进行数据挖掘,得出并解释数据挖掘结果,最终将这些记录应用于实践中。两者的具体结合策略如下:

辅助知识管理体系建设

知识管理本质是一个周期性管理过程,在这一过程中实现组织知识共享、创新等,最终提升组织综合实力,其中知识管理体系建设是实现知识管理的宏观条件。知识管理体系建设是一个系统、全面的工程,包括组织结构调整、确定激励制度、知识管理文化培养、成效评估等任务。数据挖掘技术,可以为知识管理体系建设提供依据,保证相关决策的科学性。数据挖掘对知识管理体系建设的帮助主要体现在以知识主管为主的知识管理部门对高校的管理、决策当中。知识管理部门收集并预处理外校、本校知识管理体系建设的相关数据,完成辅助决策的数据仓库的建设。管理人员可根据要求,从数据仓库中选择数据,利用对应模型完成挖掘,通过挖掘结果对决策做出帮助。以制定激励制度为例,管理人员选择与高校人员喜好相关的数据,如至少包含“部门”、“喜好”、“性别”字段,利用关联算法对其进行计算,即可得出各部门工作人员的喜好,以此为据制定相应激励制度。

知识外化

知识外化是指组织从组织外部获取与本组织相关的知识、发现归集组织内部存在的知识并进行存储以备用的过程。完成知识外化的关键即知识发现,其较为常用的方法包括主观归纳、隐性知识外显等。目前学界中较为认可、使用较普遍的方法即数据知识发现(KnowledgeDiscovery in Database, KDD),指从数据集中识别出表明一定模式的、有效的、潜在的信息归纳为知识的过程。这是数据挖掘与知识管理结合应用的最重要部分。同时,数据挖掘技术只给定挖掘目标,不给出假设、前提,因此在使用数据挖掘的过程中可获取一些计划外的知识,为知识管理提供一个可靠的知识源。此处存在两个前提:第一,知识发现不能仅仅依靠信息技术,更需要人员对挖掘结果进行主观归纳,解释其语义以完成知识的推理;第二,挖掘对象需进行预处理,并转化成逻辑数据。利用数据挖掘技术进行知识发现有多种可用方法:利用分类和聚类分析可提供知识索引和发现特殊情况下的离群值和孤立点,知识索引可细化知识所属领域和确定挖掘范围,离群值和孤立点可为挖掘人员提供归纳的线索,若其存在一定规律则可得出模型、规则;使用模糊技术、统计方法可得出对高校决策的评测分析,判断方案的有效性,并得出模式,用于同类决策处理;使用粗糙集和主成份分析法定义知识发现中的主要特征,结合已有知识库对不确定、不精准的知识进行细化;使用关联规则发现大量数据集各字段中潜在的联系。以关联规则的使用为例,选择 Apriori 算法,挖掘目的是发现学生学习情况中的潜在知识。首先从数据仓库中选出与学生课程成绩相关的数据集,包括姓名、院系、性别、课程号、课程类别、成绩等字段,进行预处理,将字段中的取值转化为逻辑值,代表不同语义,如:性别字段,男设值 1,女设值 2。操作人员设置最小支持度、置信度,通过数据挖掘工具进行挖掘,得出关联规则并进行解释。若结果显示 XX 院系、男生、A 类别 => 成绩优秀构成管理规则,则表示XX院系的男生对于A类别科目较感兴趣,学习成绩优秀,可在归纳后存入知识仓库。

知识内化、中介

知识内化是发现特定人员知识需求,并为其提供相应知识的过程,内化的关键是对知识的聚类、对人员的兴趣挖掘。知识中介是指组织中存在一定量无法编码储存的知识,针对这些知识,通过一定手段,将知识的需求者与知识来源进行匹配,为两者提供交流的途径。数据挖掘在知识内化、中介中所起的作用主要是对高校人员特征的挖掘。在利用数据挖掘技术发现知识后,通过知识管理平台进行分类存储、添加索引,作为备选。对高校人员数据库中数据进行挖掘,可利用聚类分析、预测模型等,得出特定人员的特长领域、兴趣爱好,从而根据先前设置的知识索引为其提供信息。若定期对人员特征数据进行挖掘,并根据结果为高校人员推送相关知识、信息,即可实现个性化推送,其推送内容由人员特征数据决定。高校组织中拥有大量教授、学者,其所拥有的知识是一笔巨大财富,加强相关领域间人员的交流、沟通,可以促进知识共享、创新,提升组织综合实力,这正是知识管理中介职能的作用。通过上文中相同的挖掘方法,在对教授、学者特征进行挖掘后,对他们的研究方向进行聚类分析,由挖掘结果,为相关人员提供合适的建议、利用知识管理平台为特征相似或同一聚类中的教授、学者提供交流的途径,进而促进知识的共享。

数据挖掘技术推动图书馆管理

图书馆是高校组织中的特殊资源,含有大量精确或模糊、成型或不成型的知识,是一种实体的知识仓库。对图书馆的有效管理有助于高校知识管理的实施。目前,已有不少图书馆专家将数据挖掘技术引入图书馆管理,提出了针对图书馆的数据挖掘应用理论。图书馆数据挖掘对象主要包括三个:1.图书信息;2.读者信息 3. 读者借阅信息。通过对三者挖掘结果的综合,可为图书馆资源建设、读者服务、个性化服务提供帮助。根据挖掘结果分析,可做到客观、合理引入资源,做到让数据说话而不是让管理人员说话,减少了管理人员个体的主观影响,使高校图书馆经费发挥最大效用;提升读者服务质量,在读者进行检索时减少等待时间,改变以往被动检索的情况,通过用户数据挖掘为用户提供主动的信息推送;提供个性化服务,以挖掘结果为依据,针对不同用户提供不同服务,比如不同的图书馆系统管理界面。

充分发挥管理职能

知识管理是一个系统工程,包含平台开发、体系构建、文化培养等,其在实践中设计大量的数据操作。数据挖掘技术可在知识管理的实践过程中为各项信息处理工作提供支撑,从而为操作人员提供便利,间接缩短知识管理的周期时间。将高校知识管理与数据挖掘技术相结合可有效促进知识管理具体操作中的工作效率。两者的结合对高校人员管理具有积极作用,数据挖掘与知识管理在实践中相互影响,提升操作人员素养。数据挖掘需要专业人员进行操作,操作人员的综合素养将决定挖掘成果的质量。知识管理可有效促进数据挖掘人员对知识的认知,使操作人员对不同要求所对应的挖掘技术、模型的选择更为准确,提升挖掘成果的质量,使知识更加清晰、独立、可接受。

篇10

1 概述

在面对海量的情报信息资源时,如何高效、准确的开展分析工作,为管理决策人员提供支持,已成为当今科技工作的重要组成部分。可以说,情报分析方法和相关工具的合理使用决定了情报获取的准确性和有效性,并将直接影响制定战略决策的有效性和科学性。

技术情报分析系统主要进行与技术相关科技论文、专利、互联网情报数据的分析,实现分析方法、算法、分析结果的表现形式以及分析报告自动生成等技术。该情报分析系统除了基本的维度统计分析外,更多的侧重于利用知识发现、数据挖掘等技术进行情报数据的深度处理与分析。通过情报分析系统开发设计,结合数据挖掘等技术的合理使用,使得系统使用者能够快速、有效、全面地获取技术的情报信息。

2 系统的设计与功能描述

2.3 数据挖掘技术设计

2.3.1数据文本特征表示

在进行文本挖掘时,对文本特征进行处理,实现对非结构化的文本向结构化转换。情报分析系统采用向量空间模型(Vector Space Model,VSM)进行文本的表示,并利用倒排文档频率TFIDF进行专利文本的特征提取,以此作为论文、专利文本挖掘的基础。

2.3.2关联算法

在挖掘论文专利作者之间、机构之间、国家之间的研究内容关联性上,采用了基于文本挖掘的关联算法。通过对技术关键词的共生关系(Terms Co-occurrences)计算来识别、确定一组文献内部所包含的技术组(群)。

2.3.3 层次结构可视化算法

情报分析系统中关于论文和专利的引证分析、专利同族分析采用了层次结构可视化算法Hyperbolic Tree,即双曲树算法。其主要原理是将树结构在双曲空间进行布局,然后映射到欧式空间的庞莱卡圆盘进行显示。欧式空间中两个相同大小的区域离庞莱卡圆盘中心越近,在双曲空间中所占用的空间越小;反之,双曲空间中两个大小相同的区域离原点越近在庞莱卡圆盘中所占用的空间越大。

4 结论

本文提出运用数据挖掘方法实现对大量数据的分析和判断,可有效帮助科技情报机构和人员提高综合情报分析能力和决策的质量。同时,该方法可按照不同需要进行功能拓展,实现向更多的技术情报领域延伸。

参考文献

[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一届亚太地区知识发现与数据挖掘国际会议(PAKDD),IOS Press出版, 2007.

[2]乐明扬.公安情报分析中的数据挖掘应用研究.信息与电脑.2012(8).

篇11

一、数据挖掘和客户关系管理含义

数据挖掘技术(Data Mining可以简称为DM),简单来说,就是一种把隐藏在大型数据库或者数据仓库中所需要的有用信息提取出来的新技术,这是一个对数据库进行研究的非常有价值的领域。数据挖掘技术可以帮助用户从数据库中准确的提取出有用的商业信息,为用户在进行决策时提供重要的支持。

客户关系管理(Customer Relationship Management可以简称为CRM),也有人称之为“顾客关系管理”,关于客户关系管理的定义,目前有两种说法:一,最早的Gartner Group定义为一种商业策略,就是把客户进行分类,并依据分类情况来对企业的资源进行有效的组织,进而企业的业务流程实施以及经营活动都要以客户为核心来进行,以此来提高企业的盈利能力以及客户满意度,取得最大利润;二、是由CRMguru.com给出的定义,客户关系管理就是一个在企业的营销、销售以及服务的业务范围内,把企业现有的客户以及潜在客户,还有业务伙伴多渠道进行管理的过程,或者说技术。

二、数据挖掘在客户关系管理中的应用

随着社会经济的不断发展,市场竞争力也在逐步的增大,商家想要获得最好的利益,就必须对市场的变化迅速的做出反应,能够引起市场变化的重要因素就是客户需求的变化,也就是说,企业必须集中注意力,观察客户需求的每一变化,并把这些资料收集在一起,作为企业发展的宝贵资源进行管理。在企业管理客户信息的过程中,就需要应用到了数据挖掘技术。

数据挖掘技术在客户关系管理中的应用过程中,主要方法有:神经网络法、遗传算法、决策树法、粗糙决算法以及可视化技术、K—最近邻技术等,每个公司的客户关系不同、需求也不同,所以要用到的方法也不同。

数据挖掘技术主要应用于客户关系管理中的这几个方面:(1)挖掘新客户,数据挖掘技术可以对现有的客户信息和市场环境进行统计总结以及归纳,准确的确定潜在客户以及市场目标。因为数据挖掘技术具有统计、聚类和关联的作用,比如说,数据挖掘技术在数据库中发现了这样一个信息“某客户在购买A商品之后,过了一段时间又购买了B商品,最后还购买了C商品”那么数据挖掘技术就会通过次序关联,把这个信息形成“A—B—C”的行为模式。(2)可以保持优质客户。现在社会竞争相当激烈,企业客户更是企业发展的重要因素,优质客户对每个企业来说就更加的重要。数据挖掘技术可以对数据库中的流失客户信息进行分析,并且对流失客户的特征进行准确的描述,然后利用关联、近邻的方式对整个数据库中的消费客户信息进行分析,分析出容易流失的客户,随后就需要采取相应的措施来减少这些客户的流失,尤其是那些可能流失的优质客户,更要采取有力的措施来进行挽留。(3)可以提升客户价值。目前提升现有客户的价值的方式有两个:一是提供特色服务或者产品;二是销售新产品或者服务。想要准确的提升客户价值,就需要数据挖掘技术的帮助了,他可以把之前的客户信息研究分析,并依据新产品或者服务的特征,发现和客户的已购买产品之间的关联,因而准确的找到具有最大购买趋势的客户。

三、加强客户关系管理中数据挖掘的意义

应用数据挖掘技术对客户关系进行管理,可以有效的提高企业的核心竞争力,现代社会的激烈竞争,也就是对客户的竞争,数据挖掘技术对企业的客户关系进行详细的分析,并为企业提供有价值的商业信息,为企业的重大决策提供了重要的参考依据,进而有力的提高了企业的核心竞争力;可以有力的增强企业的执行力,利用信息技术对客户关系进行管理,降低成本,并简化执行任务,有效的实现了资源共享,大力的提高了企业的自动化水平,企业职工的执行能力也进一步得到了提高,也就是增强了企业的执行力[3];可以为企业的下一步战略发展提供帮助,数据挖掘技术对现今的市场环境进行分析,可以预测到每个业务的发展状态,以及每个业务与发生过的商业行为之间的关系,有了这些信息,可以准确的制定企业未来的发展战略,并且可以制定与市场环境相适应的营销策略。

综上所述,目前数据挖掘技术是企业进行客户关系管理的最有效的工具,准确的掌握了客户信息,就是准确的把握了市场需求,可以为企业制定完全适应于市场的发展方向。数据挖掘技术的关键作用就是找出潜在客户,保留忠诚客户,并利用企业有限的资源,对这些客户提供最好的服务,促进企业的不断发展。

参考文献:

篇12

随着科学技术的突飞猛进,社会信息化的快速发展, 以信息技术为主要标志的高新技术革命已经引起了社会各个领域的深刻变革,网络已经成为社会生活不可分割的一部分。每天有数以亿计的网民在互联网上浏览、信息,互联网已经成为信息时代最为重要的信息集散地。对于边防情报部门而言,研究如何通过互联网和公安网快速高效地进行情报收集,使各项工作都围绕收集、运用情报而展开,已经成为当务之急。Web数据挖掘技术的兴起,为边防情报部门开展工作提供了高效的工具与手段。

一、Web数据挖掘技术

Web数据挖掘技术是由传统数据库领域的数据挖掘技术演变而来。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、事先未知的、但又潜在有用的信息的过程;它是从数据仓库中提取出可信的、新颖的、有效的,并能被人理解的模式的高级处理过程。数据挖掘出现于20世纪80年代,它不仅面向特定数据库的简单检索查询调用,而且要对这些数据进行深入的统计、分析和推理,发掘数据间的相互关系,完成从业务数据到决策信息的转换。数据挖掘技术把人们对数据的应用,从低层次的末端查询提高到为决策者提供决策支持。随着互联网的蓬勃发展,数据挖掘技术被运用到网络上,并根据网络信息的特点发展出了新的理论与方法,演变成为Web数据挖掘技术。Web数据挖掘是指从与WWW有关的资源和行为中抽取人们感兴趣的、有用的模式和隐含信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。Web数据挖掘已经成为对互联网信息进行深度分析、开发与利用的重要手段。

二、Web数据挖掘的分类

(一)Web内容挖掘

Web内容挖掘是指从互联网上检索资源,从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同,Web内容挖掘分为文本挖掘和多媒体挖掘。网上信息形式多以文本信息的形式存在。文本可以被看作是一种顺序数据,目前有许多适合于顺序数据的挖掘方法。Web文本信息挖掘的主要任务一般限定在文本特征的表示、文本的总结,以及文本的分类和聚类等方面。互联网现有大量多媒体信息。对该类信息进行分析挖掘,找出合适的描述模式,阐述并理解其中的意义,可提高该类信息的识别度及检索效率,也是Web多媒体挖掘的目标。论文大全。目前此方面应用的技术手段主要是语音信息的理解及识别、图形图像信息的理解及识别,以及信息检索等。

(二) Web结构挖掘

Web结构挖掘的目标是Web文档的链接结构,目的在于揭示蕴涵于文档结构中的信息,主要方法是通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。对Web页的链接结构进行分类,可以识别判断页面与文档间的各种属性关系。由于Web页的内外部存在具有各种属性关系的结构信息,通过研究Web结构信息,可得到相关主题、相关分类的页面集合,生成关于某个Web站点的结构和页面结构的概括信息。因此,结构挖掘的重点在于链接信息。

(三) Web日志挖掘

Web日志挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息,并尽可能预测用户的行为。通过对用户所访问页面、文档等的技术分析,Web日志挖掘可以找出相关主题间、相关内容间的联系规律。访问分析又称使用分析,主要使用用户基本信息如IP、ID、URL、日期、时间等进行处理。由于Web服务器的Log日志存在完整的结构,当用户访问Web站点时,相关的页面、文档、链接等信息在日志中都做了相应的记录。Web日志挖掘不仅要找出用户经常访问的URL路径,而且也要找出用户有可能要访问的相关站点的链接。利用这种方法,可以获知互联网使用者的行为偏好。

三、Web数据挖掘的主要方法

(一)统计分析方法

统计分析(statistical)方法是通过对总体中的样本数据进行分析,从而描述和推断能够揭示总体中的内部规律的信息和知识的方法。为了适应复杂信息的挖掘需求,往往依赖有明确目标和任务的概率模型。数据挖掘的统计模型要适合于所要提取的对象。利用统计分析技术可以对我们感兴趣的内容进行蕴含信息的挖掘。如对互联网日志进行统计可以获得有关站点使用的基本信息,包括页面访问次数、日平均访问人数、最受用户欢迎的页面等。除此以外,还可以进行错误分析,如非法用户登录等。这些统计数据都是基于用户浏览页面的时间、用户的浏览路径和路径长度等信息。这些统计数据对于提高系统的性能、安全性以及优化站点结构大有帮助。目前已有许多互联网流量分析工具实现了这些基本的统计功能。

(二)关联分析方法

关联分析(associationanalysis)用于发现关联规则,所谓关联规则是指在大量的数据中所隐含的项集之间的关系以及项集的频繁模式。用户在浏览网页时,经常会在同一次访问中浏览一些无顺序关系的页面集合,挖掘发现的这些页面之间内在的联系,就是就表现为它们之间存在一定的关联。如果关联规则中的页面之间没有超链接,则应该引起我们的特别关注。通常使用可信度、支持度、期望可信度和作用度这四个参数来描述关联规则。

(三)分类方法

分类(classification)是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类不同于聚类,聚类无须事先制定标准,而能从信息本身出发,利用算法自动分类;而分类的准则是事先定好的。在Web数据挖掘中,分类主要是将用户配置文件归属到既定的用户类别,网页根据内容的属性分类等。分类技术要求抽取关键属性描述已知的信息,可以通过指导性归纳学习算法进行分类,主要包括决策树分类法、贝叶斯分类法、最近邻分类法等。

(四)聚类分析方法

聚类(clustering)就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类分析能够将一批数据按照它们在性质上的亲密程度,在没有先验知识的情况下自动进行分类,每一类都是大量具有相似性个体的集合,不同类之间具有明显的区别。聚类分析是一种探索性分析,在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从信息本身出发,自动进行分类。例如在Web日志挖掘中,聚类分析主要集中于用户聚类和页面聚类。用户聚类将具有相似浏览行为的用户归类;页面聚类则是将内容相关的页面归类,搜索引擎可以利用这些信息为某个查询提供用户感兴趣的相关超链接。

四、Web数据挖掘在边防情报工作中的应用模式

(一)Web数据挖掘在建立公安网搜索引擎中的应用

目前,边防情报部门所需的公开信息大部分来源于互联网和公安网,情报人员通过使用搜索引擎来快速查询需要的信息,然而公安网的搜索引擎存在较大局限性,搜索出来的结果存在大量冗余信息,不能满足情报人员的需求。因此,在搜索引擎中通过借鉴Web数据挖掘技术可以有效地提高查准率和查全率,从而给情报人员提供较有准确的信息。具体应用方法如下:

1.根据公安网的页面内容,自动形成摘要

目前,使用公安网搜索引擎进行检索,检索的结果文档是以简单摘要形式出现的,它表现为机械地提取网页内容取前几句为摘要,这种仅通过位置进行自动摘要是很难真正反映出网页中的信息内容。论文大全。在文本挖掘中的文本抽取技术是指从文档中抽取出关键信息,然后以简洁的形式对文档的信息进行摘要或描述,即文本抽取技术是根据Web文档本身的内容,从Web页中提炼出重要信息形成文档摘要,而不是根据位置来进行文本内容的概括,因此它更能够反映出Web文档中的真正信息。论文大全。这样,情报人员通过浏览关键词就可以了解网页的大致内容,从而决定是否使用该信息。

2.根据检索结果,自动进行文档聚类

文本聚类是文本分类的逆向过程,是指将文档集中的文档分为更小的簇,要求同一簇内文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。情报人员在使用搜索引擎时,会得到大量的返回信息组成的线性表,而其中很大一部分是与其查询请求不相关的,于是通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档集中在一起,并远离那些不相关的文档。再将处理以后的信息以超链接结构组织的层次方式可视化地提供给情报人员,从而大大减短浏览时间。

(二)Web数据挖掘在建立公安网站中的应用

公安网网站是公安网信息的容纳处,我们可以利用Web数据挖掘技术有效地组织网站信息,建立一个资源优化的网站,也就是说通过对网站内容的数据挖掘,主要是对文本内容的挖掘,如采用自动归类技术实现网站信息的层次性组织;以及结合对用户访问日志记录信息的挖掘,把握用户的兴趣,开展网站信息推送服务。

1.采用自动归类技术,实现公安网网站信息层次化

一般而言,网站提供给访问者的信息和服务应该是按优先次序进行排列,网站维护人员应该把重要的信息放在醒目的位置,因此在网站维护时,通过对网站内容挖掘和Web日志挖掘,可以有效地组织网站信息。例如:采用自动归类技术实现网站信息层次化;分析访问者的访问行为,可为用户提供智能化、个性化服务。还可根据访问者的访问兴趣、访问频度、访问时间,动态地调整页面结构。

2.采用日志挖掘技术,实现公安网网站信息推送服务

网站可以根据访问者的浏览情况,发现访问者的兴趣,定期为注册用户提供相关信息,并且调整网站中网页的链接结构和内容,为访问者提供个人定制服务。具体步骤为:首先将日志文件中的数据经过预处理,形成原始数据库;然后获取用户的访问模式,放入用户访问模式数据库;再通过数据挖掘和模式分析形成知识数据库,Web服务器自动更新知识数据库,采用动态主页设计方法,根据用户的知识信息,提供相应的个性化主页。在数据预处理过程中会话识别是重要的一步,它取决于用户访问模式的有效性和准确性。为提高准确性,可采用Cookie法进行会话识别。在呈现个性化主页时,利用用户的IP地址和Cookie值查询知识数据库,发现用户频繁访问的路径,并自动形成相应链接,根据相似用户群和相关Web页推荐给用户。由于是经过挖掘和分析后所产生的动态主页,相对于一般的主页,其针对性更强,更受用户的欢迎。

参考文献:

[1]叶鹰.情报学基础教程[M].科学出版社,2006

[2]栗湘等.Web挖掘应用研究[J]情报理论与实践,2005,(6)

[3]曼丽春等.Web数据挖掘研究与探讨[J].现在电子技术,2006,(8)

篇13

计算机网络技术的普及与应用给人们的生活带来了翻天覆地的变化,同时在网络上产生了大量杂乱无章的数据。而网格技术、Web技术的发展,为人们从分布的网络资源中寻找有价值的信息提供了新的技术支持,同时也产生了许多基于网格的数据挖掘系统。而数据挖掘算法又是决定一个数据挖掘系统性能的主要衡量指标。任何软件系统的设计都离不开算法,数据挖掘技术的执行效率也与数据挖掘算法有关,随着数据库技术与数据挖掘技术的成熟与发展,像分类、聚类、决策树、关联等等数据挖掘算法已相当成熟,可以研究借鉴现有数据挖掘方法、数据挖掘模式、数据挖掘流程,建立一个基于网格的数据挖掘系统。笔者以众多数据挖掘算法中的聚类分析算法为例,介绍基于GT4(Globus Tookit 4.0的简称,GT4的核心开发工具包(Java Web Service Core))的数据挖掘算法的设计过程。

聚类分析(Clustering Analysis)是一个应用比较广泛的数据挖掘算法,算法的理论研究与实践应用都已经很成熟,把这一成熟的理论应用于基于网格的分布式系统中,会大大提高数据挖掘的效率。本文主要研究如何将聚类分析的CURE(Cluster Using Representation)算法和K-平均方法算法应用于基于GT4数据挖掘系统中。

2.系统结构设计

基于GT4数据挖掘系统的数据源是分布式数据源,分布式数据源是指在物理上分布而逻辑上集中的数据源系统。在该系统中,处在这个网格中的每台计算机就是这个网格的一个节点,称之为网格节点。在众多的节点中,要有一个网格节点来控制和管理其他的节点,这个节点就叫做网格中心控制节点,决策支持都是由网格中心控制节点完成的。如果要完成某个数据挖掘任务,则可以由空闲的网格节点先按挖掘需求来完成本节点的挖掘任务,再由网格中心控制节点来汇总每个节点的数据挖掘情况。局部网格节点管理的信息具有局限性,涉及的范围较小,主要完成单个节点数据的管理,对局部的数据挖掘结果进行汇总分析,但是这些局部节点的数据与全局节点的数据又是有一定关联的。根据以上的分析可知,网格平台下的数据挖掘任务由全局数据挖掘与局部数据挖掘共同完成。

3.算法的Web Service设计

3.1 全局聚类算法的Web Service设计

网格环境下的全局控制网格节点与局部网格节点间的关系我们可以理解为上下层的关系,这样就可以借鉴基于层次的聚类分析算法,按照层次的自底向上的聚类方式,把全局控制节点当成是层次聚类的顶层。本课题全局聚类算法借鉴传统的利用代表点聚类算法CURE。

CURE算法将层次方法与划分方法结合到一起,选用有代表性的、固定数目的空间点来表示一个聚类。算法在开始时,每个点都是一个簇,然后将距离最近的簇结合,一直到簇的个数为要求的K。首先把每个数据点即局部网格节点看成一个聚类,然后再以一个特定的收缩因子向中心收缩它们。

CURE算法的主要执行步骤如下:

(1)从数据源样本对象中随机抽取样本集,生成一个样本集合S;

(2)将样本集合S分割为一组划分,每个划分大小为S/p;

(3)对每个划分部分进行局部聚类;

(4)通过随机采样剔除聚类增长太慢的异常数据;

(5)对局部聚类进行聚类,落在每个新形成的聚类中的代表性点,则根据用户定义的收缩因子收缩或移向聚类中心;

(6)用相应的标记对聚类中的数据标上聚类号。

有了数据挖掘算法,就可以完成数据挖掘任务了。全局聚类算法的主要功能是响应用户的数据挖掘请求,将对应的请求发送给局部网格节点,将局部网格节点的挖掘结果整理输出。全局聚类算法Web Service资源的结构包括算法Web Service接口、算法资源属性文档、算法功能实现和算法功能四个部分。

利用传统的聚类算法完成全局的数据的并行挖掘最重要的一步就是将全局聚类算法部署到GT4中,完成全局聚类算法的Web Service设计要经过过以下几步:

第一步:用WSDL(Web Service描述语言,是Web Service提供的XLM语言)来描述数据挖掘服务接口,该服务接口可以用Java来定义,利用Java-to-WSDL工具把Java定义的接口转为WSDL文件。

第二步:用Java编写全局聚类算法(CURE)代码;

第三步:用WSDD配置文件和JNDI(GT4自带文件)部署文件;

第四步:用Ant工具打包上面的所有文件,生成一个GAR文件;

第五步:向Web Service容器部署全局数据挖掘服务。

3.2 局部聚类算法的Web Service设计

局部聚类算法的主要功能是完成局部网格节点的数据挖掘任务,并把数据挖掘结果上传到全局控制节点。局部网格节点的数据挖掘任务与传统的单机数据挖掘任务类似,本课题局部聚类算法使用传统的聚类算法K-平均方法,以K为参数,把N个对象分为K个簇,簇内具有较高的相似度,而簇间的相似度较低[34]。本论文的数据挖掘任务主要是由局部网格节点实现的,下面就详细的介绍K-平均算法的主要执行过程如下:

(1)从数据集中任意选择K个对象作为各个簇的初始中心。

(2)根据现有的簇中心情况,利用距离公式计算其他对象到各个簇中心的距离。(可选的距离公式有:欧几里、行德公式、距离公式、曼哈坦距离公式、明考斯基距离公式)。

(3)根据所得各个对象的距离值,将对象分配给距离最近的中心所对应的簇。

(4)重新生成各个簇的中心。

(5)判断是否收敛。如果收敛,即簇不在发生变化,那么停止划分,否则,重复(2)到(5)。

K-平均算法是一个经典的聚类算法,将K-平均算法部署到GT4中,完成局部聚类算法的Web Service设计,部署方法与全局算法相似。

4.结论

基于GT4的数据挖掘系统中的数据挖掘服务资源有网格的中心控制节点(即全局节点)进行统一的管理,在局部网格节点挖掘过程中,根据其处理能力分配最佳的数据集给局部节点,从而使整个系统的计算负载相对均衡。其数据挖掘系统的规模可随着服务的多少动态伸缩。当系统要增加新的局部挖掘节点时,只需部署局部Web Service资源即可。将网格应用到分布式数据挖掘系统中,建立一个基于网格的数据挖掘系统,必将使其在各个领域都得到广泛的应用。

参考文献