引论:我们为您整理了13篇数据挖掘课程范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。
篇1
院大数据;数据挖掘;教学方式;考核方式
大数据时代的到来,给人们的生产和生活带来极大的变革,由此也引起了社会各界的广泛关注。目前,大数据已经与我们的日常生活息息相关,对各行业的发展也产生了至关重要的作用。数据挖掘技术是信息化的产物,也是现代企业生产和发展过程中需要用到的重要技术之一,因此对数据挖掘技术人才的需求越来越多,《数据挖掘》学科由此得到了快速的发展。本文将对《数据挖掘》课程的教学展开论述,希望能引起同行的共鸣。
1大数据介绍
1.1大数据含义大数据是网络技术发展到一定阶段出现的新兴名词,是指数量巨大、结构复杂、类型众多的数据构成的集合,大数据是以云计算的共享平台为基础,通过数据的交叉复用,形成新的智力资源和知识服务能力。大数据处理需要分布式计算机构架才能完成,仅依靠单台的计算机无法实现大数据处理,因此大数据处理就是借助云计算的分布式处理、分布式数据库、虚拟存储技术对大量数据进行整合处理的过程。
1.2大数据特征大数据具有数量大(Volume)、类型多(Variety)、价值高(Value)和速度快(Velocity)的特点,简称为“4V”。大数据处理的数据规模不断扩大,已经由GB、TB级扩展到EB或ZB级,这是普通计算机硬盘容量所无法达到的;大数据对象包括结构化数据、半结构化数据以及非结构化数据,存储对象由传统的文本内容扩展到了音频数据、视频数据、搜索引擎中关键词等,其数据的类型繁多复杂;数据之间的关联性不断加强,已经对社会经济、系统、信息学、网络学以及心理学等多个领域产生了深远影响;大数据的产生形式以数据流为主,能瞬时产生,具有很强的动态性和时效性。
2数据挖掘曳课程教学探讨
2.1教学内容《数据挖掘》是一门综合性的学科,学科内涉及的主要内容有数据库技术、统计学、信息检索、计算机技术以及可视化技术等,需要不同的学科交叉学习,因此,该课程具有很高的理论性和实践性。在教学过程中,不仅要注重基础理论知识的培养,还要加强对学生创新能力以及问题解决能力的培养。课程的知识结构可按照表1所示组建。数据挖掘前需要进行预处理,然后才能存入数据仓库,再利用相关的挖掘工具和算法,按照挖掘流程进行数据挖掘,最后将挖掘结果以可视化的形式展示出来。在整个教学过程中,教学重点是挖掘工具和挖掘算法,其中挖掘工具主要有通用挖掘工具和专用挖掘工具两类,而挖掘算法则包括分类法、关联分析法、聚类法等10种方法。学生不仅要了解各类算法的相关概念,还要能利用算法对实例进行分析。
2.2《数据挖掘》课程教学探索
2.2.1培养数据意识《数据挖掘》是以数据为驱动的理论分析和应用课程,具有抽象性和具体性,抽象性是指数据挖掘过程中的理论、技术和方法具有很强的抽象性,学生在有限的时间内无法理解和消化;具体性是指研究内容比较客观,具有一定的解释性和理解性。针对以上特点,教师在组织教学时,应先培养学生的学习兴趣,使学生产生一定的数据意识。具体安排时,可先安排2-4个学时讲解数据及其主要应用,让学生对大数据的产生、影响和应用等内容做初步了解,使学生对该课程的学习目的和实际意义产生客观认识。
2.2.2深化基础,加强理论体系大数据特征对数据分析技术提出了更高的要求,现有的数据分析技术难以满足实际需求,这就说明了数据挖掘技术的应用和发展将面临更严峻的考验。数据挖掘技术涉及的知识内容较多,在大学课程体系中难以全部开设,给学生的学习带来很大阻碍。为解决以上问题,开封大学采取措施:将《数据挖掘》课程授课对象设定为高年级学生,经过两年或三年基础课程的学习,学生已经具备了一定的理论基础,在学习《数据挖掘》课程中,就可节约大量时间学习课程的核心内容。
2.2.3教学方式多样化理论来源于实践,也可以指导实践;实践是检验理论的唯一途径。《数据挖掘》具有很强的抽象性,学生无法在有限的学习时间内对众多概念产生足够清晰的认识,只能借助实践教学使学生明白课程内容的原理及其实用价值。在讲解基本概念、原理或者算法时,可采取案例教学法、任务驱动教学法、项目教学法等,将理论与实践相结合,提高学生的学习兴趣和操作能力。因此教师应在教学过程中注意教学方法的选择和使用,充分体现出学生的主体地位和教师的主导作用,通过一系列理实一体化教学方式,提高教学效果。
2.3改革教学考核方式《数据挖掘》是一门融合多种学科的实践课程,因此,课程的评价方式也应做出一定的改进。在考核时,应包括理论基础和实践部分考核,除考查学生对基本概念、挖掘流程等内容的掌握情况外,还应对学生的实践操作技能进行考核,采用多种方式对学生的学习进行评价,提高考核的有效性和公平性。
3结语
随着信息化技术的不断发展,现代企业生产运行对信息化管理系统的依赖性越来越高,现代社会已经进入了大数据时代,在这种时代背景下,数据挖掘技术得到了社会各界的广泛重视,企业对该专业的人才需求也越来越多,这就为《数据挖掘》课程的发展提供了有利条件。高校及任课教师应认清形势,积极调整教学理念,通过优化课程内容,改进教学方式和考核方式,提高课程的教学效果,以培养高专业素养和高操作技能的复合型人才。
参考文献
[1]范祺,朱昌杰,肖建于,沈龙凤,李敏.以项目驱动的数据挖掘课程教学改革的研究[J].科技信息,2012(11):9-10.
篇2
一、前言
近年来,数据获取和数据存储技术快速发展,各种数据库、数据仓库中存储的数据量飞速增长。人们关注的焦点要从噪声、模糊的随机数据中提取重要的信息、知识,数据挖掘的出现,提供了一种有效解决“数据丰富而知识贫乏”问题的方法。
数据挖掘作为统计专业的核心课程,是学生必须掌握的职业能力课程。根据高职生的知识结构体系和培养目标,我们采用案例驱动教学方法,以学生为主体,案例为主线,教师为主导,对案例进行分析,学习案例所涉及的相关知识点,从而会利用相关软件工具对数据进行分析,挖掘数据间的知识。
二、数据挖掘中案例驱动教学的实施
(一)合理高职高专统计专业数据挖掘课程教学目标
数据挖掘是集数据库技术、统计学习、机器学习、模式识别、可视化等学科的一个新兴交叉学科,又包含了聚类分析、关联规则分析、分类等,每一种挖掘又有不同算法,是一门理论性、实践性及综合性较强的课程。其知识内容丰富,内容深浅不一,各种方法变化快,新方法层出不穷,这对师生都提出了严峻的挑战。
高职高专将培养高等技术应用型专门人才为根本任务,以适应社会行业发展需求为基本目标,结合本院统计专业学生的专业技能特点,我们将本门课程的教学目标定位为:掌握数据挖掘课程涉及的基本概念,提高信息分析能力,能从收集到的数据信息中利用有效的软件工具CLEMENTINE进行知识“挖掘”;要根据实际情况制定合理完整的数据模型并进行评估,这些评估要具有可视性,才能有效地解决问题,而使数据挖掘更具有合理性。
(二)如何驱动教学来设计数据挖掘案例
1.介绍案例驱动教学法。案例驱动法是在“哈佛大学”的情境案例教学课起源,是一种探索性和协作性学习的教学模式。整个授课过程围绕着同一个目标和几项任务“教授”,学生通过对课程的学习、资料的查找和知识的整合,通过充分思考和与实践相结合,提高自身能力。这种案例驱动的教学法可以让学生提高学习兴趣,发展学生自身的能力。同时能让教师更好地发挥促进学生学习、引导学生成功的功能。
案例驱动法是把教学内容和目标通过一个任务来体现,把教材内容重新整合,老师的授课和学生的接受都围绕这个任务完成。
案例驱动法可以充分发挥学生的主体地位,从而改变传统的关于师生关系的观念,让学生从被动学习到主动学习,真正爱上学习,提高自己的创新、自学和实践能力,同时要求老师在授课中给予学生正确的引导、促进、组织和控制,这样可以增强同学间的协作精神和学生的独立意识。通过学生的自主学习和探索,可以改变原来枯燥的学习方式。对于数据挖掘这门课程,内容深奥,既要求学习一定的理论知识,又要求掌握数据挖掘的使用方法,因此我们引入使用案例驱动的教学方法。
2.数据挖掘案例教学的实施规划。利用CLEMENTINE软件工具进行数据挖掘,将数据挖掘看成一个以数据为中心的循序渐进的螺旋式数据探索过程,该过程分为业务理解、数据理解、数据准备、建立模型、方案评估和方案实施六大部分。因此,在教学过程中,我们围绕数据挖掘的六大部分,在每一部分,讲解基本的数据挖掘技术原理;对于数据挖掘算法,只要求掌握相关算法使用的方法和使用的场合,并会使用专业的数据挖掘工具CLEMENTINE,此应用的前提条件要求对学生进行数据挖掘;将教学的亮点和重点放在案例分析和实际应用上,要对学生进行动手能力的训练。
在教学的过程中,最重要的是案例的选取。通过参考教学大纲和教学目标,对教学案例进行精心设计,可以提高学生的分析能力,提高学生发现问题和解决问题的能力,才能更好地将教案落实,并形成具体的项目。根据数据挖掘课程的特点和具体内容,我们通过某些小案例引入一些相关知识,并且采用学生能够接受的一个大案例让学生使用成绩数据模型组织整个教学过程。
我们的课程内容按数据挖掘过程分为六大部分,按照每一部分的教学目标我们设计了多个不同的小案例如下。
(1)药物研究数据和学生参加社会活动数据案例:通过这两个数据模型掌握在CLEMENTIME软件工具中利用软件中SOURCES选项卡的多种节点读入多种文件类型(如TXT文件、EXCEL文件、SPSS文件等)的数据,掌握读入数据的数据类型,掌握APPEND节点、MERGE节点合并数据的方法。
(2)移动客户数据案例:通过利用移动数据让学生掌握TYPE节点进行变量说明的方法,会使用该节点进行有限变量值和无效值的调整,会使用DATA AUDIT节点对数据质量进行评估和调整;掌握数据中对离群点、极端值和缺失值的调整,对数据进行质量管理;会使用AGGREATE对数据进行分类汇总;利用FILLER节点对变量值重新计算,会用RECLASSIFY节点实现变量值进行调整;会对数据进行筛选、样本子集划分等处理;了解数据分析特征,把握数据间相关性强弱的基本手段;利用压缩样本量、简约变量值或变量降维等方法对样本量庞大的数据进行精简。
(3)决策树模型案例:了解C5.0决策树算法,会建立决策树模型,学会归纳和提炼现有数据包含的规律,建立分类预测模型,会分析结论,用于对未来新数据的预测。
(4)人工神经网络模型案例:了解人工神经网络算法,掌握人工神经网络建立的步骤,建立B-P反向神经网络模型,预测分析结果。
(5)贝叶斯模型案例:了解贝叶斯网络算法,掌握贝叶斯网络结构的组成和构建,会用TAN贝叶斯和马尔科夫毯网络解决从庞大数据中寻找输入变量之间的相关性,输入变量的组合取值对输出变量的影响,用网络结构直观展示它们的关系。
在设计小案例的同时,我们还选择学生既熟悉又感兴趣的综合项目案例选题:学生成绩数据、图书管理数据、电信服务数据等,让学生带着问题进一步学习课程,在学习中寻找方法解决项目中遇到的问题。当课程结束后,各项目组呈交项目数据模型和报告,且项目组长要向所有同学按数据挖掘的六大部分讲解分析报告。
3.案例驱动教学的成效。围绕案例进行教学的“数据挖掘”课程除了采用案例驱动教学法,还要增加学生的实际训练能力,都取得了明显的效果,从以下五个方面体现:①学生要主动提出问题,同时积极主动地参与课堂教学,才能提高学生分析和处理问题的能力;②增强学生的自主学习能力,要求学生通过小组讨论的形式和实际训练让学生以积极主动的态度处理和解决一些技术问题,从而提高自学能力;③学生间要注意培养团队合作能力的,也要具有竞争意识;④课程学习结束后,普遍反映对利用CLEMENTIME软件工具进行数据挖掘的自信心提高,能够进一步提高对专业的认知,独立解决一些数据统计分析的问题。
三、结束语
数据挖掘是统计专业的专业课程,其内容繁多、深奥,把基于案例驱动的教学模式引入《数据挖掘》课程,学生在学习过程中,实现了整个数据挖掘的流程,在基于项目的技术应用中深入理解了数据挖掘的理论知识。学生要将所学的理论知识和实践相结合,从而有效提高自己的操作技能和知识水平,培养了自己应用数据挖掘技术解决实际问题的应用能力和创新实践能力。
从教学效果来看,通过将理论教学和实践相结合,案例教学法整合了各种学习工具和教学资源,这样才能充分发挥学生的主观能动性,培养和提高学生的主观能动性,同时增强学生分析和处理问题的能力,今后,我们将继续完善数据挖掘的教学案例,研究和总结教学经验,使整个教学环节更加完善合理。
参考文献:
[1]刘云霞.统计学专业本科生开设“数据挖掘”课程的探讨[J].吉林工程技术师范学院学报,2010,(26).
[2]覃义,杨丹江,刘忆宁.《数据挖掘》本科教学的体会与创新[J].科技信息,2012,(10).
[3]李国荣.培养统计专业学生动手能力和创新能力的探索[J].统计教育,2007,(9).
[4]白忠喜,鲁越青,梁伟,等.校政企共建基地开展基于项目驱动的实践教学改革[J].中国大学教学,2011,(2).
篇3
Abstract: With the advent of the era of big data, data mining has become an essential technology which has important social value in the field of business, healthcare, manufacture and administrative management, etc. In many universities, the course of data mining is an important course which is integrated with other disciplinary knowledge and plays an important role in talent cultivation. According to the characters of big data, the knowledge hierarchy data mining is presented, and case teaching and new teaching evaluation method in graduate students' data mining course are discussed. The result shows that the effect is good and it is welcomed by graduate students.
Key words: data mining; knowledge hierarchy; case teaching; teaching evaluation
0 引言
近年来,传统科学研究(如天文物理学、生物医学等)、电子商务、网络搜索引擎(如GOOGLE和百度等)和物联网等产生的数据已经以PB或ZB(10的21次方)来计算。以分布式数据仓库、流计算的实时数据仓库技术为代表的最新数据存储技术,让全世界的数据存储量越来越大,由人、机、物三元素高度融合构成的信息化的社会引发了数据规模的爆炸式增长和数据处理模式的高度复杂化,大数据(Big Data)时代已经到来[1]。因此,数据具有越来越强的可视性、可操作性和可用性,能够越来越细致、精准、全面和及时地反映人的思维、行为和情感,以及事物的特性和发展规律,要想让这些大数据以更加有效的方式为提升人类各方面的生产力和生活质量服务,离不开以非平凡的方法发现蕴藏在大量数据集中的有用知识为根本目的数据挖掘技术的支撑。
市场上对于有大数据背景知识又懂数据挖掘技术的专业人才的需求也将越来越大,作为一名高校计算机专业教师,根据自己三年来研究生数据挖掘课程的授课经历,结合当前大数据的时代背景,对数据挖掘课程教学进行了新的思考和探索。
1 明确大数据背景下学习数据挖掘知识的重要性
1.1 大数据的定义
“大数据”是最近几年才出现的新名词,尚无统一的概念,维基百科上的解释是:大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。
1.2 大数据的特征
大数据的特征可以总结为四方面,即4V。
⑴ 数据量浩大(Volume)――数据集合的规模不断扩大,已从GB到TB再到PB级,甚至开始以EB和ZB来计数。例如:1立方毫米电子显微镜重建出的大脑突触网络的图像数据就超过1PB。
⑵ 模态繁多、异构(Variety)――大数据面向的是一切计算机可以存储的数据格式,类型包括结构化数据、半结构化数据和非结构化数据,包括互联网上的各种网页、图片、音频、视频、文档、报表,以及搜索引擎中输入的关键词、社交网络中的留言、喜好和各种传感器自动收集的监控结果等等。
⑶ 生成快速(Velocity)――大数据往往以数据流的形式动态、快速地产生,具有很强的时效性,同时,数据自身的状态与价值也往往随时空变化而发生演变,数据的涌现特征明显。
⑷ 价值巨大(Value)――数据显性或隐性的网络化存在使得数据之间的复杂关联无所不在,将对信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的研究和应用起到革命性的作用,价值巨大[2]。
Gartner、IBM和牛津大学2012年联合的关于大数据的研究报告指出:交易数据、记录数据、事件和电子邮件是四大主要数据;数据挖掘,数据可视化,预测,建模与数据优化是五大数据能力[3]。大数据的潜在价值只有通过数据挖掘才能显现,因此,国外的Google、IBM、Amazon、Oracle、Microsoft、EMC;国内的腾讯、百度、新浪、淘宝等知名企业已经开始着眼大数据,从不同角度进行数据挖掘,以便改善自身服务,创造更大的商业价值。所以,作为高校教师,首先要让学生了解大数据的基本特点,明确数据挖掘知识和技术对当今社会的重要意义。
2 利用概念图,构建数据挖掘课程的知识体系结构
在大学里,设置一门课程,不能只关注这门课程所含的内容,更要考虑教育培养学生基本专业能力、可持续发展能力等本质性的问题。
数据挖掘是一门结合数据库技术、统计学、机器学习、神经网络、知识系统、信息检索、高性能计算和可视化等多门学科知识的交叉学科[4]。而且,该课程既包括各种理论知识,又离不开相关的实践技术,整个教学过程是培养和提高学生的创新能力和综合解决问题能力的重要途径。因此,针对计算机专业的学生,教学的首要任务是构建起整个课程的核心知识结构(如图1所示),同时,简单介绍相关的统计学、机器学习等计算机专业学生不太了解的非专业知识。
课程核心知识结构是教学的主线,是学生必须要掌握的。首先,让学生明确数据挖掘前要先经过预处理,再存入数据仓库;其次,针对具体情况利用相关的挖掘工具和挖掘算法进行挖掘;最后,挖掘结果以可视化的形式有效地展示给用户。教学的重点是挖掘算法和挖掘工具。对于挖掘算法,以数据挖掘国际会议ICDM(the IEEE International Conference on Data Mining)的专家评选出的十大经典算法(见表1)为主[5],结合相关实例给学生介绍各种算法的基本思想和相关概念,重点介绍使用较多的分类、聚类、关联、序列和机器学习这几种算法,先为学生打下良好的理论基础。
3 以实例为切入点,注重理论结合实践
数据挖掘课程主要针对我校研究生开设,考虑到学生就业和当前市场需求,以及课程本身实践性强的特点,在教学过程中要注重理论结合实践,注意培养学生解决实际问题的能力。因此,在给学生介绍目前常用的数据挖掘工具(如IBM Intelligent Miner、SAS Enterprese Miner、SPSS Clementine、Weka等)的基础上,结合市场应用需求,以实例为切入点,分别分析数据挖掘在互联网日志分析、电子邮件分析、互联网广告挖掘、电子商务、移动互联网等各大领域中的实际应用情况和成功案例(表2)。同时,还可以从内容挖掘、结构挖掘和用户访问模式挖掘这三个方面简单介绍WEB挖掘的基本知识[6]。这样,课程本身就脱离了枯燥的理论,让学生对数据挖掘有了感性认识,激发学习兴趣。
⑵ 过滤垃圾邮件。\&互联网广告\&⑴ 通过大数据挖掘,精准定位各类客户的广告形式;
⑵ 准确评估广告效果。\&电子商务\&用数据提升整体营销;通过日志挖掘做客户分析;用序列算法分析商品上架时间;用聚类算法对商品分类、提升会员管理。\&移动互联网\&⑴ 锁定用户的数据价值,通过地理位置信息挖掘出有价值的东西;
⑵ 文本挖掘。\&]
在教学过程中,贯穿以“能力培养为目标”的实践教学理念,提供有效的网络资源,让学生自己动手动脑,分析成功案例,完成教师给定的虚拟挖掘任务,强化学生参与意识,教师在以学生为主体的教学过程中当好指导者和激励者,从而充分调动学生的主观能动性,掌握不同应用领域大数据的挖掘问题的基本解决方法,培养学生的创新能力。例如,给学生一个文本挖掘的分类题目,让他们熟悉从原始数据的清洗、预处理、降维、建立模型、测试、得到结论等一系列环节。
4 改革教学评价,实施分类化评价
数据挖掘课程是一门融合了多个学科的实践性很强的课程,对应的考核方式应该与其他专业课程有所区别,应该更重视学生学习过程中的表现和能力的提升。
理论知识的考核注重学生对数据挖掘基本概念、挖掘流程和主要挖掘算法的掌握情况,主要以试卷考核的方式为主,注意主观题和客观题的数量比例,采用统一考核方式和评判标准。对于实践技能的考核,主要强调的是学生对不同类型数据进行挖掘时应掌握的相关软件使用技能的考查,考核时除了要体现学生对实验原理的掌握外,更重要的是要反映出学生在实验方法的掌握、设计、操作过程中的实际能力,我们取消了以往把一次性考试结果作为总成绩的方法,而把学生平时课堂实验成绩作为总成绩的主要部分,考核成绩占课程总成绩一定比例。
教师教学质量的评价与学生考核成绩相对应,可采用单独评价和统一评价两种方式。单独评价是指将社会实践作为一个独立的质量评价过程对教师教学质量进行考核;统一评价是指将教师实践教学与理论教学综合起来统一考核,以一定比例计入教师总体评价。
无论是对学生,还是对教师,这种分类化的教学评价方式,不仅有利于学生实际能力的培养,而且对教师的教学水平也是一种促进,有利于课程教学质量的不断提高。
5 结束语
大数据时代,谁能发掘出数据背后的巨大商业和社会价值,谁就能在激烈的市场竞争中处于优势。数据挖掘作为计算机应用专业的研究生核心课程之一,也是学生今后就业必需的专业技能之一。以往的教学过程理论性强,枯燥乏味,考核形式单一,学生学习热情普遍不高,不利于学生专业能力的培养。本文结合当前大数据的时代背景,在构架课程核心知识体系的前提下,结合实际应用领域和案例,分析数据挖掘常见算法和常用工具,强调学生的参与和主观能动性的发挥,而采用分类化的教学评价又能比较客观、公正地评价学生对课程知识和专业实践技能的掌握情况以及教师的教学效果。课程开设三年来的教学实践证明,学生综合运用计算机专业知识的能力得到提高,理论与实践结合的创新能力得到锻炼,教师在教学过程中不断完善了自身的知识结构,提高了教学水平,实现了教学相长,得到了学生的好评。
参考文献:
[1] Anand Rajaraman, Jeffrey David Ullman.大数据:互联网大规模数据挖掘与分布式处理[M].人民邮电出版社,2012.
[2] 李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012.8:8-15
[3] Jiawei Han,Micheline Kamber,Jian Pei等.数据挖掘概念与技术(第3版)[M].机械工业出版社,2012.
篇4
一、引言
大数据时代最为宝贵的资源是数据,如何有效地分析利用海量数据将是数据挖掘需要解决的全新问题。数据挖掘的相关算法已非常成熟,并且在各个领域已取得了广泛应用。但是大数据环境下的数据挖掘理论与算法需要针对结构化数据、非结构化数据、多媒体数据具有更加强大的运算和处理能力。因此,数据挖掘技术及应用等相关课程应与时俱进地适应大数据的要求,对数据挖掘相关课程的教学内容进行变革。
二、大数据环境特征
Gartner认为大数据是海量的、高增长率和多样化的信息资产,需要新的处理模式才能实现对其发现和优化。维基百科认为大数据所涉及的资料量规模巨大,以至于目前无法通过主流软件工具,在一定合理的时间内对其获取、管理、处理并整理成为能起到决策支持作用的数据资源。大数据是包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术,麦肯锡认为大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合,因此需要通过数据挖掘实现对大量的结构化和非结构化数据集合进行分析,以便提供有用的数据洞察。大数据一般具有四个主要特征:①数据体量巨大(Volume),随着时间的推移,衡量数据体量的单位从G,T,P到E。②数据种类繁多(Variety),互联网、物联网、传感网的发展,使数据类型变得更加复杂,不仅包括传统的关系数据类型,也包括以网页、视频、音频、E-mail等形式存在的未加工的、半结构化的和非结构化的数据。③流动速度快(Velocity),面对快速动态变化的流式数据,获取、存储及挖掘有效信息的速度都难以用传统的系统进行处理。④价值密度低(Value),数据量呈指数增长加大了获取有用信息的难度,如何快速高效发现隐藏在海量数据中的潜在有价值模式更加困难。
三、数据挖掘系统
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道,但又潜在有价值的信息和知识的过程。数据挖掘系统最初仅支持一个或少数几个数据挖掘算法,发展为与数据库和数据仓库之间存在有效接口而支持数据库和数据仓库,又能进一步挖掘Internet/Extranet的分布式和高度异质的数据,而研究开发分布式、移动式的数据挖掘系统成为第四代数据挖掘系统的重要课题之一,使得数据挖掘系统与其他系统联合提供决策支持的功能。根据数据挖掘系统与数据库或数据仓库的耦合程度,可以将数据挖掘系统分为不耦合、松散耦合、半紧耦合和紧密耦合四种结构。面对大数据环境,半紧密耦合和紧密耦合是在性能和效率方面比较理想的。半紧密耦合是指除了将数据挖掘系统连接到一个数据库或数据仓库系统之外,一些基本的数据挖掘原语还可以在数据库或数据仓库系统中实现,这种设计将提高数据挖掘系统的性能。紧密耦合系统是指将数据挖掘系统平滑地集成到数据库或数据仓库系统中,数据挖掘子系统被视为信息系统的一个部分。根据数据挖掘的研究体系(如图1所示),给出数据挖掘相关课程的主要讲授内容,包括:预测(Forecast),关联规则(Association Rules),聚类分析(Clustering Analysis),粗糙集(Rough Sets),进化计算(Evolutionary Computation,EC),灰色系统(Grey System),模糊逻辑(Fuzzy Logic),人工智能与机器学习(Artificial Intelligence,Machine Learning),决策树(Decision Tree),统计分析(Statistical Analysis),知识获取、知识表示、知识推理和知识搜索(Knowledge Acquisition,Representation,Reasoning and Search),决策与控制(Decision and Control),可视化技术(Visual Technology),并行计算(Parallel Computing)和海量存储(Mass Storage)等。
四、大数据环境下的数据挖掘
大数据的“4V“特征表明对海量的数据分析将更加复杂、更追求速度、更注重实效。大数据环境下的数据挖掘应实现海量数据建模,通过数理模型对海量数据进行整理与分析,发掘在海量数据之中隐藏的分析与决策所需的规律性知识。将数据挖掘作为大数据环境下重要的研究方法或发现新知识的技术工具,而不是把数据本身当成研究目标,与传统数据挖掘方法有密切联系又有本质区别。因此在大数据环境下的数据挖掘相关课程教学中应注意以下变化:①数据预处理:除利用数据仓库加载传统数据,针对大数据分析所涉及到的非结构化数据,应保证输入数据的完整性和相关的ETL(Extraction-Transformation-Loading,数据提取、转换和加载)流程的正确性。②数据存储机制:通过多维立方体实现结构化的多维数据组织与管理,多数是建立在关系数据模型和关系数据库基础之上。而需将非结构化数据考虑进大数据分析时,应采用分布式文件系统,以流的形式访问文件系统中的数据,提供访问拥有超大数据集的高传输率的应用程序(如Hadoop和其他开源的分布式系统基础架构)。③数据挖掘算法处理能力:面对数据规模的增大,需解决数据挖掘算法的效率问题,提高算法的有效性和可伸缩性。④数据挖掘算法处理效率:数据规模的不断增大导致分析处理的时间相应加长,而大数据条件下对信息处理的时效性要求越来越高,应建立简单有效的人工智能算法和新的问题求解方法。
五、小结
大数据时代的到来对数据挖掘的研究和教学都提出了新的挑战。应从数据预处理、数据存储机制、数据挖掘算法处理能力和效率等多个方面进行创新,以适应大数据环境下知识管理与智能决策的需要。
参考文献:
[1]陈燕.数据挖掘技术与应用[M].北京:清华大学出版社,2011.
[2]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,(25):142-146.
篇5
文章编号:1672-5913(2007)14-0027-03
1引言
数据挖掘是一门综合性的交叉学科,它融合了概率统计学、数据库技术、数据仓库、人工智能、机器学习、信息检索、数据结构、高性能计算、数据可视化以及面向对象技术等,在保险业、电信业、交通业、零售业、银行业正在被越来越广泛深入地使用,同时在生物学、天文学、地理学等领域也逐渐显现出技术优势,特别是在客户关系管理系统、个性化网站设计、电子商务系统、搜索引擎等方面数据挖掘技术显示出了独特的魅力。数据挖掘技术正在以一种全新的概念改变着计算机应用的方式。
从最近计算机技术的发展以及学生就业方面来看,对本校的应用性本科生开设“数据挖掘技术”课程迫在眉睫。但数据挖掘给人的感觉就是“高深莫测”,当前数据挖掘领域主要是博士生、硕士生研究的领域,数据挖掘课程也只在一些重点大学的研究生或高年级的本科生中开设,应用型本科院校以及一些高职高专几乎都没有开设此类课程。这限定了数据挖掘作为一门既有理论又有实践价值学科的应用和推广,笔者认为很可惜。从计算机专业的学生的毕业设计以及就业角度分析,相当多的同学以后会从事电子商务类软件的开发,而这类应用目前都渐渐基于Web作为应用平台,面对的是海量的数据信息,因此让学生掌握数据挖掘的思想和方法对提高计算机素养很有必要。即使将来从事控制、通信、游戏、图像处理等软件开发,数据挖掘的思想和方法也很容易找到用武之地。
2数据挖掘课程开设的可行性分析
从计算机技术发展以及学生就业反馈的信息,笔者觉得数据挖掘的思想、方法以及算法对应用型本科生是很重要的,并且让学生掌握好这门课程也是完全可能的。我校从1998年以来一直在高年级本科生中开设了“人工智能”课程,但从教学效果上来看,很不理想。“数据挖掘技术”这门课程在不少地方很像“人工智能”,“数据挖掘技术”课程中的一些思想就是从“人工智能”中发展过来的,但是“数据挖掘技术”课程与“人工智能”课程有一个本质的区别,就是数据挖掘从诞生的一开始就是面向大量的、实际的数据库信息,因此,具有极强的应用性,如果将“数据挖掘技术”课程看做是“数据库技术”课程的自然延伸,同时充分利用数据结构、人工智能、面向对象技术与方法、Web技术、概率统计等课程的基础,就能够将“数据挖掘技术”课程开设好。于是两年前,笔者在应用型本科生中做了尝试,就是取消原来的“人工智能”课程,取而代之的是“数据挖掘技术”课程,从两年的教学实践以及教学效果上看,行之有效。并且在教学中发现,虽然数据挖掘技术要用到人工智能的一些思想和方法,但没有“人工智能”课程作为前导课程,没有任何影响,因为,数据挖掘中的一些人工智能思想在“数据挖掘技术”课程的教学中是自成体系的,并且是以比“人工智能”中的方法更加简单、更加直接、更加面向应用的方式。开设“数据挖掘技术”课程必须以下列的课程作为基础(前导课程),当然这些课程都是一些常规课程。
1) 必须深入学习一门程序设计语言,通过这门语言的学习可以掌握程序设计的基础知识,并且掌握面向对象思想开发的精髓,能够进行可视化程序设计。学习程序设计绝不是记住程序设计语言的语法就行了,而要努力做到将应用中的思想变为程序。这一点是计算机专业学生的基本素养。这一环节没有做好,其余的计算机专业的专业课程,如数据结构、操作系统、数据库原理、编译原理、软件工程等就无法学习,即使学了,也不能真正掌握。笔者从计算机发展和应用角度,推荐学习C/C++和Java,要求对C++的模板以及STL或Java的数据结构类(在Java的util包中)能够较好掌握。
2) 掌握“数据结构”课程,特别是“数据结构”课程中的树的特点和应用。在“数据结构”课程中,树主要以二叉树为主,对于一般的树,在当前的“数据结构”课程的教学中都是将一般的树转化为二叉树来进行处理的,但是在数据挖掘中这样不太方便。数据挖掘中的很多算法都涉及到树的应用,并且大多都是不太规则的树,在数据挖掘中,采用树的思想与Java中的数据结构类或C++中的STL相结合的方法,能够得到很好的效果。
3) 掌握“数据库技术”课程中数据库操作的特点和应用。数据挖掘的对象主要是数据库中的数据,但作为数据挖掘对象的数据库的数据信息量往往很大,因此,为了提高挖掘的效率,需要建立数据仓库,或者需要在算法上加工,尽量减少扫描数据库的次数。
4) 掌握“Web技术”。这是因为Internet已经广泛应用并且深入人心,未来的软件相当多的都是基于Web平台之上,因此,对于Web挖掘不仅重要,而且具有直接的应用价值。当前Internet上的软件如一些知名网站、搜索引擎以及一些电子商务系统,采用了数据挖掘技术,得到了很多有价值的信息或提高了个性化能力,大大增强了企业的竞争力。因此,掌握“Web技术”课程对Web挖掘很有裨益。
5) 熟悉“概率统计”课程中的思维方式,对各种分布以及条件概率能够熟练掌握,在数据挖掘中的分类、关联规则等领域很多挖掘方法都灵活运用了概率统计中的思想和方法。
从“数据挖掘技术”课程的教学实践中明显看出,主要需要以上几门课程,并且教学结束后发现,学生不仅能够掌握数据挖掘的思想、方法以及算法,通过对一些主要的挖掘算法的实现,对“数据库技术”、“程序设计语言”、“数据结构”、“Web技术”以及“概率统计”掌握得更加深刻,将“数据挖掘技术”作为“数据库技术”的自然延伸,是“程序设计语言”、“数据结构”、“Web技术”以及“概率统计”的综合运用得到良好效果。
3 “数据挖掘技术”课程的设置
一门课程的设置,不仅要根据当前计算机技术的发展,同时也要根据当前学生的就业需求,充分考虑到应用型本科学生的特点。两年前,经过多方面的考虑以及参考了各种国内国外数据挖掘的教材以及论文后决定,“数据挖掘技术”课程教学学时定为32课时,讲课22学时,上机实验10学时。在这个总的学时定下来之后,就是对“数据挖掘技术”课程的内容设计,这是最重要的环节。精选出的内容不仅要反映数据挖掘的特点以及最新发展,还要结合应用型本科生的特点,要具有很强的针对性,重点要突出,要能够“学以致用”。最后“数据挖掘技术”课程的教学内容如下:
1) 数据挖掘综述2学时。本讲侧重于从两、三个具体应用领域进行分析得出采用数据挖掘技术的重要性与必要性,可以选取客户关系管理、体育竞技、信息安全和商业欺诈等作为案例,然后给出完整的数据挖掘定义和数据挖掘技术的分类,以及数据挖掘需要的一些前导课程的知识要点。
2) 数据挖掘过程及当前数据挖掘的软件工具2学时。数据挖掘的过程是数据抽取与集成、数据清洗与预处理、数据的选择与整理、数据挖掘以及结论评估。本讲重点讲解挖掘的过程,强调数据预处理对挖掘的重要意义,对于缺省的值、残缺的值等的处理方法。让学生对数据挖掘的整体过程有清楚的理解。然后介绍一下当前流行的商品化数据挖掘软件如IBM的IntelligentMiner和加拿大Simon Fraser 大学的DBMiner。
3) 关联规则挖掘与序列模式挖掘6学时。在介绍关联规则原理的基础上,主要介绍著名算法Apriori及其改进、FP_Tree算法、用于序列模式挖掘的AprioriSome算法。每个算法需要2学时,对每个算法要进行彻底分析,不仅能够理解算法的原理、思想以及过程,还要分析算法提出人为什么会提出这种算法,在日常生活中的含义是什么,算法的优点和缺点是什么,以及如何用Java或C++来编程实现该算法。最后,对多层次关联以及数量关联规则挖掘做个简单介绍即可。
4) 分类技术4学时。介绍分类的原理,主要讲解ID3和C4.5、朴素贝叶斯分类,简单介绍一下BP神经网络的分类。对于C4.5要求能够从原理上把握整个算法,能够进行连续值的离散化处理,理解C4.5比ID3的优势所在;对于朴素贝叶斯分类,要深刻理解该分类的原理以及贝叶斯信念网络的工作原理。特别的,对于FP_TREE以及C4.5算法的实现,需要用到不规则树,提出用C++或Java解决这种不规则树的方法。
5) 聚类技术4学时。在介绍聚类的重要性和分类的基础上主要介绍划分聚类PAM算法思想以及基于密度聚类DBSCAN,对于当前重要的聚类STING和CLIQUE做个简单介绍。最后,比较聚类和分类的不同之处。
6) Web挖掘与个性化推荐技术4学时。对于Web挖掘从内容挖掘、访问行为挖掘和结构挖掘三个方面进行讲解,重点讲解个性化技术。对基于最小关联规则集的个性化推荐以及基于协作筛的个性化推荐作深入剖析,并指出在当今网站设计中的重要意义。
7) 上机实验设计。精选五个上机实验。第一个实验是关联规则的Apriori算法或FP_Tree算法的实现,两个任选一个,如果选择Apriori的话,需要采取一些效率改进措施;第二个实验是序列模式挖掘中的AprioriSome算法;第三个实验是分类技术中的ID3或C4.5算法,这两个算法的主体相同,任做一个即可;第四个实验是聚类中的PAM或DBSCAN算法,两个任选一个;第五个实验是利用协作筛进行个性化网站的智能推荐。以上五个实验每个实验2学时,建议编程语言采用Java或C++,最后挖掘结果具有可理解性。
当然,以上的课程内容设计会随着数据挖掘技术的发展,不断进行微调,以适应不断变化的计算机技术发展与社会需求。
4 “数据挖掘技术”教学实践总结
两年前,虽然已对“数据挖掘技术”课程作了充分准备,但在刚开设这门课程的时候,很担心这门“高深莫测”的课程的教学效果。但经过两年的教学实践发现,这门课程的教学效果比预想的还要好。通过对该门课程的学习,学生不仅基本掌握了数据挖掘的基本原理和算法,同时对以前的一些主干课程如数据结构的理解和运用有了非常深刻的认识。更为重要的是,本课程的五个实验都是数据挖掘领域中最经典、最重要的算法,通过对这些算法的编程实现,不仅理解了数据挖掘关键算法的精髓,同时,这些数据挖掘算法实现的程序经过不断改进、加工,性能不断提高,由于都是源代码,可以将这些算法应用到一些实用的软件系统如客户关系管理系统、个性化网站中去,收到良好效果。此外,在网上的一些数据挖掘论坛中,经常看到一些初学数据挖掘的研究生或技术人员很想看一看数据挖掘经典算法的具体程序实现,我们也将这两年不断改进的程序源代码作为免费资源赠送给了不少同行,也为数据挖掘的推广应用贡献了微薄之力。
5结束语
“数据挖掘技术”课程的教学尝试目前主要针对的是本校应用型计算机专业本科生,虽然收到了良好的效果,但“数据挖掘技术”绝不仅仅是计算机专业学生才需要掌握的课程,对于我校通信系、电力系、自动化系等工科专业,经济系、管理系甚至一些文科类的学生也很有价值,因此,怎样在非计算机专业的应用型本科生中开设好这门新兴课程,甚至在高职高专学生中也开设好这门课程,则是需要作进一步的探索和尝试。
参考文献:
[1] 毛国君. 数据挖掘原理与算法[M]. 北京:清华大学出版社,2005.
[2] 陈文伟. 数据挖掘技术[M]. 北京工业大学出版社,2002.
[3] 余力. 电子商务个性化[M]. 北京:清华大学出版社,2007.
A Test to Applied College Students on Teaching Data Mining
XU Jin-bao
(Dept. of Computer Engineering, Nanjing Institute of Technology,
Nanjing 211100,China)
篇6
随着数据挖掘、商务智能技术的快速发展与广泛应用,亟需对信息管理专业的本科生加强对相关知识的介绍,此时进行课程改革,调整、增加授课学时和实践环节有重要意义。数据挖掘是一门与多学科交叉的新兴计算机专业课程,其课程内容丰富、应用范围广、实践工具类型繁多。在有限授课时间内,如何选择适合于信息管理专业的本科生的课程内容、案例与软件工具,选用何种有针对性的教学方法,是进行数据挖掘课程设计需要解决的主要问题。
一、国内外数据挖掘类课程建设研究分析
近年来,数据挖掘与商务智能技术发展迅速,充分借鉴国外相关研究,尤其是ACM SIGKDD课程委员会对数据挖据课程建设建议,对进行数据挖掘类课程的教学建设研究有重要意义。ACM(美国计算机协会)于1998年成立了SIGKDD(知识发现兴趣小组),致力于知识发现与数据挖掘的相关研究,ACM SIGKDD课程委员会连续多年多次更新其主要课程――数据挖据课程的建议,其中委员会将数据挖掘课程分为基础部分与高级主题,基础部分覆盖了数据挖掘的基本方法,高级主题既有数据挖掘基本方法的深入研究,又有更高级算法的介绍。国外很多大学的计算机科学学院、商学院都开设了数据挖掘类课程并同时进行相关研究。波士顿大学开设了“数据管理与商务智能”课程,课程主要包括基础、核心技术、应用三部分。许多国外著名大学建立了教学管理系统,提供大量的案例、在线讨论和在线辅导功能。国内很多学校都开设了数据挖掘的相关课程,我国大多数高校的课程大纲内容与国外大致相同,只是在实践部分选用了不同的商务案例。数据挖掘的应用领域广泛,因此可以根据开课学院和专业选择合适的实例。
二、根据信息管理专业本科生培养要求确定课程目标
数据挖掘课程是一门综合性很强的前沿学科,对计算机软硬件、数据库、人工智能技术、统计学算法、优化算法等基础知识都有较高的要求。因此该门课程开设在学生大三下学期,既有相关知识的基础,又为大四做毕业设计提供了一种思路。信息管理专业是计算机与管理相结合的专业,旨在培养具备信息系统开发能力与信息资源分析与处理能力的综合应用型人才。对信息管理专业的学生而言,本课程主要的目标是数据挖掘算法原理理解、数据挖掘算法在商务管理问题中的应用以及常用数据仓库与数据挖掘软件的熟练应用和二次开发。
三、基于模块化方法的课程内容分析
模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。学生可以根据个人兴趣和职业取向在不同模块之间进行选择和搭配,从而实现不同的教学目标和人才培养要求[1,2]。模块化教学本质上是以知识点与实践的细化为出发点研究的。商务智能方法本身非常丰富,实践应用也是课程的主要特点之一,因此十分适合使用模块化的知识分解方式。本课程的知识点模块管理分为两个层次,一是从宏观角度设计课程的基础内容模块和高级主题模块;二是从微观角度针对较为复杂的教学内容进行的知识点划分。
1.课程主要内容模块化分析。目前该课程包括十章理论内容,分别为数据仓库与数据挖掘的基本知识、数据仓库的OLAP技术、数据预处理、数据挖掘系统的结构、概念描述:特征化与比较、挖掘大型数据库中的关联规则、分类与预测、聚类分析、复杂类型数据挖掘和序列模式挖掘。根据模块化管理的宏观角度分类,课程内容的第一至五章属于基础理论部分和简单数据挖掘技术的介绍,可以作为基础内容模块;第六至八章为数据挖掘的核心算法,其中既有基础理论与技术方法,又可深入到较难的方法和复杂的应用,因此介于基础内容与高级主题之间;第九、十章可以算做课程的高级主题模块;另外,课程的实践模块既包含数据仓库的建设又包含数据挖掘算法的应用,难度也介于基础内容与高级主题之间。
2.复杂知识点的模块化管理。从微观角度对知识点进行设计主要针对的是上述的高级主题、以及难度介于基础内容与高级主题之间的章节,由于这些章节知识点在难度上有一定层次,讲授内容弹性比较大,因此需要在课程设计中明确一定课时量所要达到的难度。以商务智能技术中的分类算法为例:首先一般的入门课程都会介绍分类算法的概念和基本原理;接着开始介绍分类算法的基础算法――决策树,而决策树算法中又包含ID3等多种算法,并且除了决策树外,还有其他更高级的分类算法;在真正使用分类法进行预测时,还要分析预测准确度;最终要将所学知识加以应用。这样就形成了一个结构清晰、难度循序渐进的知识点模块的层次关系。在宏观角度、微观角度对教学内容进行分类的前提下进行相应的授课方法与考查方法的研究,才能真正有助于学生的学习。
四、授课与考核方法设计
对不同层次学生要求不同,这种不同既体现在知识点的要求上,又直接体现在任务的难易性程度上,这都需要教师在课程设计时充分考虑不同要求情况下的不同的授课方式,并使学生清楚自己需要掌握的程度。对于高级算法和实现部分,通常可以选择一到两章内容采用专题探讨式的教学方法。这种方法是指在教师启发和引导下,以学生为主体,选择某个基本教学单元为专题,学生自主研究作为知识传递的基本形式,将多种灵活的教学方式综合运用到教学环节的教学方法[3]。根据信管专业培养方案的培养目标、以及对学生调研的情况,实践环节比较适合选择成熟的商务智能工具进行数据的整合和多维数据建模,也就是直接使用现成的;或者使用数据挖掘软件进行数据建模,完善数据挖掘算法。可以针对学生管理基础课与IT基础课知识的掌握情况,选择合适的工具为学生设计综合性实验。实验中给出部分操作步骤,并在实验后期仅给出数据与工具,让学生自己设计数据仓库、进行数据挖掘、并对挖掘结果进行多种形式的展示。
五、结论
本文通过国内外数据挖掘课程内容、分类、教学方法的分析,针对信管专业本科生的培养要求,研究了数据挖掘课程建设的主要内容,并针对知识点的不同模块,实行不同的授课方式,使学生更加明确重点、难点和扩展内容,提高了学生的听课效率,对教学内容的模块化分类、以及相应的授课方式的研究成果仍可继续发挥作用,并进行更深入的研究和实践。
参考文献:
[1]韦艳艳,张超群.模块化教学与学习迁移[J].当代教育论坛,2018,(5).
[2]郑浩,陶虎,王晓辉.高校模块化教学模式及其效果评价方法[J].科技信息,2012,(25).
篇7
关键词:数据挖掘;理论创新;多元教学;多梯度实验
0 引 言
在当前大数据时代背景下,如何从海量数据中挖掘并提炼出对人们真正有用的知识,是大数据研究的难点问题,同时也是目前数据挖掘面临的关键和核心问题[1]。数据挖掘作为当前计算机专业的一个前沿课程,是一个综合性的交叉课程,也是重要的学术研究方向,其内容涉及多方面基础理论学科和应用性强的技术领域,是提高计算机专业学生应用实践能力和理论创新能力的载体课程,在整个计算机专业的学习中具有极为重要的地位。
1 教学现状
数据挖掘作为一门同时具备应用性和学术性的课程,早期属于计算机专业研究生培养的专业课程,但随着数据挖掘在各个领域的广泛应用,现已成为计算机专业本科培养的专业选修课之一。目前,数据挖掘课程在教学内容、教学方法和实验教学模式上存在诸多不足之处。
(1)教W内容陈旧。目前的教学内容一般根据某本数据挖掘教科书进行讲解,由于数据挖掘技术的快速发展,一本教科书往往很难全面概括数据挖掘的内容、方法和技术。
(2)基础理论算法与实验教学脱节。当前的教学路线往往是使本科学生从了解和掌握数据挖掘的基本任务开始,然后讲授数据挖掘的各种基本算法,最后上机实验。这一教学方式侧重于以应用为主,主要目标在于培养计算机工程的应用人才。然而,由于基础理论算法与实验教学分开讲解,使得学生缺乏对使用数据挖掘解决实际问题的能力。
(3)理论创新意识的缺乏。在当前的本科教学中侧重工程实践能力的培养,忽略理论创新的培养。在数据挖掘课程中,理论创新是指学生对所学的数据挖掘算法有自己的见解,能有意识地思考目前数据挖掘面临的问题并提出新的数据挖掘算法。
(4)实验教学僵化。当前的实验教学往往是固定的几个算法验证性实验,对于不同学习能力的人而言,实验教学往往很难达到理想的效果。
目前,对日新月异的科技发展、以科技创新和技术升级为核心特征的激烈国际竞争,我国自主创新能力较为薄弱的问题已经越来越成为信息化发展的瓶颈[2],这也给数据挖掘教学带来巨大挑战,即教师如何在教学过程中提高学生的理论创新能力?
2 教学方法的改革
2.1 教学内容的前沿性与统一性
作为一门新兴的前沿课程,该门课程内容、方法和技术仍处于发展和探索阶段。通过固定的教材去系统地传授数据挖掘的内容显然是不太合理的。因此,与传统学科不同,数据挖掘教学内容需要进行更新,并根据学生的接受能力进行甄别筛选。同时,要求任课教师在不断发展的新技术与相对稳定的教材中寻找一条贯穿整个教学内容的主线,在讲课的过程中,结合数据挖掘研究进展,配合自己的研究成果,把最新的技术融入到课堂中。此外,由于数据挖掘是多学科的交叉课程,内容涉及统计学、算法、数据库、机器学习、模式识别、可视化等,而本科生的知识体系薄弱,在短时间难以透彻理解各部分内容。因此,教学过程中教师应合理设计教学大纲和方案,有机地学内容,让学生对数据挖掘有一个整体的了解。建立不同数据挖掘任务之间的相互关联,同时以项目讲解的方式将数据挖掘涉及的数据预处理、聚类分析、分类预测、噪声检测、关联规则挖掘等有机结合在一起。
2.2 理论创新的多元教学
针对现有本科生教学中理论创新意识的缺乏,尝试进行多元化教学模式,主要从以下4个方面展开。
(1)区分教学内容的难易度,将教学内容分为基础内容与进阶内容。在讲授中注重基础内容的原理性,并有意识地让学生接触一些前沿性的理论拓展知识。比如在讲解分类算法时,首先专注几个经典的分类算法,如K―最邻近、决策树、朴素贝叶斯和支持向量机等。同时,在此基础上,给学生讲述目前分类的一些前沿方法,如集成学习、深度学习和迁移学习等。
(2)以问题为驱动教学。在讲解聚类算法时,可以通过“物以类聚,人以群分”的思想展开,具体介绍K―MEANS和DBSCAN两个具有代表性的聚类算法,让学生思考数据挖掘不同算法提出的原因、基本思想和优劣性,初步引导学生的自我思考、自我学习的创新思维能力。同时,针对数据具有的高维性,让学生进一步思考“高维诅咒”问题及在此问题上展开的子空间聚类的研究。
(3)建立“教研统一”研究式教学方法,利用教师现有科研促进和服务于教学,探索形成“科研嵌入”理论教学内容。将教师在自己的研究与教学内容进行有机结合,丰富教学内容,拓宽学生视野,提高学生实践能力和创新能力,实现科研成果融入教学。这样既提高了学生学习知识的兴趣性,又培养了潜在的科学素养。此外,在整个教学环节中布置两个任务,一是让学生进行数据挖掘的文献调研(主要涉及数据挖掘的历史、现状、面临的挑战及当前的行业应用),二是在课程结束后进行主题研究报告,每个学生选择自己感兴趣的一个主题进行,研究报告的目的是让学生深入理解所学内容,为后续的科研工作打下基础。
(4)教学模式由传统“填鸭式”向“互动式”教学转变。通过研讨方式引导学生去思考,激发学生的求知欲,充分调动其学习的积极性和主观能动性。通过具体实例,让学生知道算法的应用场合,提高学习兴趣和效率。
2.3 多梯度实验教学
实验教学是使学生在实践环节将数据挖掘课程中学习的理论算法应用于实践,帮助学生理解和掌握知识,提高动手能力。传统的上机实验往往是侧重几个经典算法的实现,如KMEANS、KNN、ID3决策树和LOF算法等。然而,数据挖掘是一门工程应用性较强的学科,这种算法验证实验很难让学生体会到数据挖掘的实际应用,因此,从基础能力培养、工程应用及创新研究3个方面设计多梯度实验。
首先,按照由浅入深的原则设计2个经典算法实现,如KMEANS和 ID3决策树。这个实验为算法型实验,主要是帮助学生通过实验更好地了解所学算法,学生也可以自己选择聚类分析和分类预测的任意两个算法进行实现。
其次,设计一个简单综合型实验,比如垃圾邮件的分类系统,要求学生完成从数据收集、数据预处理到整个系统的实现。主要考查学生综合运用数据挖掘知识,解决实际问题的能力,注重工程能力的培养。
最后是创新算法的实验设计,比如子空间聚类算法的实现。这个实验注重部分学生创新能力的培养,尤其是致力于以后从事科学研究的学生。学生可以根据自己的爱好,选择算法型实验和综合型实验,也可以选择算法型实验和创新算法设计实验。多梯度实验的目的主要是希望针对不同学生的学习兴趣及将来的发展方向,给出合适的实验教学。实验的整体难度由易到难,层层深入,有利于学生实践能力和创新能力的培养。
3 结 语
当前,数据挖掘正处在快速发展的过程中,各个领域的大量应用使得对数据挖掘这门课程的工程应用能力要求越来越高,需要学生具有更好的创新能力,因此,数据挖掘课程的教学也同样需要调整教学内容和教学手段来紧跟其发展的步伐。基于此,我们提出在课程内容的前沿性、教学模式的多元性及实验教学的多梯度性上进行改革,从而达到在培养学生工程实践能力的同时,提高其创新思维能力。
基金项目:电子科技大学“互联网+”课程建设教改专项。
第一作者简介:邵俊明,男,教授,研究方向为数据挖掘、机器学习及在交叉学科的应用研究, 。
篇8
1程序设计课程与数据挖掘技术概述
程序设计课程是培养学生软件开发能力的一门课程。目前国内的理工类学校或相关专业普遍都为学生开设了程序设计课程。一直以来,如何了解多数学生在学习程序设计中所遇到的困难,如何帮助学生克服学习中的障碍,都要靠教师多年的教学经验来解决。这种传统的教学方法显然不能满足知识更新迅速的计算机教学过程。因此需要研究如何从学生提交的程序作业中利用数据库技术及时发现问题和解决问题。数据挖掘(Data Mining)技术是近年来新兴的数据管理与分析技术,主要用于发现数据中隐藏的线索,辅助人们进行科学分析和决策。数据挖掘普遍需要三个阶段:数据准备、挖掘操作和结果表达。下面以C语言为例介绍在程序设计课程教学中,对学生程序作业进行数据挖掘的一种应用方案。
2程序设计课程的数据挖掘过程
2.1 数据准备
根据程序设计课程的教学特点,我们按错误的严重程度将所有学生提交的程序作业的评阅结果归纳为以下5类,即题目错误、编译时语法错误、编译时语法警告、编译后运行结果不完全正确、编译后运行结果完全正确。为了对学生程序作业中的问题进一步分析原因,我们对以下8类数据进行分析,即功能模块函数序列、逻辑结构序列、语句类型序列、表达式序列、运算符序列、标识符序列、数值常量序列以及简化的字符常量序列。
要将文件形式的源程序分解为以上8项数据,就需要按语法规则完成以下步骤:
(1) 过滤程序中的注释信息和空白字符,产生预处理元素序列;
(2) 根据#include和#define等标记替换用户指定的包含文件和宏定义等预处理元素;
(3) 对照语法元素表,进一步将程序分解为关键字、标识符、常量、运算符、定界符等语法元素序列;
(4) 将数值常量以空格为连接符连接为一个数值常量序列;
(5) 将字符及字符串常量保留%d等格式字符和\n等转义字符后删去多余字符,以空格为连接符连接为一个简化的字符常量序列;
(6) 将所有运算符以空格为连接符连接为一个运算符序列;
(7) 将用户变量名和函数名统一编码后与程序中的关键字构成标识符序列;
(8) 将运算符与标识符及常量以空格为连接符连接为一个表达式序列;
(9) 将程序中的语句分类为表达式语句、函数调用语句、空语句、复合语句、if语句、else语句、switch语句、case语句、while语句、do语句、for语句、break语句、continue语句、return语句和goto语句,并组织成语句类型序列;
(10) 对语句按分号和大括号等定界符划分为模块函数序列;
(11) 将模块内语句按顺序、选择、循环的分类构成逻辑结构序列。
2.2 挖掘操作的过程
由于篇幅所限,下面仅以程序设计教学中的典型题目“温度转换”的数值常量序列和运算符序列为考察数据具体描述挖掘过程。
(1)数据清理
首先将数据准备阶段的各类数据与评阅结果组成一个数据记录集(如表1所示)。由于分析的目的是找出教学中造成学生程序错误的主要因素,而题目错误仅仅是因为学生操作马虎,与掌握程序设计的能力并不相关,因此把评阅结果全部正确的和题目错误的记录过滤掉,只保留评阅结果为语法错误、语法警告和运行错误的记录(如表2所示)。
(2)构造1项侯选集,发现频繁1项集
将所有数据作为1项集中的元素,构造1项侯选集,并计算不同元素的数量,如表3所示。保留其中数量较多的元素,滤掉其它元素,得到频繁1项集,如表4所示。
(3)构造2项侯选集,发现频繁2项集
将所有频繁1项集元素两两组合,构成侯选2项集,并计算组合后的数量,如表5所示。保留其中数量比较多的元素,滤掉其它元素,得到频繁2项集{=/*(-),编译警告}。
2.3 结果表达和解释
保留下来的2项集的两个元素分别代表了错误类型和造成该类型错误的主要语法元素序列,即现有数据表明(输入函数中)未使用取地址运算符是造成编译警告的主要原因。
3数据挖掘应用效果
在现实的教学过程中,我们对2005级8个班275名学生的5385个程序进行了统计和分析,发现题目错误的比例约占1.49%,编译错误的比例约占3.38%,编译时警告的比例约占1.21%,运行错误的比例约占8.10%,运行正确的比例约占85.82%。其中造成编译错误的主要原因是注释信息或各级括号定界符未配对;造成编译警告的主要原因是格式输入函数调用时缺少地址运算符或用户变量定义后未使用;造成运行错误的主要原因是除法运算符两侧运算量为整型常量。下面的图表反映了在程序设计课程的教学中没有使用数据挖掘技术和使用了数据挖掘技术的教学效果对比。
图1为未采用本方法指导教学的10次学生程序作业评阅结果统计图,其中靠上的折线表示每次学生作业的平均分数,靠下的折线表示每次学生作业的严重语法错误发生率。可以发现,学生每次作业的平均成绩基本呈水平小波动随机形状,表明学生成绩在学习过程中没有明显变化,同样严重语法错误发生率也没有明显变化。图2为一直采用本方法指导教学的10次学生程序作业评阅结果统计图,可以发现学生的成绩随着系统的使用时间增加而稳定的上升。在第三次作业以后基本保持在90分以上的水平,同时严重语法错误的比例也快速的下降,在第二次作业以后就控制在5%以下。以上对比说明本方法比较准确地发现了学生程序中的语法错误和算法错误的主要因素,使学生得到及时地反馈并在以后的程序设计中避免相似的错误,从而明显的改善了教学效果。
参考文献:
[1] 李建中,王珊 . 数据库系统原理[M] . 北京:电子工业出版社,2004.
[2] Richard J. Roiger,Michael W.Geatz . 数据挖掘教程[M] .北京:清华大学出版社,2003.
篇9
Data Mining Based Course Competence Development of C Programming Language for Vocational College
GUO Xiao-chen1,2
(Chenzhou Vocational Technical College,Chenzhou 423000,China)
Abstract:In this paper we utilize the data mining technology into the course of C programming language in vocational colleges in order to classify and predict the examination result, and eventually find out the implied information. This is helpful to make guidance for improving the quality of teaching and deepen the teaching reform.
Key words: data mining; concept description;class comparision; C Programming Language
1 引言
C语言程序设计课程是计算机应用和电子信息工程专业的必修程序设计课,是知识性、技能性和实践性很强的课程。主要培养学生利用计算机来处理实际问题的能力和培养学生程序设计的思维能力,使学生能够掌握C语言的基本语法和算法,能利用C语言进行基本的程序设计。
C语言程序设计主要由数据描述、程序控制两大模块组成,包括基础数据类型、流程控制、函数和复杂数据类型等四个单元的内容。笔者从事多年的C语言程序设计教学工作,如何利用有效数据分析工具,将所积累的丰富的数据转换为有价值的知识,了解和分析学生的知识掌握及能力培养情况,并采用相应的教学改革。
2 数据挖掘技术的概念和内涵
数据挖掘(DataMining)是对大量的、不完全的、有噪声的、模糊的、随机的实际数据,进行抽取、转换、分析和模型化处理,从而提取能辅助决策的关键性数据,并能结合应用领域的特点,推导出有用的知识的过程;简而言之,数据挖掘就是深层次的数据信息分析方法。通常采用概念/类描述、关联分析、分类和预测、聚类分析及演变分析等方法来完成数据挖掘。数据挖掘的过程是一个线性的过程,依据不同信息平台的数据类型,采用面向环境的管理方式,实现面向环境要求的数据挖掘。数据挖掘的过程一般由数据准备、数据挖掘、结果的解释与评估四个阶段组成。
3 数据挖掘技术在《C语言程序设计》课程能力培养分析中的应用
3.1 数据仓库的建立
挖掘所需要的数据来源于某高职院校近3年来计算机应用和电子信息工程两专业近860名学生的C语言程序设计这门课程的期末考试成绩、实验成绩及实习成绩,给定属性学号(ID)、姓名(name)、性别(gender)、专业(major)、科类(section)、成绩(result)。成绩部分包括考试成绩(test_result简称为t_r)、实验成绩(experimental_result简称为e_r) 、实习成绩(practice_result简称为p_r)及总分数(total_score简称为t_s),其中总分数=考试成绩×70%+实习成绩×20%+实验成绩×10%。通过对考试试卷的分析统计,基础数据类型(Foundation Data Type简称为FDT)、流程控制(Process Control简称为PC)、函数(Function简称为F)和复杂数据类型(Complicated Data Type简称为CDT)四个单元的分数比重分别为20%,30%,20%,30%,综合考虑各单元的内容,汇总统计出各单元的满分分值为14,21,14,21。
该数据挖掘任务可以用DMQL表示如下:
Define cub discretmath〔ID,name,gender,section,major,result〕。
total_score=sum (result);
define dimension result(test_result,Programes_result,practice_ result);
define dimension test_result(FDT,PC,F, CDT)。
数据仓库的结构如表1:
3.2 数据的预处理
由于现实中的数据多半是不完整的、有噪声的、不一致的,某些学生的成绩会因教师个人感情或其它因素而分数偏高或偏低,从而导致现有分数含有一定偏差的噪声数据,对此可以通过数据的预处理技术改进数据的质量,提高其后的挖掘过程的精度和性能。本文利用数据清理中的聚类中K_平均算法找出孤立点,并利用分箱技术将噪声去掉。表2为经过数据预处理的二维视图。
以上数据仓库中的数据,就是经过预处理后,得到的是集成的、概念分层的、不含有噪声的数据,该数据可以用来进行准确的数据挖掘工作。
3.3概念/类描述
3.3.1数据概化
数据库中的数据和对象通常包含原始概念层的细节信息,在多数情况下,感兴趣的一般是在不同抽象层上得到的数据的量化信息或统计信息。因此,首先采用解析特征化进行属性相关分析,来帮助识别不相关或弱相关属性,将它们排除在概念描述过程之外。概化过程如下:
1)收集目标类数据,它由计算机专业的集合组成,对比类数据取电子信息工程专业的集合;
2)用保守的属性概化阈值进行面向属性的归纳,通过属性删除和属性概化进行预相关分析。
ID:由于ID存在大量不同值,并且其上没有概化操作符,该属性被删除;name:由于name存在大量不同值,并且其上没有概化操作符,该属性被删除;gender:由于gender只有两个不同值,该属性保留,并且不对其进行概化;major:假定已定义了一个概念分层,允许将属性major概化到值{计算机应用,电子信息工程};section:假定已定义了一个概念分层,允许将属性科类概化到值{理科,文科,对口};total_score:该属性存在大量不同值,因此应当概化它。假定存在total的概念分层,将分数数值区间{100_85,84一70,69_60,59_0}按等级(grade){A,B,C,D}分组,这样该属性可以被概化。
表3通过对表2的数据进行概化得到的关系
3.3.2类比较的实现
通过概化处理,数据仓库中的属性基本已经得到了单个类的描述。但我们希望挖掘一个描述是它能将一个类与其它可比较的类相区分,因此采用挖掘类比较来实现。现给定了属性gender, section,major, test_result,program_result,practice_ result和grade。
1)专业类别分析
首先确定目标类与对比类为属性major中计算机应用和电子信息工程两个不同专业的学生;其次,对两个数据上进行维相关分析,不相关或弱相关的维从结果类删除;再次,在目标类上进行同步概化,产生主目标类关系,如表4所示。
从表4可以看出,与电子信息工程专业相比,计算机应用专业的学生趋向平均分、实习成绩及实验成绩这三部分分数较高,体现出学生在知识应用能力和计算机编程能力上较强,但对知识掌握出现两极分化严重,针对这部分基础知识掌握不牢固的学生,教师在执教时就应考虑加强基础知识的巩固。相对而言电子信息工程专业的学生对基础知识的掌握基本较好,但对该课程的灵活应用有所欠缺,这就使得在教学过程中应适当注重培养学生的应用能力,加强对他们编程、实验及实习的辅导。
2)性别类别分析
首先确定目标类与对比类为属性gender中的男和女;其次,对两个数据上进行维相关分析,不相关或弱相关的维从结果类删除;再次,在目标类上进行同步概化,产生主目标类关系,如表5所示。
表4 主类(计算机应用)与目标类(电子信息工程)关系 表5 主类(男)与目标类(女)关系
从表5可以看出,与女生相比,男生从总体上对该门课程的学习效果较差,不及格率较高,且优秀率低,基础知识掌握不牢固,体现出不少男生学习态度不端正,目的不明确,缺乏学习的积极性。而女生这门课的成绩比男生好,优秀率高,及格率高,对基础知识掌握牢固,但在知识的应用能力方面欠佳不能很好地灵活运用;由此可见,教师在教学过程中须考虑学生的性别差异,因材施教。
3)科类类别分析
首先确定目标类与对比类为属性section中文科类、理科类和对口类;其次,对两个数据上进行维相关分析,不相关或弱相关的维从结果类删除;再次,在目标类上进行同步概化,产生主目标类关系,如表6所示:
从表6可以看出,与理科类、文科类相比,通过对口高招进来的学生不管对理论知识的掌握还是在实践技能上都比较突出,且目的性非常强。而文科类与理科类相比, 文科类对基础知识的学习优于理科类,但在知识的应用能力上较差,理科类则恰恰相反。可见,教师在教学过程中除了考虑普遍学生存在的问题外,还需要注意学生的差异,对于对口类学生而言应多准备一些相对大的项目,让其能“吃饱”,而对于理科类和文科类学生一方面要加强理论基础知识的学习指导,另一方面要适当注意培养其应用能力,加强对编程及实践方面的辅导。
4 结论
利用多年的C语言程序设计课程的成绩的数据,通过数据挖掘技术探索和发现两个专业学生对这门课程的知识掌握及能力培养的情况,可以有针对性地进行教学内容和教学方式的改革,使得学生更好地掌握C语言程序设计这门课的知识,培养各方面的能力,为以后的课程学习、专业发展打下坚实的基础。
参考文献:
[1] JiaweiH,MichelineK.DataMiningConceptsandTechniquo5[M].Beijing:China Machine Press,2006.
[2] 朱明.数据挖掘[M].合肥:中国科技大学出版社,2O02.
[3] 张锦祥.高级程序设计语言课程教学改革与实践[J].浙江教育学院学报,2007(4)71-76.
篇10
Applied Research of Task-driven Inquiry Teaching Model in Data Mining Course
HUANG Jian
(Zhejiang Wanli University, Department of Computer Science and Information Technology, Ningbo 315100, China)
Abstract: The task-driven inquiry teaching model is a teaching activities which students as the main body, teachers as the leading. It fits the data-mining course. Not only using task lead the student to inquiry learning, but also improve teachers during the teaching process. Based on the data mining course teaching reform practice, summarizes the task-driven inquiry teaching mode in general process and the specific content of the reform. Practice has proved, this teaching mode is good for improving undergraduate courses teaching quality.
Key words: Task-driven; Inquiry; Curriculum reform
数据挖掘是一门包括了数据库系统、专家系统、机器学习、统计学、模式识别、信息检索、人工智能等学科的综合性的学科,其目标是发现隐藏在大型数据集中的知识模式。此课程一般是在研究生教育阶段开设[1],但随着社会对应用型人才的需求越来越大,这就要求我们的学生毕业后不仅要有扎实的理论基础,更要有较强的创新能力和实践能力。
我校针对信息与计算科学及统计学两个专业开设了数据挖掘课程。该专业学生拥有较强的数学理论基础,并掌握了数学建模、统计学、数据库等相关学科。数据挖掘作为一门综合性课程,是融合学生各科知识,提高该专业学生应用实践能力,培养学生团队协作能力的很好的载体课程。
1 数据挖掘课程教学特点
数据挖掘技术是一个多学科交叉的综合研究领域。不过也正因为它涉及的范围很广泛,发展的时间也不是很长,因此要真正理解数据挖掘的本质并不是一件容易的事情。我校针对信息与计算科学和统计学两个理学专业开设此课程,并将此课程归类为实践类课程。经过笔者多年对传统教学方法的研究和改革,发现了在数据挖掘教学中存在的问题:
1) 理论教学困难:数据挖掘课程内容涉及领域广泛,如统计学、数据库、机器学习、模式识别等内容,并且所涉及的算法繁多。由于本科生的知识体系不健全,理论基础相对薄弱,造成了学习难度过大。此外,由于学时限制,无法在课堂中详细地讲述算法理论,导致了学生积极性不高,很难达到教学目标。
2) 实践环节无法让学生体会数据挖掘本质:数据挖掘是从数据获取、数据整理、预处理、数据挖掘分析、结果分析等一系列流程的综合。但由于课时关系,我们课程中的实践环节往往是针对某个特定的算法,让学生利用已经预处理好的数据进行算法的应用。数据挖掘成本很高,但是这个成本往往并不是金钱,而是时间,而数据整理和预处理的时间往往占到全部工作量的80%。不经过完整的数据挖掘流程训练,学生就无法体会数据挖掘的本质。
3) 软件应用缺乏:针对海量数据分析是必须要应用到计算机技术处理。当今针对数据挖掘应用的软件很多,如SAS公司的EM模块、SPSS的Modeler、WEKA、Matlab以及各数据库系统配套的OLAP功能等。在课堂中,不可能对任何一款软件都详细的进行讲解。这就使得学生很难进行算法的应用实践。
2 任务驱动探究式教学模式
针对目前教学存在的这些问题,广西大学梁斌梅提出了目标驱动的专业课教学法,利用导入课吸引学生、利用教学目标引导学生[2]。韩秋明等人编著的《数据挖掘技术应用实例》中采用了大量的行业数据,为数据挖掘教学模式的改革提供大量的应用实例[3]。结合本校的学生特点,参考国内的一些研究成果,该文提出了基于任务驱动探究式教学模式。课程整体主线由任务驱动,学生进行探究式自主学习。
任务驱动是基于构建主义教学理论基础上的教学方法,以学生为主体,以老师为主导的一整套教学新模式。而探究式教学是与直接接受式教学相对的,在任务驱动的同时,激发学生的好奇心,并驱使学生投入到知识获取的自主学习活动中。任务驱动探究式教学模式是将两者有机的结合起来,使学生能够明确学习目标、提高学习兴趣、提升学习动力,发挥学生的自主学习能力、创造能力,培养学生分析问题、解决问题的能力。通过自主学习,自行的完成阶段性的教学任务,以达到相应的教学目标。任务驱动探究式教学模式,适合操作性和应用性强的课程。任务驱动探究式教学模式的核心思想是在教学方面强调任务驱动,在学习方面则强调探究式学习。因此必须合理地设计课程教学方案,在“教”和“学”两个方面进行设计。老师必须在任务设计、实施进程管理、信息反馈等各方面做好衔接,保证学生能够时刻跟上任务进度,并保持足够的兴趣度。
3 基于案例驱动探究式教学模式的数据挖掘课程改革
任务驱动探究式教学模式是以学生为主体,教师主导的新型教学模式。教师的作用在于教学组织和任务布置的安排调度。利用任务引导学生学习相关知识,提高学生的学习主动性。因此,如何根据课程需要合理地进行课程任务设计,安排任务进度都是课程改革成功的关键。
3.1 课程内容重新整合
数据挖掘是一个由数据收集、数据预处理、数据分析挖掘、结论分析等各个步骤组成的整体过程。在现有的数据挖掘书中,针对数据收集、数据预处理部分往往比较简化,大部分篇幅都在讲述数据挖掘算法,如分类算法、关联算法、聚类算法。如果在课程内容设计时,仅仅对算法做重点讲述而忽略前期步骤,将会造成学生内容知识的脱节,无法体会数据挖掘整个流程,从而不能真正地理解数据挖掘思想本质。因此,本课程教学目标应该是重点培养学生分析问题、解决问题和团队协作能力,树立数据挖掘思维体系,了解数据挖掘基本算法,能够应用数据挖掘软件解决实际问题并得到结果。
根据这个教学目标对课程内容进行适当调整。首先,增加绪论内容并设置导入课。在导入课中增加生活中学生感兴趣的数据挖掘故事,经典案例以及各行业中的应用,从而提高学生学习的兴趣。其次,适当增加数据获取、数据预处理以及数据挖掘软件的介绍,使得学生能够明确数据怎么来、如何处理以及用什么工具处理等问题。最后,有选择地介绍基本的数据挖掘算法,所介绍的算法应该是常见、易懂并且能够很容易使用软件实现的,如决策树算法、K均值聚类算法、Apriori算法、朴素贝叶斯算法等。而针对比较难的算法,可以仅做介绍,让学生在今后遇到此类问题能够自主的进行学习。通过内容的调整,一方面使得学生不会因为数据挖掘算法繁多且复杂而惧怕,保证学生的学习兴趣,从而很好的引导其自主学习,提高教学效果。另一方面,数据挖掘算法在不断的改进,不可能在课程中覆盖所有。通过基本算法和工具的结合,能够很好地帮助学生从算法理论转变成算法实现,从而真正的进行数据挖掘工作。即使出现了新的算法,也能够举一反三,进行软件实现。
3.2 组织方式的改变
任务驱动探究式教学模式必须以课程任务为依托。改变以往以纯理论的教学方式,加入实践和课堂讨论环节,将理论知识讲解和课程任务有机地结合到一起。考虑到数据挖掘连贯性以及工程庞大性,可以考虑以项目化的方式进行。将学生6个人左右分为一组,自主的在老师所提供的数据共享平台中寻找感兴趣的问题进行分析研究。将整个项目分解成为数据搜集、数据预处理、探索性分析、数据挖掘、结果分析等一系列的小任务,安排阶段性的任务目标,层序渐进,逐步的建立学生完成项目的信心并最终完成整个项目。
学生是项目的负责人,在接受一个短期任务后,就要自主的开始进行任务的执行。老师仅仅在课堂中进行了基本知识的讲解,学生要完成任务就必须学习更多的课外知识。项目的研究内容是自己选择的,而且完成阶段性的任务并不是那么的遥不可及,所以学生有足够的兴趣和信心去完成。通过查阅资料、学习知识、任务分配、安排和组织实施等,完成教学任务的同时也锻炼了他们团队合作意识、沟通能力、自主学习能力。这些能力的培养才能使他们在知识不断更新的当今,紧密地跟紧前沿技术并更好的去解决实际问题。
3.3 任务进度控制和评价
课程的课堂教学时间是有限的,老师不可能在课堂中既完成理论教学,又给足时间让学生进行课程任务,所以项目的实施必须是在课后进行。学生要在课外进行大量的参考资料阅读、相互讨论及数据分析的工作。那么老师作为主导者,必须及时地了解学生阶段性任务的完成情况,对当前学生遇到的困难及时给出建议和意见,甚至在学生遇到真正的难题给予技术上的支持。所以本课程在理论课教学的同时,也开展了定期的讨论课,让学生定期汇报阶段性任务的完成情况,及时进行任务进度的控制。整个项目的实施流程和任务分解如图1。根据流程安排,理论引导学生任务的进行。通过学生任务的完成情况,老师在完成基本理论教学的同时,有针对性的对学生所遇到的问题进行讲解,最终目标是引导学生完成整个教学项目。一方面,学生自主学习能力提高,有足够的兴趣和能力去完成每个阶段的任务,并且会更加认真的在理论课中寻找自己想得到的知识。另一方面,由于学生自主寻找的项目多样性,选择的算法不可控性,同样促使老师不断的提高自身,教学内容不再一成不变,而是随时的更新。
图1 任务进度安排流程图
良好的进度控制需要一个完善的评价体系做辅助。只有做好每个阶段性的评价,引入一定的竞争机制,才能提高学生积极性和自信心。首先,必须做到极端性任务的目标和时间明确化。要完成什么,在什么时候完成,都必须事先和学生约定。对没有按时完成任务的组,必须做出相应的惩罚,如扣除本阶段的得分。除此之外必须分析原因,搞清为什么无法完成任务,有针对性地提出建议和意见,以便学生能够及时调整。其次,评价标准既要唯一又要区别对待。唯一标准指的是一样的进度,一样的任务,一样的要求。但是数据挖掘项目会根据研究领域不同、使用算法不同、数据质量不同而造成难度差异,一味的同等标准要求会造成选择难度较高项目的学生积极性下降。所以老师必须客观的分析每个项目难度,并区别对待。对于由客观难度造成任务进程落后的组,应当在解决问题后给予奖励。并且,在最终论文评定时,适当的加入一定的难度分,以鼓励学生培养自我挑战的精神。通过教师评价、组长评价、组间评价等评价方式,客观的合理的对整个项目实施作出最终的评价结果。
4 结束语
通过案例驱动探究式教学模式的改革,数据挖掘课程在教学效果上得到了实质性的提高。人才培养上卓有成效,老师也在教学过程中受益良多。通过教学模式的改革,使得原本枯燥、难懂的理论教学变得生动。学生的求知欲望得到了激发,课程的学习目标更加的明确,教学质量也有很大的提高。同时我们发现,学生的自主学习能力、汇报能力、论文撰写能力都有了明显的提高,并且有很多教学项目被用于毕业论文的研究。数据挖掘课程也因此被选为宁波市级的智慧产业核心引导课程。
参考文献:
篇11
知识发现(Knowledge Discovery in Databases,KDD)一词最早出现在1989年8月美国底特律召开的第11届国际联合人工智能学术会议上[1]。1996年,知识发现被Fayyad U,Piatetsky,Shapiro G和Smyth P定义为:知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程[2]。对KDD的研究主要包括从数据库的角度进行研究以强调知识发现的效率,从机器学习的角度进行研究以强调知识发现的有效性,从统计分析的角度进行研究以强调知识发现的正确性,从微观经济学的角度进行研究以强调知识发现的最大效用。KDD过程是多个步骤交互螺旋式上升的学习和总结过程[3],基本流程包括:
(1)限定学习领域,储备预先知识、确定学习目标;
(2)聚焦目标数据集,选择一个数据集或在多数据集的子集上聚焦;
(3)数据预处理,数据降噪或数据清洗;
(4)数据转换;
(5)确定数据挖掘功能法则;
(6)获得知识信息、运用知识成果并重新选定学习目标。
在创新的过程中,单单依靠显性知识已经不足以支撑整个思维求异和技术创新的全流程。随着数据量的爆炸式增长,传统数据库的检索查询已不能满足信息社会的深层次需求,再加上传统分析手段的落后,大量数据来不及整理、分析或利用就已“时过境迁”成为无效信息,而且被长期积压在数据库中浪费存储资源。为了及时消解数据产生和数据理解之间的矛盾,还必须定期对数据进行深度挖掘,使得大量被隐藏的、有价值的信息得到有效利用。
(二)数据挖掘的理论探索
数据挖掘(Data Mining)是指使用算法来抽取信息和模式,通常是知识发现过程的一个重要步骤。数据挖掘融合了机器学习、模式识别、数据库技术、统计学理论、人工智能及信息管理系统等多门学科的最新成果。应用数据挖掘技术从大型数据库中发现隐藏在其中的规律和有用信息,为管理层决策提供事实型数据和研究模式。
根据KDD的目标任务,数据挖掘任务可分为:分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等。而所要挖掘的对象则可以分为:关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及web等对象的挖掘。从方法论讲,其挖掘方法一般分为:聚类分析、探索性分析、机器、统计、神经网络(Neural Network)、遗传算法(Genetic Algorithm)、数据库、近似推理和不确定性推理、基于证据理论和元模式、现代数学分析、粗糙集(Rough Set)、集成方法等方法[4]。
(三)小结
综上,知识发现用于从大量数据中抽取规律信息,发现非预期或潜在的价值量,而数据挖掘作为知识发现的重要一环是与实践应用紧密相连的,两者不仅仅是对数据的简单检索调用,而是从数据集合中自动提取出隐含在数据中的关系和模式,进而对未来可能发生的行为进行预测,为决策者提供有力支持。
二、高校成绩管理与学科建设
成绩是学生在校学习期间对所学知识理解掌握情况和教师教学质量评价的原始记录,对学校的教学管理和教学改革措施评价具有重要的参考价值[5]。成绩管理是高校教学管理中的最为基础性的一个环节,是根据教学目的和教学任务,
通过学生的实际量化考核分数来进行统计、查阅和分析的综合性数据处理过程。该过程的科学与否,直接关系到教务管理的实际质量和教学工作的可持续发展,特别是在网络化和信息化的新形势下,该项工作被素质教育赋予更加深远的现实意义。本文所指学科成绩不仅限于学生的笔试成绩,还包括了学生参加各种校内外实习和培训,以及其他形式素质教育的量化数据。
(一)高校成绩管理所面临的新形势
从宏观上讲,随着国家高等教育普及工作的不断推进,以及教育战线“以人为本”理念的逐步深入,高校教务在成绩管理这一环节上所面临的任务显得比以往任何时刻都更加繁重。
首先,院校扩建和学生扩招为学科成绩管理模块在数据容量上增加了压力。近几年,随着一些高校教学资源的整合和扩充,许多高校设立了新校区、设置了新专业,反映在学生成绩管理上则是成绩数据的时空容量同时增长。每多出一个学生,从学籍材料到各年度学科数据再到图形化成绩资料都会相应增加,教师教务管理系统所要处理的信息量也会相应增加,这首先在量上增加了数据压力。
篇12
一、数据仓库技术在客户忠诚度分析中的应用
1.数据仓库(DataWarehouse,简称DW)是一种面向数据应用的数据管理技术,它以关系数据库管理系统(RDBMS)为基础。按照业界公认的数据仓库创始人W.H.Inmon的观点,数据仓库可定义为:“一个面向主题的、集成的随时间变化的非易失的数据集合,用于支持管理层的决策过程”。可以发现数据仓库具有这样的一些重要特性:面向主题性、数据集成性、数据的时变性、数据的非易失性、数据的集合性和支持决策作用。
数据仓库技术是企业智能管理的重要基础和手段,已经成为企业级信息管理和决策支持系统建设过程中必要的技术支持。数据仓库是进行客户忠诚度分析的基础。
2.数据仓库的实施步骤。数据仓库的设计与传统的OLTP系统设计有较大区别,不但需要设计一个数据库和一个用户接口,还必须设计数据装载策略、数据存取工具和不间断的维护方案。数据仓库的实施步骤:
(1)启动项目,确定建立分析客户忠诚度的数据仓库,制定项目计划。建立技术环境,选择实现数据仓库所需要的软硬件资源。
(2)确定数据仓库主题。针对客户信息以及客户购买信息等相关的数据仓库,与企业前台部门的业务人员多进行沟通,详细了解业务需求、报表等需求。
(3)对客户购买信息进行详细定义,对事实表和维表的关系详细定义。由于客户购买信息数据仓库数据量随时间积累增大,而且随着电子商务的进一步深入,数据量更是激增,所以必须对数据结构进行精心设计,以免随着仓库中数据量快速增长,造成系统分析和查询性能的急剧下降。
(4)数据仓库的物理库设计。考虑数据的存储方式,使得系统有较好的性能。完成索引的建立以及数据更新网络的设计。
(5)源数据抽取、清洗、整理及装载设计。客户购买信息数据仓库的数据来自企业的前台作业系统以及前台业务部门。这些数据必须根据数据仓库的设计,以统一定义的格式从各个系统抽取出来,经过清理、转换、综合,再经过数据装载和整理程序进入数据仓库。
(6)开发支持用户决策的数据分析工具。建立客户购买信息数据仓库的最终目的是为了实现前台部门以及企业高层的决策支持,所以需要各种工具对数据仓库进行访问分析,如优化查询工具、统计分析工具、数据挖掘工具等,通过分析工具实现决策支持需要。
(7)维护方案的设计。保证客户信息数据仓库的正常运行,对其进行管理维护,保证系统保持优良的性能。
二、据挖掘技术在客户忠诚度分析中的应用
1.数据挖掘(Data Mining,简称DM),简单地讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本,一个普遍被采用的定义是“数据挖掘,又称为数据库知识发现(Knowledge Discovery from Database,简称KDD),它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。”
2.数据挖掘在客户忠诚度分析中常用方法
(1)决策树(Decision Tree)决策算法。决策树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点代表或类分布。决策树算法包括树的构造和树的剪枝,有两种常用的剪枝方法:先剪枝和后剪枝。
(2)神经网络(Neural Network)。神经网络是一组连接的输入/输出单元,其中每个连接都与一个权相连,在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确类标号来学习。
(3)遗传算法(Genetic Algorithms)。遗传算法根据适者生存的原则,形成由当前群体中最适合的规则组成新的群体,以及这些规则的后代。
3.数据挖掘在客户忠诚度分析中的应用
(1)运用数据挖掘技术,对客户进行细分,提供个性化的服务。因为不同的客户为企业提供的价值不同,企业需要重点服务的是那些能为企业提供高价值的大客户;又因为企业的资源有限,如何针对不同客户进行有限资源的优化应用也是每个企业必须考虑的重要问题,所以有必要对客户进行细分,进行有针对性的运营,提供个性化的服务。
(2)运用数据挖掘技术预测客户需求。客户的需求不是一成不变的、单一的,而是快速改变着的、多样化的。运用数据挖掘技术及时预侧客户的需求,也就是“想客户之所想”,及时调整产品的结构和内容,抢先赢得商机,为客户提供其真正需要的产品,吸引客户,获取高额利润。
(3)进行客户流失分析。不要等到客户离开了企业再去寻找解决办法,时间就是金钱。客户选择了离开企业,肯定是有原因的,应该注意客户流失的时间、分析流失的原因,及时采取措施,最大限度地留住客户。
(4)挖掘出影响客户忠诚度的重要因素,重点改善。影响客户忠诚度的因素可能会有很多,但是要做的是用数据挖掘工具找出那些最主要的因素,对这些因素认真分析,采取有效的措施以提高客户忠诚度。
三、结束语
数据挖掘作为一种信息技术正越来越受到企业的关注,都在想办法用数据挖掘来解决企业海量数据的问题。企业能够充分有效地利用数据挖掘这种新技术来为企业提供重要的决策信息,提高客户忠诚度的,使企业在激烈的市场竞争中立于不败之地。
篇13
随着世界经济的信息化和全球化趋势增强,电子商务正逐步走向全面应用,并渗透到社会经济的各个层面。越来越多的公司纷纷建立网站,从事商务活动,无论是新兴网络企业,还是传统企业E化,网站都已经成为企业经营必不可少的网络营销工具,并且在增强企业竞争优势、扩大企业影响、增加销售收入等方面发挥着越来越大的作用。
1 E忠诚时代的来临
随着电子商务的发展,客户的重要性被提升到一个前所未有的高度,它已经成为电子商务成功的关键。在某种程度上,客户关系加商务模式,已经被誉为电子商务成功的秘密。
电子商务环境下的客户忠诚,又称为E忠诚。2000年,美国Bain&Comapany公司的电子商务主管Fredrick F.Reichheld与Phill Sehefter在研究了多家杰出网络公司和上千名网络顾客的消费行为后,指出在虚拟的网络世界中同样存在顾客忠诚,并称为“E忠诚”;他们同时认为,E忠诚是电子商务企业在网上取得成功的“秘密武器”。2001年,国际著名的咨询公司KPMG Consulting在与牛津大学零售管理学院(OX―IRM)的合作研究项目中把E忠诚定义为:E忠诚指网络顾客对网上企业或其品牌的忠诚。2003年3月,Moonkyu Lee博士通过实证研究,将E忠诚定义为:网络顾客基于以往的购物体验和对未来的预期,愿意再次光顾当前选择的电子商务网站的意向性。彭香霞与贺勤将“顾客重复选择该网站购买某一特定产品或某些产品的心理和行为倾向”理解为E忠诚,并认为同时满足“情感E忠诚”和“行为E忠诚”两个维度,才能称作E忠诚。无论众多学者如何定义E忠诚,但E忠诚的时代确确实实来临了。
2 企业网站客户忠诚管理现状
忠诚的客户是企业赢利的源泉,是企业最大的无形资产,在竞争激烈的网络市场中,如何牢牢地锁住客户,提高客户忠诚度便成为了如今企业网站关注的要点。为了能够有效开展客户忠诚管理,提升网站客户忠诚度,众多企业网站在维系客户关系方面可谓是“八仙过海,各显神通”。然而对于绝大多数企业网站而言。虽然能在短时间内很快地聚集大量的访问量,但对于客户关系的长期保持,提升企业网站客户忠诚度,其效果并不显著。主要原因在于,网站客户忠诚的形成与培养,比传统环境下难度更大,决定因素更多。 就难度而言,①企业对客户信息管理水平较低;②不完善的机制使客户对企业缺乏信任;③针对客户需求的差异,企业缺乏建立个性化服务的意识;④顾客满意难以达到;⑤低廉的搜寻成本容易改变购物选择;⑥交易的安全性难以保证;⑦“口碑”负效应不可忽视。这些问题的存在,决定了要在虚拟环境中维系与客户之间的关系、培养与提升客户忠诚度,是一件十分艰难的事情。
就决定因素而言,电子商务环境下企业网站客户忠诚既受客户主观因素的影响,也受外在客观因素的影响,这两者共同构成企业网站客户忠诚的趋动模型,如图l所示:
从图1可以看出,决定企业网站客户忠诚的外在客观因素主要有转移成本、客户价值、营销策略、产品质量、客户服务等;决定企业网站客户忠诚的内在主观因素主要有客户满意度、客户愉悦度和客户信任度,并且客户感到满意、拥有愉悦和产生信任对忠诚具有递进作用。同时,客观因素影响着主观因素,两者存在着正相关关系。
随着电子商务的深入发展,企业网站客户忠诚度变得岌岌可危:客户的选择范围骤然扩大,流失趋势增加;转换成本降低,客户更容易改变购买决策;客户需求个性化,经验成熟化,使客户的期望值大大提高,对企业提出了服务敏捷、产品优质、定位准确等高标准要求。
3 Web数据挖掘是提升网站客户忠诚度的关键技术
电子商务的发展,要求企业借助于信息技术和网络技术,以客户利益为出发点,以不断满足客户需求和为客户创造价值为目标,与客户建立长期稳定的关系,不断提高客户的忠诚度。而对用户需求、兴趣、爱好、身份的了解和获取是提升网站客户忠诚度具备针对性的前提。20世纪80年代末兴起的数据挖掘(DataMining)技术,特别是Web数据挖掘技术,为解决此问题开辟了一条道路。
Web数据挖掘就是从Web文档和Web活动中发现、抽取感兴趣的潜在的有用模式和隐藏的信息。它以从Web上挖掘有用信息为目标,以数据挖掘、文档挖掘、多媒体挖掘为基础,并综合运用计算机网络、数据库与数据仓库、人工智能、信息检索、可视化、自然语言理解等技术,将传统的数据挖掘与Web结合起来。Web数据挖掘的基本处理过程如图2所示:
在日益激烈的电子商务市场竞争中,任何与消费者行为有关的信息对经营者来说都是非常宝贵的。Web服务器数据、客户登记信息、服务器数据和业务往来数据是Web挖掘中的数据来源,都直接与客户的商务行为模式相关,而不论是客户认知忠诚、情感忠诚还是意向忠诚,最终都体现为客户行为忠诚,也就是说,这些数据所表征出来的行为特征可以借助于一定的技术用来分析客户的行为。通过Web数据挖掘,根据客户的访问兴趣、访问频度、访问时间等数据,能发现企业网站客户共性和个性的知识、必然和偶然的知识、独立和联系的知识等,所有这些经过分析,能对客户的消费行为如心理、能力、动机、需求潜能作出统计和正确的分析,得到客户的商务行为模式。根据挖掘的结果提出针对性的商务计划,促进企业网站更好地为客户服务,使客户忠诚度的提升成为可能。
4 基于Web数据挖掘的网站客户忠诚度提升模型
Web数据挖掘是辅助提升企业网站客户忠诚度的综合分析工具和关键技术,运行在企业网站的客户数据库和数据仓库之上,应包括以下功能模块:①过滤器:用来从Web数据库中抽取相关数据,进行二义性分析,消除不一致性;②挖掘综合器:是一个挖掘驱动引擎,根据挖掘要求和挖掘方法的知识库到Web数据挖掘算法库中选择合适的挖掘方法,并且使用该方法去执行挖掘任务;③方法选择专家系统及知识库:它是Web数据挖掘的“大脑”,是一个规则集合,能够根据不同的挖掘要求来选择最有效的挖掘算法或几种算法的序列组合,并且随着应用的深入,该知识库可以不断融入新的规则,以增加专家系统的智能性;~Web数据挖掘算法库:是一个数据挖掘分析方法的综合性算法库;⑤人机交互界面:提供一个和分析人员交互的友好界面。如果本次的挖掘结果不能满足分析人员的需要
或者还有进一步的猜想,就可以再次从这里输入挖掘需求;⑥方法驱动模块:它利用挖掘出来的有益信息,进行相应统计与分析的工作。据此分析,可以构建一种基于Web数据挖掘的网站客户忠诚度提升模型,如图3所示:
5 基于Web数据挖掘的网站客户忠诚度提升模型的运行
5.1模型运行的基本流程
基本流程:①明确Web数据挖掘的目标,确定提升网站客户忠诚度的应用主题,并对挖掘目标建立恰当的模型,通常必须指定一系列未知的关联变量,如果可能的话,建立一关联格式作为初始的假设;②围绕提升网站客户忠诚度这一主题收集数据源,并对数据进行清理、转换、集成等技术处理,将数据转换为易于进行数据挖掘的数据存储形式,装载进入客户原始数据库和数据仓库,等待进一步处理;③建立规则库和知识库,用于存储已知的客户行为忠诚度的连接特征和新近数据挖掘形成的规则集,其中规则集是客户商务模式与忠诚度行为模式的反映,用于指导训练数据的收集及作为特征选择的依据;④选取合适的数据挖掘方法,构建数据挖掘模型,进行行为模式识别,从目标数据中提取有价值的知识与数据,然后对结果进行分析和验证,调整数据挖掘模型,从而保证结果的可靠性和实用性,结果交给决策模块处理;⑤决策库将数据挖掘的结果与规则库中的已知规则进行模式匹配,融合专家知识与领域规则,把最有价值的信息区分开来,并且通过决策支持工具提交给决策者,用于支持提升客户忠诚度的相关策略处理。
5.2模式识别的技术方法
对客户行为模式进行识别是整个模型正常运行并达到预定目标的核心,针对网站客户行为模式识别,常见的数据挖掘技术方法主要有:
・关联规则。它是描述数据库中数据项之间存在关联的规则,即根据一个事物中某些项的出现可导出另一项在同一事物中也出现,即隐藏在数据间的关联或相互关系。使用关联规则发现方法可以从Web访问事务集中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构,通过分析数据或记录间的关系,决定哪些事情将一起发生。
・聚类分析。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。在Web挖掘中存在两种类型的聚类,即用户聚类和网页聚类。用户聚类主要是把具有相似访问特征的用户分在一组;网页聚类,则可以找出具有相关内容的网页组。聚类分析可以从服务器访问信息数据中聚集出具有相似特性的用户组,即把有相似特性的用户、数据项集合到一起。
・分类分析。分类是将一组组个体分门别类地归入预先设定好的几个类中。分类的目的是通过统计方法、机器学习方法(包括决策树法和规则归纳法)、神经网络方法等构造一个分类模型,然后把数据库中的数据映射到给定类别中的某一个特定类,以对同一类别中的用户提供相似的服务。
・统计分析。统计分析是统计用户最常访问的网页、每页平均访问的时间、浏览路径的平均长度等数据,以获得用户访问站点的基本信息。此外还能提供有限的低层次的错误分析,比如检测未授权入口点,找出最常见不变的URL等。
・序列模式。序列模式挖掘技术就是试图在时间戳有序的事务集中,找到一组数据项之后出现另一数据项的内部事务模式,即挖掘出会话集之间有时间序列关系的模式,从而形成一组按时间排序的会话。通过序列模式研究,能够预测用户的访问模式,了解用户的兴趣及需求所在。
・决策树算法。其基本原理是递归地将数据拆分成子集,以便每一个子集包含目标变量类似的状态,这些目标是可预测属性。每一次对树进行拆分,都要评价所有的输入属性对可预测属性的影响。当这个递归过程结束时,决策树也就创建完了。结构表示分类或决策集合,从而产生规则和发现规律。
・模式分析。通过选择和观察把发现的规则、模式和统计值转换为知识,再经过分析得到有价值的模式,即那些有意义、感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者。
・路径分析。路径分析是一种找寻频繁访问路径的方法,它通过对Web服务器的日志文件中客户访问站点的访问次数分析,从图中挖掘出频繁访问路径。图最直接的来源是网站结构图,其他图也都是建立在页面和页面之间的联系,或者是一定数量的用户浏览页面顺序基础之上的。
・异类分析。异类分析也称为孤立点分析。所谓孤立点是指明显偏离其他数据,即不满足一般模式或行为的数据。孤立点分析是数据挖掘的重要内容,它包括孤立点的发现和孤立点的分析,其中孤立点的发现往往可以使人们发现一些真实的但又出乎意料的知识;而孤立点的分析则可能发现比一般数据所包含的信息更有价值的数据。
5.3提升模型的主要应用
提升企业网站客户忠诚度,关键是要从客户的主观因素和感觉出发,提升客户满意度、客户愉悦度和客户信任度。通过对4类网络数据进行挖掘,可以分析影响客户忠诚度的因素或客户忠诚度降低的征兆,进而制定相关策略来提升企业网站客户忠诚度。
・预防客户流失。互联网加剧了企业间的竞争,企业获得新客户的成本不断上升,如何保持现有客户是所有企业面临的一个重要问题。客户维持的性质是“留住”那些可能流失的客户。要留住这些客户,首先要找出哪些客户最可能“离我而去”,这就是数据挖掘要解决的问题。可通过数据挖掘对客户数据库中大量的客户历史交易记录、人口统计信息及其相关资料进行分析和处理,对流失客户群作针对性研究,分析其特征,研究哪些因素会导致客户流失,建立流失客户模型,识别导致客户流失的模式,然后用这些模式找出当前客户中类似的客户,以便企业针对客户的需求,采取相应的措施防止这些客户的流失,改善客户关系,进而达到保持原有客户的目的。
・开展客户细分。客户细分可以使企业对不同细分群中的客户区别对待。企业需要对客户群进行分析,才能得到对客户需求更加精确的理解和把握,从而可以有的放矢地进行忠诚度营销的策划和服务组合。在不太明确客户群体分类标准的情况下,可采取挖掘的聚类技术,对客户群进行划分。运用聚类分析,从客户档案库中发现不同客户群,并且用购买模式来刻画不同客户群的特征,可以方便地得到商家的主客户群,以便决策者根据主客户群的特征做相应的订货、销售、服务等决策。所有的客户对于企业来说价值都不是一样的,在客户细分过程中,应加强重点客户的发现,发现哪些客户是真正创造利润的客户,哪些客户是低利润甚至是无利润的客户,然后采取不同的方案对待这些客户。
・改进网站设计。网页是企业对外宣传的重要组成部分,体现企业的整体形象,只有通过它才能开展网上业务,同时与客户直接进行沟通。因此,需要在网站上营造一种生活和文化氛围,一种精神世界,这种氛围应该和企业所提出的企业文化和营销概念相吻合,给顾客提供一种“宾至如归”的感受。通过对客户访问信息进行挖掘,了解客户的浏览行为,从而知道客户
的兴趣及需求所在,动态调整Web页面,修改网站结构和外观,按照大多数访问者的浏览模式对网站进行组织,按其访问内容来裁剪用户与Web信息空间的交互,以满足客户的需要,吸引更多的客户。从而在优化网站设计时,能从最终顾客的角度更新改进作业流程,提供给顾客一站购足的服务。
・提供个。客户的需求不是一成不变的、单一的,而是快速改变着的、多样化的。随着生活水平的不断提高,客户的要求也越来越高,其个性化需求逐渐成为发展趋势。企业要想赢得较高的客户忠诚和盈利能力,就一定要实现以下目标:在正确的时间、以正确的价格、通过正确的渠道将正确的产品(或服务)提供给正确的客户。这就要求企业网站必须记住客户的特点,与每位客户发展温馨、个性化关系,依据客户的需要,提供适当的服务与信息。基于数据挖掘的个性化服务,通过对客户访问日志记录信息的挖掘,以为每一位客户建立一套个性化档案为基础,可以提供包括个性化定制服务、个性化推荐服务、个性化检索服务、个性化决策支持服务等内容。
・优化营销模式。即使是购买同样的商品,不同顾客的动因也可能不一样,有的追求质量,有的讲究外观,有的贪图方便,有的则喜欢其文化内涵。所以企业必须采用一定的方法,了解顾客的购买动因,并集中起来加以分析,然后针对不同客户的特点,采取不同的营销策略组合。利用Web数据挖掘工具,了解顾客在网上购买商品或接受服务时的选取习惯、链接习惯、商品组合习惯,发现那些隐藏在数据中的模式、关联、规则和趋势,找出其中的规律,从而提高交叉网络营销、“1对1”营销、频率营销、会员制营销等营销模式的效率。
・营造安全环境。信任是客户忠诚的一个决定性因素。从本质上来说,信任支持了客户那种认为“可以在交易或者服务中得到积极成果”的信念。在电子商务环境下,一个安全交易的环境是客户产生信任的首要条件。所以商家不仅要保证产品和服务质量,还要加强对客户的责任心,投入足够的人力和物力,加强硬件上的建设,从技术上保证网上交易的安全,并且要保护客户的个人隐私,不能私自将他们的个人信息透露给其他机构。Web数据挖掘通过访问路径分析、关联规则发现、序列模式分析、分类规则发现、聚类分析等技术,从获取的资源数据中提取与安全相关的系统特征属性,并根据系统特征属性自动生成安全事件的检测模型,用于对安全事件的自动鉴别,加强安全审计、入侵检测、病毒预警、安全评估等网络安全防范的针对性,有利于提供一个安全的网络交易环境。
5.4模型运行的注意事项
建立在Web数据挖掘技术基础上的企业网站客户忠诚度提升模型在运行过程中,还应注意以下一些事项: