引论:我们为您整理了13篇数据挖掘技术探讨论文范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。
篇1
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
参考文献:
篇2
Analysis on research-oriented teaching model in data warehousing and data mining
Huang Meili
(Zhejiang Agriculture and Forestry University, Lin'an, Zhejiang 311300, China)
Abstract: As a comprehensive and practical course, data warehousing and data mining is opened not so long ago, so teaching methods of this course for undergraduate students are rarely seen. Based on the characteristics of this course, combined with teaching experience of several years, the application of research-oriented teaching model is mainly discussed and several typical students’ learning outcomes are listed. Finally, some places which need to be cautious are put forward.
Key words: data warehousing and data mining; research-oriented; teaching model; teaching practice
0 引言
20世纪90年代兴起的数据仓库和数据挖掘是数据库研究、开发和应用中最活跃的两个领域。随着其理论及应用技术和产品的不断成熟与发展,数据仓库与数据挖掘不仅成为高等院校计算机专业、信息技术与信息管理类专业硕士、博士研究生的专业课程,而且相继在本科相关专业高年级学生中开设了该课程。
该课程是一门综合性和实践性很强的课程,其内容新且广,对于本科教学有一定的难度。本文针对课程自身特点及高年级学生学习及能力培养需要,结合自身教学实践,探讨以激发学生学习兴趣为着眼点、学生分析解决问题能力培养为目的的研讨型教学模式。
文中章节1具体介绍课程内容、教学过程中存在的问题及研讨型教学模式;在章节2中,以自身的教学实践为例,给出研讨型教学实践效果及该方法应用的注意事项;最后,是结论部分。
1 本科数据仓库与数据挖掘课程教学
1.1 课程教学内容
数据仓库与数据挖掘课程涉及两方面的教学内容:①数据仓库技术和基于数据仓库的联机分析处理应用技术。具体包括数据仓库的基本概念、创建技术和方法、数据仓库的体系结构以及OLAP的基本概念、多维数据库、OLAP的实现技术。②数据挖掘的基本概念、基本方法和基本技术(包括分类、预测、关联、聚类等),以及数据挖掘的应用。
1.2 课程在本科教学过程中存在的问题
⑴ 教学内容不统一
由于该课程是一门综合性很强的课程,涉及到的学科知识很广,加上在本科教学中开设的时间并不长,也没有得到大家一致认可的相应教材供使用,使得开设该课程的不同高校的教学内容与教学重点各不相同,即便是同一学校不同教师对于教学内容的把握上也有很大差异。
⑵ 传统教学方法的不适用性
虽然本课程涉及内容宽泛,而且是在已具备自主学习能力的本科高年级学生中开设的,但是课程的教学方法却多采用传统的以教师讲授为主、学生为辅的教学模式。
从本科教学过程中存在的问题可见:课程授课对象及课程自身的特点,决定了传统教学方法的不适用性[1-3]。因此,有必要探讨新的教学模式在具体教学实施过程中的应用。
1.3 研讨型教学模式
虽然课程涉及到的学科内容广且深,但是对于已学习高等数学,并熟悉数据库知识和具备程序设计能力的高年级学生而言,还是能较好地掌握数据仓库的建模以及经典数据挖掘算法的实现与简单应用。因此,在课程的教学实践中,我们把该部分内容作为课堂教学的重点;对于一些较难的和新的挖掘算法与技术,及其应用和最新发展趋势,则作为学生研讨内容。
作为传统的教师讲解教学模式的有益补充和提高,开展研讨型的教学模式,可以按照如下四个环节开展:
⑴ 教师出题&学生选题;
⑵ 相关文献查阅;
⑶ 报告撰写;
⑷ 课堂汇报与讨论。
第一步,由教师出题,学生选题。在学期初,就由教师给出研讨的主题供学生选择。这样既可以避免学生选题过于盲目,也可以避免最后课堂讨论阶段的研讨内容偏离课程教学主题。
第二步,相关文献查阅。在接下来的课程教学期间,学生除了保证基本的学习内容的掌握之外,还需要利用课余时间,利用各种手段查阅与选题相关的文献,为报告的撰写和汇报阶段做充分的准备。
第三步,报告撰写。经过大量的文献阅读后,学生需撰写文献阅读报告,报告的撰写格式可以参考毕业设计的要求。
第四步,课堂汇报与讨论。在课程后期,教师在每次课堂上抽取一定的时间,供学生课堂汇报,然后其他学生与教师一起针对学生的汇报内容展开讨论。该环节的开展,既开拓了学生的视野,又可以有效地避免部分学习不认真的学生的应付行为。
从教师出题到最后的学生课堂汇报与讨论,每个环节都要求学生的亲自参与。这样,在课时有限的情况下,以研讨型的教学模式开展教学,既可以保证教学内容的讲授,又能使学生主动参与到课堂教学中来,激发了学生的学习主动性,拓宽了学生的视野。
2 研讨型教学实践效果及注意事项
2.1 教学及其效果
我校在大四计算机专业学生中开设该课程。其中,理论32学时,实验16学时,共计48学时。教材采用韩家炜先生编著的《数据挖掘:概念与技术》一书[4]。该教材是得到业内广泛认可的经典教科书,但教材内容偏重理论。为了在有限的课时内,让学生尽可能掌握基本教学内容,使得研讨型教学模式得以开展,我们以李志刚编著的《数据仓库与数据挖掘的原理与应用》作为相关内容的辅助教材[5]。具体地,按如下方式进行。
2.1.1 教学内容及学时分配
教学内容围绕数据仓库与数据挖掘两条主线展开。涉及的相关内容及学时分配如表1所示。
2.1.3 考核方式
期末总成绩=平时成绩25%+文献报告25%+期末卷面成绩50%
在最近两年的研讨型教学模式实践中,我们选出有代表性的学生作品,如表3所示。
2.2 教学注意事项
研讨型教学模式适用于“数据仓库与数据挖掘”课程的教学,但是在相应课程中开展研讨型的课程教学模式需注意以下几点。
⑴ 注意授课对象的选择。文献资料的查阅、文献阅读报告的撰写以及课堂汇报是研讨型教学模式开展过程中的主要环节,而这些环节要求学生所需具备的能力,不适于在低年级学生中开展。
⑵ 注意教学模式的选用。研讨型教学模式不能代替传统的教师讲解的教学模式,而应是两者的有机结合。
⑶ 注意考核方式的改革。研讨型教学模式的开展,除占用一定的课堂教学时间之外,还需要学生花费大量的课外时间用以查阅文献资料、撰写报告等。如果采用传统的以考试为主的考核方式,那么在实践过程中可能会遇到部分学生的抵制。因此,为了提高研讨型教学模式的效果,需要对传统的以期末笔试成绩为主的评价方式进行适当改革,向研讨内容及成果倾斜,以提高学生的积极性。
3 结束语
研讨型教学模式的开展,可以有效地避免传统教学方法下以教师讲解为主,以学生为辅的填鸭式教学模式,较好地解决数据仓库与数据挖掘课程在本科教学过程中遇到的问题。
经过近几年在本科计算机专业毕业班对该课程采用研讨型教学模式的实践表明,该模式的开展不仅有效地激发了学生的学习兴趣,开拓了学生的视野,而且能够很好地为学生的毕业设计环节中有关文献查询、论文撰写及答辩等奠定基础。从列举的近两年的代表性学生研讨内容及成果中可以看到,该教学模式在高年级学生中开展是现实可行的,而且也是有效的。
研讨型教学模式的开展,需要占用一定的教学时间,如何在有限的课时内保证教学内容,并挤出足够的时间开展研讨是教师必须考虑的问题;与此同时,学生为准备研讨内容需要花费大量的课余时间,因此,如何调动学生的积极性也是该模式能否成功应用的关键因素之一。上述两方面的问题,都有待在今后的教过实践中,进一步深入细化该模式,以更好地达到教学培养目标。
参考文献:
[1] 徐金宝.对应用型本科生开设数据挖掘课程的尝试[J].计算机教育,
2007.7:27-29
[2] 胡建军.浅谈数据仓库与数据挖掘的本科教学[J].广西科学院学报,
2007.23(3):209-210,214
[3] 韦艳艳,张超群.“数据仓库与数据挖掘”课程教学实践与探索[J].高
教论坛,2011.1:94-96,99
[4] 李志刚,马刚.数据仓库与数据挖掘的原理及应用[M].高等教育出版
篇3
数据挖掘技术可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中人们事先不知道的,但又是潜在有用的信息和知识的过程。通过这种技术把获取的信息和知识提供给决策支持系统。这种技术已广泛地用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等[1,2,3] ,随着信息技术的发展,数据挖掘在网络教学中的应用研究也逐渐深入[4,5,6] 。网络教学成为一种新型教学手段,理论上学习者可以在任何时间、任何地点以任何形式、从任何章节开始学习任何内容,实现个性化学习。但在网络教学实施过程中,教学内容和组织活动却不能随着学生的学习状况发生动态变化,导致了教与学脱离的现象,教学效果达不到预期效果。因此可以利用该技术对收集到的与学生学习相关的历史数据进行分析,从而可以为教师深入理解学生的实际学习情况,制定相关的教学目标供 其学习提供有力的决策支持,是提升教学效果的有力手段。
一 拟解决的关键问题
本文探讨 在现有的网络教学平台基础上,以在教学信息数据库中采集到的学生学习记录为样本,应用数据挖掘技术,挖掘有用的规则,探讨学生的学习习惯, 学习兴趣和学习成绩间的关系,从而及时了解学生对每一章节知识的掌握程度并根据每个学生的情况制定下一章节的教学目标,为其提供不同的教学内容,从而使教学更适合学生
个性的发展,实现网络分层教学,最终实现教学过程的动态调节。
二 数据预处理
由于人为的原因、设备的故障及数据传输中的错误,导致现实世界的数据含有脏的、不完整的和不一致的数据。数据预处理技术可以检测数据异常,调整数据并归约待分析的数据,从而改进数据的质量,提高其后挖掘过程的精度和性能。
本文数据源于《数据结构》网络教学课程,48节理论课,24节实验,4.5个学分。学生111人,其中06级信息与计算科学专业班合计64人,07级地理信息系统专业一个班计47人。针对1节提出的问题,本文通过对网络教学平台教学信息数据库中的学生信息表、学生学习进度表、测试信息表等进行数据挖掘,说明其在网络教学中的应用。各表结构如表1至表3所示(本文中学生信息经过掩饰处理)。
其中内容是指客观性考题,如单项选择题等。主观性考题,如算法设计之类考题可以以教师组织的BBS讨论为依据评分,在此以有效讨论次数(有实质性的讨论内容)计算。
首先去除数据表中的冗余信息,如学生信息表中除学号信息以外的各分项信息,每一章节学习进度表中的节、日期信息,每章测试信息表中的题号、内容、答案等信息;对某些汇总数据项进行离散化处理,如将测试信息表中得分汇总后分为(0,59),(60,85),(85,100)等 3个组并概化为不及格,合格和优秀三个层次;学习时间汇总后分为(0,2),(2,4),(4,6),(6,)等 四个组,单位:小时;学习次数汇总后分为(0,3),(3,6),(6,)等 三个组,BBS讨论汇总后分为(0,3),(3,6),(6,)并 概化为积极,参与和不积极三个层次[7];同时下一章节的教学目标制定为三个层次,内容呈现分别表示为A类、B类、C类三个层次的内容,提供给学生学习。然后检查数据的完整性及数据的一致性,对其中的噪音数据进行处理。经过数据预处理工作,得到一张描述学生学习过程信息的数据表格,表4是我们整理出的某一章节的学生学习情况数据。
三 数据挖掘过程
主要是利用关联分析、序列模式分析、分类分析和聚类分析等分析方法对数据库中的潜在规则进行挖掘。针对1节中提出的问题,根据国内外对各类模式挖掘算法的研究[8,9],本文采用FP-Tree关联规则挖掘算法进行关联规则挖掘和用于 分类模型判定树归纳算法进行数据挖掘。
1 关联规则挖掘
关联规则挖掘可以发现大量数据中项集之间有趣的关联或相关联系,通过这种挖掘技术对表4进行挖掘,可以发现学生的学习时间、学习次数及网络课堂讨论和学习效果之间的关系,使教师了解学生的网上学习行为和目标掌握程度,帮助教师调整教学计划,如设计有意义的讨论课题提升学生的学习兴趣,从而间接增加学生的学习时间和学习次数。
首先给出关联规则的形式化描述:设 是m个项的集合,D是数据库事务的集合,每个事务有一个标识符。关联规则就是形如 的蕴含式,其中 ,并且 。规则的支持度记为 ,是事务D中包含的 事务数与所有事务数之比,置信度记为 ,是指包含的 事务数与包含的 事务数之比。
给定事务数据库D挖掘关联规则问题就是产生支持度、置信度分别大于用户给定的最小支持度和最小置信度的关联规则。
表5是使用FP-Tree算法对学生学习情况表进行挖掘得到的一系列关联规则(因篇幅限制,本文仅列出部分内容)。
从上表可以看出,学习时间在6小时以上并且成绩为优秀的同学占全班的20.51%,学习时间6小时以上的同学中有34.78%的学生成绩为优秀。学习时间在2小时以下的并且成绩不及格的同学占全班的7.69%,学习时间2小时以下的同学中有75%的学生成绩不及格。学习时间在6小时以上,学习次数多于6次且成绩为优秀的学生占全班的7.69%,这部分同学中有75%也积极参与BBS讨论,而学习时间少于2小时,次数少于3次,基本不参与讨论的同学,不及格率为100%,这部分同学占全班的7.69%。比例明显偏高,需要调整教学的内容和设计讨论问题以提高学生的兴趣。从表中还可以看出,学习次数多于6次的学生中有92.31%的学生其学习时间一般也会超过6小时,这部分学生占全班的61.54%,通过关联规则的挖掘,可以掌握学生网上学习行为,从而为教师的教学策略调整提供依据,可以更好地进行学生的培养。
2 分类模型挖掘
著名的心理学家、教育学家布卢姆提出的掌握学习理论认为:“只要在提供恰当的材料和进行教学的同时给每个学生提供适度的帮助和充分的时间,几乎所有的学生都能完成学习任务或达到规定的学习目标”。
通过构造判定树可以建立学生分层教学模型,并依据判定树为学生提供不同层次的教学内容而 实现对学生的网络分层教学。分类模型判定树归纳算法主要表述为计算每个属性的信息增益,将具有最高信息增益的属性选作 给定样本集合的测试属性,创建树的结点,并以该属性标记,对属性的每个值创建分支,并据此划分样本。由于样本数据中存在噪声或孤立点,通过树剪枝去除不合理的分支,以提高在未知数据上分类的准确性。据此算法构造的判定树如图1所示。
判定树的第一层条件为每一章节的单元测试成绩,分别表示为优秀、合格和不及格。不及格的同学下一章节进入C类教学目标学习,优秀的同学则进入A类教学目标学习,合格的同学则根据学习的次数决定下一章节的教学目标。学习次数为0~2次的同学进入B类教学目标学习,3~5次的同学则需要根据学习时间判定,根据判定树可知,所有同学进入B类教学目标学习,这和我们日常的判断逻辑相符,因为学习次数较多,学习时间较长,但成绩却是合格的同学很有可能是因为方法不当等原因导致接受知识能力较差,进入A类目标学习显然是不合理的。当学习次数大于6次时,可以根据学生参与BBS讨论的次数决定学生的下一章节的学习目标,讨论次数0~2次的同学其学习目标定为B类,3次以上的同学其学习目标则定为A类,这类学生表现出对知识的渴求,兴趣较浓,理解知识的能力相对较强。
本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文
根据判定树,可以根据学生学习本章节的实际情况对学生学习下一章节内容的效果进行预测,据此对学生进行分类,提供不同的教学内容供其学习,以提高整体教学质量。
参考文献
[1] 汤小文,蔡庆生. 数据挖掘在电信业中的应用[J].计算机工程,2004,30(6):36-37,41.
[2] 杨引霞,谢康林,朱扬勇等.电子商务网站推荐系统中关联规则推荐模型的实现[J].计算机工程, 2004, 30(19):57-59.
[3] 印鉴,陈忆群,张钢.基于数据仓库的联机分析挖掘系统[J].计算机工程,2004,30(19):49-51.
[4] 杨清莲,周庆敏,常志玲.Web挖掘技术及其在网络教学评价中的应用[J].南京工业大学学报(自然科学版),2005, 27(5):100-103.
[5] 刘革平,黄智兴,邱玉辉.基于数据挖掘的远程学习过程评价系统设计与实现[J].电化教育研究,2005,(7):67-69.
[6] 孙莹,程华,万浩.基于数据挖掘的远程学习者网上学习行为研究[J].中国远程教育,2008,(5):44-47.
[7] 龚志武.关于成人学生网上学习行为影响因素的实证研究[J].中国电化教育,2004,(8):32-34.
[8] Sarwar B, Karypis G, Konstan J,et al. Analysis of Recommendation Algorithms for E-commerce [Z]. ACM Conference on Electronic Commerce, 2000.
[9] Tung A K H, Lu Hongjun, Gan Jiawei,et al. Efficient Mining of Interransaction Association Rules [Z]. IEEE Transactions onKnowledge and Data Engineering, 2003, 15(1).
Application of Data Mining in Network Teaching
SUN Yu-rong1LUO Li-yu2HUANG Hui-hua1
(1.College of Science, Central South University of Forestry and Technology, Changsha ,Hunan, 410004, China;2.The Journal Editorial Department, Hunan University of Technology,Zhuzhou, Hunan, 412007,China)
篇4
一、数据挖掘的概念
1.1数据挖掘的定义
数据挖掘(Datamining 简称DM),可以说是数据库中的知识发现,它是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在的,有用的信息和知识的过程。它综合利用了统计学方法,模糊识别技术、人工智能方法,人工神经网络技术等相关技术,并对各行各业的生产数据,管理数据和经营数据进行处理、组织、分析、综合和解释,以期望从这些数据中挖掘并揭示出客观规律,反映内在联系和预测发展趋势的知识,例如医学研究人员希望从已有的成千上万份病历中找出患有某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助。
从数据库中发现知识(KDD)一词首先出现在1989年举行的第一届国际联合人工智能学术会议上,到目前为止,美国人工智能协会主办的KDD国际研讨会已经召开了多次,规模由原来的专题讨论发展到国际学术大会,研究重点也逐渐从发现方法转向应用系统,注意多种发现策略和技术的集成,以及多种学科之间的相互渗透,数据挖掘与知识发现已成为当前国际上的一个研究热点。
1.2 数据挖掘的对象
数据挖掘常见的挖掘对象有:关系(Relational)数据库、事务(Transactional)数据库、面向对象(Objected-Oriented)数据库、主动(Active)数据库、空间(Spatial)数据库、时态(Temporal)数据库、文本(Textual)数据库、多媒体(Multi-Media)数据库、异质(Heterogeneous)数据库以及Web数据库等。
知识发现(KDD)被认为是从数据中发现有用知识的整个过程,数据挖掘只是数据库中知识发现的一个步骤,但又是最重要的一步,它用专门算法从数据中抽取模式,原始数据可以是结构化的,如关系型数据库中的数据,也可以是非结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。
二、数据挖掘的意义
数据挖掘与传统的数据分析(如查询报表,联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识,数据挖掘所得到的信息应具有先未知,有效和应用三个特征。
先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要 发现那些不能靠直觉发现的信息知识,甚至是违背直觉的信息或知识,数据挖掘通过预测未来趋势及行为,做出前摄的,基于知识的决策。
三、数据挖掘的分类:
数据挖掘的任务就是从数据集中发现模式,模式有很多种,按功能分为两大类:(1)描述性挖掘,主要刻画数据库中数据的一般特性;(2)预测性挖掘,主要任务在当前数据上进行推断,以进行预测,在实际应用中,往往根据模式的实际作用及数据挖掘的任务分为以下几类:
(1)关联分析(associationanalysis):关联分析以发现关联规则(association rules)为目标,关联分析的典型例子是购物篮分析,描述顾客的购买行为(哪些商品常在一起购买)。例如“啤酒和尿布的故事”。
(2)分类(classification):首先分析一个训练样本数据集,找到一组能够描述数据集合典型特征的模型(或函数),然后使用这个模型分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一,分类的方法很多,主要有决策树法、贝叶斯法、神经网络法,近邻学习或基于事例的学习等方法。例如,利用教师的相关数据(如职称、学历教龄等)以及学生对教师的教学评估结果构建分类模型(如决策数),可用于预测某一位新教师未来教学评估的结果,相关知识可用于指导学校人事部门的教师引进工作。
(3)聚类分析(clusteringanalysis):聚类分析所分析处理的数据对象事先无确定的类别属性,聚类分析的基本原则是:各积聚类(clusters)内部数据对象间的相似度最大化,各聚类对象间的相似度最小化,按照选定的度量数据对象之间相似度的计算公式,遵循聚类分析的基本原则,将数据对象划分成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,聚类分析主要应用于模式识别,数据分析,图像处理以及市场研究。
(4)序列分析(sequenceanalysis):序列分析是通过分析序列数据库寻找一定的规则和有趣的特征,广泛应用于对时间序列数据的分析,应用领域涉及经济学、生物医学、生态学、大气和海洋等。控制工程及信号处理,例如,web日志中的数据是典型的时间序列数据,它记录了用户与站点的交互信息及时间,对于商业网站而言,基于这些数据的挖掘对于其决策具有实用价值。
(5)孤立点分析:数据库中可能包含这样一些数据对象,它们与数据的一般行为或模型偏离很大,这些对象就是孤立点,大部分数据挖掘方法将孤立点视为噪声或异常而丢弃;而在一些应用中(如信用卡欺诈),罕见的事件可能比正常出现的更有趣,在市场分析中,可用于确定极低或极高收入的客户的消费行为。
四、数据挖掘的处理过程
数据挖掘来源于知识发现(KDD),是数据库发展和人工智能技术相结合的产物,因而数据挖掘包括KDD的全过程,类似于通常的一个开采过程,整个过程分为三个阶段来完成:数据准备阶段、数据挖掘阶段和结果显示阶段。
数据挖掘环境可示意如下图:
图1-1 数据挖掘环境框图
按工作流程包括以下几个步骤:
1、问题定义:对应用领域知识进行充分的理解和分析,明确挖掘对象和目标。
2、数据准备:
(1)搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
(2)数据净化和预处理包括去噪声,填补丢失的域,删除无效数据等。
(3)判断数据挖掘的功能类型,数据挖掘的功能类型分为验证型和发现型。验证型是指由用户首先提出假设;发现型是指用数据挖掘工具从数据中发现用户未知的事实、趋势、分类等。
(4)选择适宜的数据挖掘的算法。根据数据功能的类型和数据的特点选择相应的算法。常用的算法有人工神经元网络、决策树算法、集合论算法和遗传学算法等。
(5)进行数据转换。根据数据挖掘的目标、功能及数据挖掘算法,按指定方法组织数据,根据已了解的知识的出限定变量,转换数据类型并且映射数据到易于找到解的特征空间。
3、数据挖掘。在净化和转换过的数据集上进行数据挖掘。
4、结果的分析和同化。输出挖掘结果对数据挖掘出的结果进行解释和评价,转换成为能够最终被用户理解的知识。综合分析把已得到的知识和已有的知识进行综合,检查和处理它们之间的冲突,通过简明直观的方法把最终结果报告给用户,并且评价整个处理流程的性能。
五、结语
数据挖掘是目前国际上数据库和信息决策领域的前沿研究方向之一,也是当前计算机领域的一大热点,其研究的重点也逐渐从理论转移到了系统应用,随着技术的不断成熟,未来的应用领域也会更加广泛。只有更加深入的研究透了数据挖掘相关的理论,才能使其对未来社会的发展起到更积极的作用。
参考文献:
[1]朱明,数据挖掘[M],中国科学技术大学出版社,2002
[2]乔永生,数据挖掘的探讨[J],科技情报开发与经济,2006.16
[3](加)JiaweiHan, Micheline Kamber 著.范明 孟小峰等译.数据挖掘-概念与技术.北京:机械工业出版社.2001.15
篇5
企业竞争在当前日趋激烈,作为企业竞争制胜先导和基础的竞争情报,正愈来愈受到企业和学术理论界的重视,不少的企业正在或将要建立自己的竞争情报系统。
目前我国最流行的竞争情报系统的定义可以归纳为两种。第一种定义认为竞争情报系统就是计算机系统。王沙骋等指出,企业竞争情报系统是指将反映企业自身、竞争对手和企业外部环境的时间状态和变化的数据、信息及情报进行收集、存储、处理及分析,并以适当的方式给企业有关战略管理人员的计算机应用系统,是基于计算机和网络环境的、由先进的信息技术支持的企业竞争情报辅助分析计算机系统。我国讨论竞争情报涉及计算机网络的专家多数持这种看法,国外也有很多人持这种看法。
第二种定义把竞争情报系统视为人机系统。这种观点是我国竞争情报的先驱包昌火先生提出来的:竞争情报系统是以人的智能为主导、信息网络为手段、增强企业竞争力为目标的人机结合的竞争战略决策支持和咨询系统。按包昌火先生的定义,竞争情报系统核心就是人和计算机。
澳门理工学院社会经济研究所曾忠禄先生分析综合了以上三大类定义的优缺点,他认为,目前竞争情报系统的定义是存在缺陷的,它们都只包括了竞争情报体系的部分内容,缺乏全面性外,它们还有另外一个缺陷,即忽略了竞争情报系统各构成因素之间的相互联系和互相依赖关系。缺乏将各部分联系起来的“关系”,它们就不能成为“系统”。他认为,竞争情报系统是为用户的需要创造情报产品的体系,它由相互联系、相互影响的功能、结构(资源)和方法(流程)组成,各构成部分有机地联系在一起,并随着外部环境的变化而动态发展。这里的用户可以是企业,也可以是政府机构,或自己组织内部的某一部门或上级单位;情报产品既可以是文字的,也可以是图像的、口头的或其他方式的;创造过程既包括信息收集、分析,也包括撰写情报报告等。
2. 十年来我国竞争情报系统研究相关热点及部分成果
随着市场竞争的深入发展和日趋激烈,企业竞争情报系统的理论与实践必将愈来愈受到企业界和学术理论界的高度重视。本文选取了最近十年来刊登在《情报科学》、《情报杂志》、《情报学报》、《图书情报工作》等几本情报学主要核心期刊上关于竞争情报系统的论文,对其进行归纳总结,找出了我国竞争情报系统研究的主要几个热点问题。主要热点包括一下几个方面:
2.1 竞争情报与数据挖掘
简单地讲,数据挖掘是一种利用各种分析工具建构数据分析模型,从而在大型的数据库(或数据仓库)中提取人们感兴趣的知识的过程。这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识一般可以表达为概念、规则、规律、模式等形式。
当前竞争情报系统的情报源越来越多,包括企业内部数据库、数据仓库、外部网络、外部数据库等等。竞争情报系统需要向用户提供面向主题的数据挖掘及深层的数据分析,要实现这些功能,就要将竞争情报系统建立在数据挖掘技术基础上。而数据挖掘对数据要求比较高,因此要在原有竞争情报系统基础上加强对数据的处理,以满足数据挖掘的要求。目前国内在此方面的研究多集中在web数据挖掘在竞争情报系统中的应用,将数据挖掘技术应用到竞争情报系统的构建。并提出了不同的基于Web挖掘技术的企业竞争情报系统结构模型。
蒲群莹在2005年第1期的情报杂志上提出的竞争情报系统模型是建立在大量竞争情报数据基础上的竞争情报系统,包含四个子系统,即竞争情报收集子系统、数据转换子系统、分析子系统、服务子系统(如图1所示)。
图1 基于数据挖掘的竞争情报系统模型
1. 收集子系统。竞争情报收集子系统主要包括各企业信息源以及各种信息收集工具,主要负责收集来自企业内部和外部的信息。
2. 数据转换子系统。数据转换子系统主要功能是为数据挖掘提供符合要求的数据,为下一步数据挖掘提供了良好的环境。
3. 分析子系统。经过转换的数据,送入竞争情报分析子系统中,该子系统主要包括数据分析以及模式发现工具,数据挖掘是其核心技术。
4. 服务子系统。竞争情报服务子系统是为整个竞争情报系统提供一个信息交流和共享的平台,它包括对内和对外两部分。
目前看来,数据挖掘是竞争情报系统处理海量数据唯一可行的技术,迄今为止这项技术并没有发展成熟,将它应用到企业竞争情报系统中还需要经过很长时间的探索,但是探讨将两者相结合的应用模式是非常必要的。
2.2 竞争情报系统与人际网络
竞争情报系统的横向描述为组织网络、信息网络、人际网络三大网络(如图2所示)。美国著名的公关专家李文斯顿给人际网络的定义:建立人际网络是一个互相交换资讯、意见、想法与相互介绍朋友、熟人、资源共享,也互相感激的关系。
图2 竞争情报系统横向描述结构图
在竞争情报系统中建立人际网络的必要性主要表现在:通过人际交流,可以充分获取信息,挖掘正式交流中所不能体现的情感信息,还可以实现隐含知识的转移和传递。人际网络是重要的非公开情报源,是企业获取竞争情报非常重要的途径和工具,而对于它在竞争情报系统中的重要性,竞争情报人员最近才认识到。事实上,人际网络的重要性体现在竞争情报工作的全过程,贯穿于情报收集、分析和服务这个情报循环(Intelligence Cycle)中,尤其突出地反映在情报收集阶段。
随着我国经济社会的发展,企业的竞争将越来越激烈,但是这些企业越来越意识到必须采取竞合策略才能更好地生存和发展,因此人际网络与竞争情报成为我国竞争情报系统研究的热点之一。
2.3 集成竞争情报系统—面向企业信息集成(EII)的CIS
面向EII的集成化CIS以现代信息技术为手段,为部门之间、企业与集成环境内其它供应链节点之间、供应链集成环境之间提供有效的竞争情报服务与集成化的决策支持。同时,根据战略目标和竞争环境的变化对企业资源重新组合集成,突破部门、组织、地域、时间和硬件设备的束缚, 实现以企业战略目标和用户需求为中心的集成与协同,形成敏捷的市场反应能力。与传统CIS相比,面向企业信息集成的CIS具有高度的集成性、敏捷性、实时性、持续性、网络化、虚拟化以及智能化。
面对企业信息集成的发展,搭建集成CIS平台,提供广泛深入的信息服务和决策支持已经成为一种新的发展方向。同时,这种集成化的CIS由于融合了先进的网络信息技术和管理理念,使其为企业部门之间、企业与外部供应链节点之间以及不同供应链集成体系之间的协作提供了集成化、平台化和系统化的信息环境,同时还可以根据企业战略规划和竞争环境的变迁对内外资源进行全面有效的整合处理和集成配置,使CIS配合企业信息集成发展的需求,进行动态决策调整、分布式信息服务和集成化的决策支持的实现成为可能。、
2.4 基于Internet与Intranet的企业竞争情报系统研究
在网络环境下,企业竞争情报系统(ECIS)以内联网(Intranet)为平台,通过互联网(Internet)与外部相连,应用信息技术和现代组织创新理论,建立起以竞争环境、竞争对手和竞争策略信息的获取和分析为主要内容的具有快速反应能力的工作体系。根据网络环境下企业竞争情报的需求特点,ECIS的基本功能应当包括竞争环境监测、市场变化预警、技术动向跟踪、竞争对手分析、竞争策略制订和企业信息安全等六个方面。
根据对国内外企业竞争情报系统运行与服务模式的分析,在网络环境下比较典型的服务模式主要有:竞争信息扫描、战略早期预警、竞争知识库建设、竞争对手分析和竞争策略模拟五种模式。
3. 企业竞争情报系统的发展趋势
从企业战略管理的角度来看,把CIS建设成企业的“中央情报局”,使之成为企业领导集团经营战略和竞争决策的思想库和参谋部,这将是企业CIS的主要目标和未来发展方向。
3.1 网络化方向
从企业竞争情报系统的具体运作角度来说,CIS的网络化趋势体现在系统运行的信息搜集和信息服务两个阶段中:信息搜集的网络化方面,企业可以定制适合自己的自动搜索软件,定期检索与本企业、本行业相关的网上情报源。这样既在一定程度上保证了信息搜集的完备性,又大大减少了信息搜集人员的工作量,使其可以专注于其他信息源的搜集处理,如加强对非公开信息的搜集工作力度。在信息服务的网络化方面,企业决策层应该可以不受时间、地域限制地接受所需的情报服务。未来更理想的服务模式是CIS根据用户的不同,提供特定的推送服务,为不同的决策人员提供不同的定制服务界面;而企业内的其他员工也可根据自己的需要,定制适合自己需要的Intranet服务。
3.2 智能化方向
随着信息技术水平的不断提高,各种新方法、新工具会应用到竞争情报系统中,比如智能化的自动搜集软件就是竞争情报系统智能化的一种表现。另外,系统的智能化分析功能、学习功能和检索功能的加入也都是未来竞争情报系统的重要发展方向。
3.3 决策化方向
竞争情报系统的工作重心将从单纯的、分散的日常性情报工作转向目的性很强的竞争对手跟踪、重大课题深入分析、竞争策略研究等方面,并日益成为企业决策的重要依据。
3.4 集成化方向
企业将在实物资源、财务资源和人力资源三类系统之间实现恰当的集成,这样将会使其能够在组织的协同作用方面以及在与竞争能力相关的产品、服务、市场反应、管理决策等方面都获得显著改善。
篇6
1.1 科学数据开放共享
在科学研究过程中,有不同的利益相关者参与其中。这些利益相关者类别多样,性质各异,共同形成科学研究的生态系统。根据各利益相关者的职能,围绕研究人员,将这一系统进行分类研究,确定出4个利益相关者群体,即资助者、数据管理者、研究机构与出版商作为关键参与者,以促进和实现科学研究数据的开放共享。
在这一系统中,每类利益相关者都有各自不同的职能、驱动力及利益点,但总体利益与动机相同,即促进科学的进步。利益相关者的利益与行为动机与各自职能连接在一起,形成了科学研究系统的边界。该系统本质上受到外部和内部因素的双重影响:外部因素可能表现为政治、社会、经济、科学和文化体系等;内部因素包括政治意愿、经济及学术竞争、技术基础设施、法律、道德等因素。该系统的价值与动机是外部和内部因素共同作用的结果,其中外部因素控制资源输入到该系统中,内部因素控制这些资源的可用性和分配。如图1所示:
在此科学开放系统中,利益相关者群体职能众多并偶有重叠,总体上各利益相关方对研究数据的开放获取的意义已达成共识,但各利益相关方对实现开放研究数据的方式的认识并不一致。本研究主要探讨在推动科学数据开放共享中,出版商数据政策的现状、问题,并构建相应模型,提出相应建议。
1.2 出版商在科学数据开放共享系统中的目标
在促进研究数据开放共享方面,各利益相关方发挥不同的作用。出版商通过期刊向作者提供数据共享政策,在数据开放中发挥着重要作用。研究出版商的数据政策,是因为这是在研究过程中将数据政策与研究人员密切关联起来的点,为研究成果,研究人员有动力、有可能遵守数据政策。同时,研究发现,虽然包括出资者和研究机构都可能有适用于研究人员的政策,但遵守这些政策的研究人员的比例还很低。研究人员没有遵守数据政策的直接动力;此外研究人员在需要进行数据存档时,可能也没有合适的机构知识库可以选择。出版商提出的数据政策,是在研究人员完成研究过程后发表研究成果前,研究人员有可能、有动力遵守出版商的数据政策。
1.2.1 科学数据开放共享的价值
科学的思想与科学的证据互相佐证,研究数据和科学实践之间的联系是不言自明的,因此,推动开放获取研究数据,与促进科学严谨的目标相一致。更大程度地共享与获取数据,能加强科学的基础价值,即允许科学研究有效地自我校正,以便二次分析、检验、质疑或改进原有成果[3]。此外,开放获取政策通过减少重复工作,最大限度地减少研究人员用在搜索信息和数据方面的精力,因而改善了他们的工作条件。
JISC以英国高等教育和研究机构为例,指出研究数据的监护与开放共享具有如下利益[4]: ①研究人员能够更广泛地获得数据,从而促进更多的跨部门的合作,研究人员在行业、政府和非政府组织内有可能获得大量的教育和培训机会。数据的开放共享有助于实现数据使用和重用,降低数据的收集和复制成本,分担数据收集的直接和间接成本(如避免调查疲劳,从而提高响应率等),创造出在数据收集时未曾预想到的新的利用方式,进行数据挖掘等。②在项目申请拨款和评估阶段、出版和研究评估阶段,更容易发现欺诈和抄袭,更容易进行评估和同行审查。因此将有机会创造更加完整和透明的科学记录。③通过将研究人员、知识库、资助者与有价值的资源相链接,从而有更多的机会提高研究的可见度。
科学研究系统中的各个利益相关者群体认识到走向开放数据的利益,认同将数据的开放共享置于战略高度进行考虑。科学表现为知识积累的过程,数据在促进早期工作中起着重要作用。开放获取研究数据,通过避免重复劳动,促进协作,有助于显著加快这一科学过程,从整体上使科学成为更加透明的进程,实现推动公众参与,激励创新和改革公共服务的宗旨[5]。
1.2.2 基本情况
出版商作为利益相关者,越来越关注数据密集型研究,认同开放获取研究数据的意义。很多出版商认同布鲁塞尔宣言,即“所有的研究者应能自由地获取原始研究数据。出版商鼓励公开公布原始研究数据结果,将相关的数据集及子数据集与论文共同提交给期刊,应尽可能让其他研究人员自由获取”[6]。很多出版商的数据政策为强制性政策,要求作者将支持出版物的研究数据存储在经认证的知识库中,实现开放获取。研究表明,如果期刊具有强制性数据政策,并且有可获取数据的声明,那么在线找到该数据的可能性,几乎是没有类似政策的期刊的1 000倍[7]。
尽管目前出版商已开始重视出版物的开放获取,将开放获取作为一种出版的商业模式,不过出版商参与研究数据的出版,特别是开放获取研究数据,目前尚未形成规模。出版商关注研究数据及其开放,重要原因在于数据为出版商的主要产品即出版物增加了价值,数据有助于验证研究成果,从而增强了所发表研究成果的可信性,而可信度对于研究具有重要意义[2]。此外,资助机构的政策要求公开获取研究数据,实质上向出版商施加了压力,出版商需要参与到研究数据开放获取中,帮助作者和研究机构符合出资人的要求。现在,领先发展的出版商开始与其他利益相关方合作,试图挖掘研究数据的潜能,形成以数据为基础的新产品和服务,对研究数据进行同行评议,开展提高数据质量的其他服务。
2 出版商主要数据管理政策
本研究根据STM的年度报告[8],确定出以下出版商为主要分析对象(见表1)。这十大出版商所出版期刊占到2014年所有出版期刊的45.2%,另外本研究将开放获取出版商,科学公共图书馆(PLoS)、生物医学中心(BioMed Central)的数据开放政策考虑在内。
2.1 出版商数据政策现状
2.1.1 将开放获取作为默认情况
出版商将数据的开放获取作为订立政策的基础,如PLOS研究数据开放获取强制性政策[9],指出除了极少数例外情况,支持PLOS出版物的所有研究数据都必须开放获取。作者在向PLOS提交稿件时,要同时提交数据可用性声明,在声明中表明遵守PLOS的政策规定,在手稿成功提交后,数据作为最终手稿的部分内容。PLOS要求作者将数据存储于推荐的经认证的数据中心或知识库。小数据集可与稿件一并上传。PLOS的编辑和投稿指南,向研究人员提供指导,协助研究人员遵守期刊开放数据政策。在限制数据获取的情况下,PLOS有权修正说明,联系作者的机构或资助者,甚至撤销出版。
2.1.2 新的出版形式的出现
出版界越来越关注开放数据,产生了一种新型出版产品,即数据期刊。数据期刊的出现,与数据可以单独紧密相关。数据的单独可以确保数据作为科学记录的基本组成部分,以可理解的形式向科学界提供。数据期刊是同行评议的开放获取平台,用于、分享和传播各学科的数据。发表的数据论文包含数据集的具体相关信息,如收集、处理方式等。发表的数据论文与认可的知识库互相关联,数据论文引用存储于知识库或数据中心中的数据集。正如澳大利亚国家数据服务中心(ANDS)在其数据期刊指南中所指出的,“从根本上说,数据期刊寻求促进科学认证和再利用,提高科学方法和结果的透明度,支持良好的数据管理方法,并为数据集提供一个可访问的、永久的、可解析的路径”。ANDS指出,数据论文的出版过程包括对数据集的同行评议,最大限度地提高了数据再利用的机会,并为研究人员提供了学术认可的可能性[10]。
2.1.3 同行评审
对研究数据与数据出版物开放获取的关注,彰显了研究数据的科学质量及研究数据同行评审的重要意义。在此背景下,一些出版商将同行评议的范围扩大到包括数据在内的同行评审。M. S. Mayernik等2014年进行了有关“数据同行评审”的研究,提出因为出版物或资源类型有所不同,进行同行评审的方式也必须有所变化。研究者对几种类型的评审资源进行了区分,包括在传统科学论文中分析的数据,在传统科学期刊上的数据文章,以及通过数据期刊的开放获取知识库与数据集。M. S. Mayernik等针对数据的同行评审、数据的质量保证过程确定了一些共同因素,包括:可通过数据中心或知识库获取数据集;数据集有足够的信息以备评审;期刊有明确的方针指明审核的要点,指导评审者进行数据审查等[11]。
开放考古学杂志(JOAD[12-13])对所有提交的数据论文采用同行评审程序,评审内容包括论文的内容与存储的数据。论文的内容指与数据集的建立和重用相关的信息,以及对数据集的描述。存储的数据指以可持续性模式提交到存储库的数据,包括其许可方式。
2.1.4 数据引用
除对数据进行同行评审外,出版商还逐步引入数据引用政策,以促进研究数据的标准化使用。研究数据对研究过程具有重要价值与意义,为扩大高质量研究数据的传播,形成数据利用的规范方式,FORCE11[14]制定了数据引用的主要原则。FORCE11的引用原则的前提是数据引用需要实现人类和机器均可读。该数据引用原则可能并不全面,主要目的是鼓励各学科制定体现自身特点的引用方式。
FORCE11原则包括:说明数据引用的重要性;通过数据引用促进学术信用;数据引用要实现机器可操作性,包括全球永久唯一标识符;数据引用要促进对数据本身的获取;数据引用应该具有持久性;便于识别,易于获取,可以验证;具有互操作、灵活性等特点。
2.1.5 内容发现和链接服务
出版商逐渐把发展方向转移到内容发现和链接服务,专注于文本与数据挖掘(TDM)工具,以便能开发内容,进而提供相关服务。出版商越来越关注数据挖掘是研究人员利用大型数据库的内容、数据和出版物的需求的直接结果。一份文本和数据挖掘专家小组的报告指出,TDM是一种重要技术,可用于从指数级增长的数字数据中,分析和提取新的见解和知识[15]。该报告的结论是,因为研究人员的技能和技术不断提升,所研究的数据集的复杂性、多样性及规模不断扩大,因此TDM有可能会更加重要。但对于利用文本与数据挖掘工具是否应有所限制,目前仍有争议。
2.2 期刊数据政策问题
2.2.1 数据格式与文件大小的差异
期刊要包括支持文章结果的所有数据,往往是很难实现的。研究的方法不同,产生的数据也大不相同,数据的格式和文件大小差异巨大。定性研究生成的数据,多以文本形式存在,例如实地观察笔记,或采访或报道的文字记录等。定量研究生成的数据,多以电子表格的形式保存。一项研究可能产生多种类型的数据,而论文可能包括附加文本、数值数据集和数字图像,这些都可能增加论文的大小。因此出版商表现出对集成到每篇论文中的数据集大小的关注。某些出版商开始尝试出版在线期刊文章,以包括多种数据,例如爱思唯尔的有关未来的文章的探索[16]。然而,并不是每一种期刊都有包括各种数据的能力。这就要求期刊的办刊方针应清楚说明,作为论文组成部分的数据,在何种程度上可以包括在论文中。
2.2.2 机构知识库的成本
为解决出版商服务器超载的问题,将期刊文章的重要数据链接到一个特定的机构知识库,可能是一个合理的选择,但这将相关的长期运营成本转嫁到了机构中。但资助者目前的基金中并不包括这部分资金,而机构可能也并不愿意在当前的管理费用中增加这种支出。这就使得在机构知识库中存储科学数据的可持续性有待探讨。
2.2.3 研究人员对数据开放的认识
许多研究人员并不知道相关的知识库,为此期刊数据政策应说明,数据是否应该在认可的知识库中存储,是否要使用永久统一资源定位符(URL),是否要采用某种形式的数据引用。数据的时间也是一个需要关注的问题,研究人员并不关心在出版过程中的什么时候数据可被公开访问,而是关心在研究过程中何时数据应被公开访问。研究论文并不是在研究结果全部产生后才会形成,而是在研究过程中逐步产生的。在的同时,是否适合研究数据取决于多种因素,诸如某些形式的数据有敏感性,要保护受试者等因素。
3 构建期刊研究数据策略模型框架
3.1 出版商期刊政策的基本要求
有效的政策制定过程必然需要将注意力集中于数据共享过程中各利益相关方的意见,而目前的数字基础设施在不断变化,出版商、知识库和系统之间,并没有强有力的措施鼓励共享数据。共同点包括:①出版商共享数据的方式差异很大;②在出版过程中,出版商对所接受的数据类型、数据应存储的地点、应存储的时间等说明,模糊不清;③研究人员普遍赞成共享数据,但研究人员不知道该如何克服共享障碍;④研究人员认为出版商和期刊有关数据格式和存放地点等清晰的政策,将有益于研究;⑤出版商也认为在数据的关联与嵌入方面存在障碍。
科学数据共享的许多问题,能够在出版过程中通过期刊强有力而明确的政策加以解决。因此,本研究的目标是确定能推荐给期刊使用的政策模型。研究收集到的期刊政策信息,对材料进行分析后,归纳出目前主要的政策要求,如表2所示:
3.2 框架模型
基于以上所列出的观察,形成基本的期刊研究数据政策的模型框架。由资助者和研究机构作为一方,与出版商的另一方进行合作,发展数据政策。表3为所构建的期刊研究数据策略模型框架。
3.3 实施方式
3.3.1 逐步制定出版物的支持性数据的强制性开放共享政策
出版商应该支持期刊编辑制定研究数据的强制性政策,从而提高研究过程透明度,扩展研究数据的潜力。数据的编辑政策应解决诸如文档、元数据、数据出版格式、许可、引用等问题。编辑政策要求作者在文章提交过程和同行评议过程中,提交数据的可用性描述。对提交的文章不符合规定的情况,政策应提出对应的措施,如撤销发表的文章。
3.3.2 与认证知识库和数据中心协作,简化数据提交流程
出版商可按照相关标准考查知识库与数据中心的可信度,与符合数据认证标准的数据中心与知识库协作。类似的知识库或数据中心可以是主题明确的学科知识库,也可以是机构知识库或综合知识库。二者的合作应该会产生积极影响,为研究人员和研究机构提供高品质的产品和服务,服务具有可操作性、技术上无缝的特点,从而实现以开放格式传播和保存高质量的学术产品和研究数据。对于没有公认的数据中心或知识库的学科,出版商对研究人员提供指导和帮助,提供适合存储与获取的机构知识库建议,或提供商业数据服务。在这方面,出版商的角色应该是更多地促使学术团体建立资源库评估准则,从而帮助研究人员选择合适的存储库。当学术界建立起知识库的认可标准,出版商就可以通过期刊政策执行这些标准。
3.3.3 数据作为一流学术成果,接受同行评议
出版商的主要职责之一是确保出版物的高质量,而研究数据同行评审制度的建立,有助于提升出版产品的品质。同行评审过程,应详细说明评审的标准,要评估研究数据的技术与质量问题,技术方面如考量数据集的完整性和一致性,收集数据的标准,使用的软件等;研究数据的科学质量则由研究团体通过出版前与出版后的同行评审进行评估。同行评审流程中,出版商也应该探索对评审者的激励方式,包括支付酬金,邀请编写特稿,加入编辑委员会,甚至聘用一些专家进行内容评审。
3.3.4 发展有关研究数据引用的策略
研究数据通过传统的出版过程传播,为实现数据的长期可重用,需建立并使用数据的引用标准。在这方面,出版商应要求出版物及相关的数据可引用,并为数据的引用提供明确指导。在说明数据引用时,出版商可参照一些已有的实践,如Force11[14]的原则,参与DataCite[17],加入到研究界和编辑讨论的过程中。数据引用应包括DOI,以及使用许可信息,如创作共用许可,数据的引用方式最好是机器可操作的,可让用户知道可以如何处理研究数据。
3.3.5 建立许可政策鼓励进行文本数据挖掘
出版商的编辑政策应以清晰的方式,说明研究数据的与获取方式,如默认或建议开放获取等。考虑到文本数据挖掘工具可带来显著经济效益,鼓励出版商调整策略,允许研究人员在研究中使用这种技术。
篇7
摘要:科学研究作为高等学校的主要职能之一,也是评价高校实力的重要指标,日益受到关注。图书馆作为高校的辅助机构,参与了科研工
>> 图书馆的建设在职业教育改革中的作用探讨 浅谈中小学图书馆建设在素质教育中的作用 学生社团建设在图书馆发展中的作用探讨 图书馆在高校建设中的作用 浅谈高校图书馆员科研能力提升的重要性 论高校图书馆在大学生科研素养培养中的作用 浅谈高校图书馆在教学科研中的作用 h指数视角的“211工程”高校图书馆科研能力测度与分析 高校图书馆文献资源建设中读者决策采购的障碍与对策 高校数字图书馆建设中的问题与对策研究 高校区域图书馆建设中存在的问题与对策 浅议高校图书馆科研产出及科研能力 图书馆的期刊管理在高职院校教学与科研中的作用 虚拟化图书馆在高校数字化图书馆建设中的作用 解析高校图书馆知识服务能力的影响因素及提升对策 高校图书馆提升社会大众信息意识的意义与作用分析 浅谈地方文献建设对高校图书馆建设的作用与影响 图书馆文化建设在体育院校图书馆的价值体现 浅谈环境建设在图书馆管理文化中的地位 论环境建设在图书馆管理文化中的地位 常见问题解答 当前所在位置:中国 > 政治 > 图书馆建设在高校科研能力提升中的作用与对策 图书馆建设在高校科研能力提升中的作用与对策 杂志之家、写作服务和杂志订阅支持对公帐户付款!安全又可靠! document.write("作者: 陈雪梅 暨铎")
申明:本网站内容仅用于学术交流,如有侵犯您的权益,请及时告知我们,本站将立即删除有关内容。 摘要:科学研究作为高等学校的主要职能之一,也是评价高校实力的重要指标,日益受到关注。图书馆作为高校的辅助机构,参与了科研工作,但未受到重视。本文就图书资源对科研工作全过程的作用进行了阐述,并提出加强图书馆建设的途径,使图书资源工作成为科研不可或缺的帮手。关键词:高校图书馆;科研能力;对策doi: 10.3969/j.issn.2095-5707.2014.02.013The Role and Strategies of Library Construction in Improving Scientific Research Ability in UniversitiesChen Xuemei, Ji Duo(Hunan University of Traditional Chinese Medicine, Changsha Hunan 410007, China)Abstract: Scientific research is one of the main functions of universities, and an important index to evaluate the strength of universities, which has attracted people’s increasing attention. As an auxiliary organization of universities, libraries participated in research work, but the effects were not emphasized. This article described the effects of library resources on the whole process of scientific research, and put forward the ways of strengthening library construction to make the library resources an indispensable assistance for scientific research.Key words: university library; scientific research ability; strategy 科学研究作为高校四大职能之一,是学科国际排名和学校办学实力的重要影响因子,也是高校服务于社会、推进创新性国家建设的重要动力。图书馆作为高校的教学辅助机构,通常被看成简单的借还书和期刊整理部门,处于边缘化、不被重视的尴尬地位,文章就图书馆工作在高校科研工作的作用及对科研能力提升的对策谈谈个人看法。1 科学研究的特点与环节科学研究是指对一些现象或问题经过调查、验证、讨论及思维,然后进行推论、分析和综合,来获得客观事实的过程,也是一种知识创新,是第一生产力和推动经济发展与增长的内在因素,可分为基础研究和应用研究两大类[1]。因此,它具有客观性、创新性、系统性等特点。科学研究是对客观现象和问题进行解决的过程,按其过程可以将它划分为问题的提出、假说的形成、研究的展开和结论的得出几个环节,每一个环节都与利用图书资源分不开。2 图书资源对科研能力提升的作用科研能力是指发现问题、分析问题、解决问题,基金项目:湖南省中医药管理局科研基金重点项目(2012103)第一作者:陈雪梅,助理馆员,研究方向:图书情报整理与分析。E-mail: 或在分析问题时,有所发明、有所创造的能力[2]。该能力的提升与图书资源有密切关系。图书馆作为收集文献、传递知识的场所,是信息的重要集散地。2.1 图书资源为问题的提出提供支持科学研究是一个提出问题、解决问题的过程,而问题的提出和解决均离不开信息支持,众多图书资源是信息的重要来源,其建设直接关乎科研质量的高低和科研水平的强弱,决定科学研究的成败。首先,在科研选题上,研究者在根据学科建设的发展走向和社会需求的同时,如何从众多的现象中提出问题,保证提出的问题符合现实的需要并具有创新性,这就要求我们收集和查阅大量文献,从不同角度对其进行深入分析和研究,通过演绎、归纳与推理找到尚待解决的关键问题,形成假说。2.2 图书资源为问题的解决提供支持假说的形成只是科学研究的起始,如何论证假说的成立是科研过程的主要环节。由于科学研究是客观的,是综合运用现有的研究手段在已知理论指导下,对假说进行论证。所涉及的研究对象(如模型选择与制作)、研究方法(如仪器操作、试剂的配置)、观察指标的选定与标准等均需查阅文献,如拟订实验方案时,通常要在综合现有文献方法的基础上,结合研究者现有条件及研究基础,提出切实可行的方案。2.3 图书资源为结论的评判提供支持通过研究得出的结论是否严谨,创新性如何,是否具有实际应用或理论指导价值,是否有深入研究的价值,同样均需研究者通过调研综合评判。3 如何加强图书馆建设3.1 强化信息化建设随着信息化时代的到来,知识爆炸式增长,获取知识的传统方式已不能满足要求。计算机技术的普及和发展、云技术的出现可以满足知识更新的需求。以网络通讯技术和信息储存技术为载体的数字图书馆迅猛发展,数字图书资源具有信息存储数字化、表现形式虚拟化、传播网络化、存储海量化和检索途径丰富、复本量无限、性价比高等特点[3],越来越受到读者,特别是广大科技工作者的喜爱。高校应适用时代变化,加大资金投入,优化硬件配置,选择先进的、符合学校要求的技术,如框架描述性RDF技术,将自有馆藏图书目录数字化,与市场化的数字化资源整合建立虚拟图书馆,在此基础上通过与电讯企业联合,以无线通信技术为支撑,建立学校图书馆移动服务平台,开发掌上图书馆,通过手机、平板电脑等手持移动终端设备登录,进行馆藏搜索和数字阅读服务。3.2 创新图书资源服务方式互联网时代信息资源的海量增长给科研工作者提出了更高要求,如何从众多信息中获取有价值的信息,对科研课题立项申请、科研工作的开展有着重要意义。而科研工作者由于岗位性质决定其时间和精力有限,无法有效对选题的先进性和准确性进行把握。图书馆应转变借还书被动服务理念,全方位主动服务,如标书撰写时,可充分利用CNKI、Pubmed、CMCC光盘数据库等检索查新,对选题的新颖性做出评价。在研究过程中,如何避免抄袭和剽窃也是科研工作者要把握的重点,图书馆也可对上述资源以及研究生毕业论文库进行服务。在后,为评价研究工作的效能及研究成果的影响力,可以为科研工作者提供论文引文分析。总之,图书馆可以为科研人员提供立题-结题全程服务,提高单位科研能力。烟台毓璜顶医院研究证实了该院图书馆学科信息共享建设大大提高了医院科研产出[4]。3.3 优化图书资源配置传统图书资源和数字资源是新时期图书资源的两大组成部分,传统图书资源是构成图书馆的实体,实体图书馆是虚拟图书馆的基础。如何从繁杂的历史借阅数据中获取潜在有价值的信息,将有限的经费和场地利用好,购置读者受欢迎的书籍,对图书馆品牌建设有重要意义。数据挖掘为此提供了技术保证。数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种全新的信息技术,它是从大量的、不完全的、随机的实际应用数据中提取隐含在其中的但不为人们所知、且又有潜在价值的信息和知识,如趋势、特征以及相关的过程等[5]。通过数据挖掘技术对借还记录、借出次数等进行分析,了解科研人员兴趣、学科关联等隐藏信息,决定图书的科学排架、合理摆放以及图书采购倾向,从而提高图书借阅效率和资金使用率,同时也可减轻工作人员的劳动量。3.4 提高人员综合素质新时期下,图书馆职能的变化对高校图书馆工作人员要求越来越高。除爱岗敬业、热情周到、服务至上的基本素养外,还需具备如下能力:①信息资源收集和整理能力。能通过传统的文献处理手段和计算机技术对纸质资料和数字信息进行收集挖掘、分门别类加以整理,进而建立数据库。②信息分析和科研能力。图书工作参与了科研工作的全过程,图书工作者应具有信息分析和图书科研能力,能为科研人员提供高质量的信息支撑和决策依据,能从繁多的信息资源中去伪存真、理顺头绪,在一定范围内对相关研究工作进行总结与预判。③信息技术应用技能。资源数据库建立、信息查询与、图书馆业务自动化和数字图书馆日常管理等均与信息应用技术密不可分,图书馆工作人员只有掌握了必要的计算机技术、多媒体操作、数据挖掘等技术才能提高优质高水平高效的服务。有为才能有位,尽管目前图书馆工作在高校没有被足够重视,但只要图书工作者积极参与教学研究工作,加强图书工作科学研究,尤其是探索新形势下如何拓展图书工作服务内容,探究其对教学科研的影响途径,可以预计,图书馆将在高校扮演着越来越重要的角色。参考文献[1]钱志明,陈敬良.我国科研支出的问题及政策选择[J].商场现代化,2007(14):359.[2]王缙.文献信息与科技创新:论文献信息工作在科技创新中的作用[J].西南民族大学学报(人文社科版),2004, 25(12):520-521.[3]路长兰.略论图书馆电子图书资源建设[J].山东广播电视大学学报,2011(3):63-64,70.[4]崔春玲,王丽丽,刘培波.图书馆学科IC实践对医院科研产出的影响[J].中国医院,2012,16(11):78-80.[5]李爱玲.数据挖掘为图书管理提供决策支持[J].中国管理信息化,2012,15(9):113-114.(收稿日期:2013-10-30,编辑:李琳)
篇8
1绪论
1.1 选题背景
由于各方面的因素,每年到了毕业的前夕,仍有相当比例的学生不能完成基本的学分绩点,从而不能正常地毕业。学校为了使这些学生能够顺利地毕业,采取了“清考”等措施,但这些措施是被动的,带有较大的负面影响,并且也增加了教学成本。
为了解决这一问题,学校提出了学业预警系统,但目前的学业预警系统仅仅提供了学生的成绩,而没有有效地信息技术支持,需要人工来查找和发现学分绩点过低的学生,使得这种预警系统的效率不高,达不到学校的预期目的,仍不能有效地消除“清考”现象。
1.2 本课题研究的主要内容
本文是以学分制下学生培养方案和学生成绩数据库为支撑,依托数据挖掘技术的有关方法和实施工具,自动搜索数据库,并根据关联规则对学生的课程学习进行预测,从而更加智能的对学生的学业进行深入的研究,并根据专家系统对每个学生的相关信息进行分析给出相关的建议。
1.3 文章结构
第一章讨论选题背景和主要研究工作及全文结构。
第二章是系统需求分析,提出系统要实现的功能。
第三章主要介绍学业预警系统的总体设计思路、系统的框架结构等。
第四章对系统实现过程中用到的系统软件产品的选择做了简要说明。
第五章为结束语,总结论文所开展的工作和下一步工作设想。
2系统需求分析
2.1 系统总体目标
学业预警系统的总体目标:本系统能够自动录入学生学业信息,并根据学生已修课程给出相关课程的预测成绩,并能自动计算绩点与平均分,如发现可疑学生数据(绩点或平均分不够)可以对学生发出预警,并且向院系工作人员及辅导员发送预警信息,督促学生学习,达到使学生能够顺利里毕业的目的。
2.2 系统可行性分析
2.2.1 技术可行性
学业预警系统所用的数据挖掘技术能够自动录入及查询信息,能够节约人力和物力,并且此技术已相当成熟,有专门的开发平台作支撑。
2.2.2 经济可行性
现今,计算机的价格已经十分低廉,性能却有着长足的进步,它已经被应用于许多领域。所以,系统所需的开发费用并不是很昂贵,然而这套系统的成功投入使用可以节约大量人力,提高信息管理的质量,也方便学校的管理。
2.3 系统需求
2.3.1 功能划分
录入信息:录入本院学生学业信息及专业培养方案。
学业信息查看:学院登录系统查看学生的相关学业信息及预警信息。
个人预警信息查询:学生登陆系统查看自己的预警信息。
预测成绩查询:学生登陆系统查看系统对自己的学业做出的预测。
用户权限管理:系统为学生及院系工作人员设置不同的权限。
成绩管理:后台操作人员对学生的成绩进行管理。
2.3.2 功能描述
图12.4 性能需求
2.4.1 数据精确度
要按照严格的数据格式输入,否则系统不给予响应进行处理。
系统管理员具有数据修改权限,其他用户在系统开放时间过后无权进入系统。
2.4.2 时间特性
一般操作的响应时间应在1~2秒内,对软磁盘和打印机的操作也应在可接受的时间内完成。
3 系统设计
3.1 系统设计的原则和目标
适应目前及今后一段时期信息化管理的要求,系统化、结构化、模块化,保证整个系统的完整性、一致性,可适时更新升级,以满足需求变化的需要。
(1)符合人们的思维习惯。
(2)便于各种事物的安排处理。
(3)易于扩展。
3.2 系统架构设计
通过需求分析学业预警系统采用B/S结构。本系统在构架上采用分层的体系结构,将软件分为三个层次,表现层(Presentation)从用户收集信息,将用户信息传送给业务服务层;Web层用来响应浏览器客户发来的请求,并调用业务层组件,将业务层组件返回的结果发送给浏览器客户;数据层(Data)提供接口进行永久数据的存储。
3.3 数据库设计
根据学业预警系统需求分析,设计对应的数据表:
(1)学生信息表:存放与学生信息相关的信息数据。
(2)专业培养方案表:存放与专业培养方向相关的信息数据。
(3)学生学业表:存放学生的详细学业信息数据。
(4)院系信息表:存放有关学生所属院系的基础信息数据。
(5)管理员信息表:存放管理员的相关信息数据。
3.4 小结
本章首先提出了系统总体设计时遵循的设计思想即符合人们的思维习惯、便于事务的安排、易于扩展、便于人工干预,并按照上述设计思想,在确定了学业预警系统功能的结构基础上,对与系统相关的数据库表做了介绍。共设计了5个数据库基本表,各表之间通过外键连接。
4 系统实现
前面我们阐述了学业预警功能的需求,这里我们选取几个相关功能对管理功能的实现进行详细描述。
4.1 开发平台的搭建
CPU:Intel PentiumD 925
内存:DDR 400 1G
操作系统:Microsoft Windows Server 2003
开发工具: Visual Studio 2010
数据库:SQL Server 2000
4.2 用户权限设计
4.2.1 基于角色的访问控制策略
安全访问控制策略占据着至关重要的作用。为了保证资源的安全,系统一要确认使用者的身份是否合法:二要判定该使用者是否有权使用或更改某一项信息资源。基于角色的访问控制策略简单来说就是在用户(user)和访问许可权限(permission)之间引入角色的(role)的概念,把用户和权限通过角色联系起来,用户被赋予某种角色,也就拥有相应的权限。
4.2.2 身份验证
本系统中用户身份信息是由以下字段组成:用户登录账号、密码,这些字段在数据库中作为一个数据表,用户每次登录时,需输入登录账号和密码,采用表单提交用户输入的账号和密码,并通过数据库访问该数据表,进行身份标识与鉴别,并利用数据验证控件进行验证。
4.2.3 授权
授权是指准许或拒绝特定用户访问资源的过程。在该体系结构中,授权主要包括两种方式:“模块访问安全性”和“模块功能操作安全性”,且这种两种方式都是基于用户所隶属的角色来实现的。
5 结束语
本文对学业预警系统的总体规划、需求分析、系统设计等方面进行了详细研究。通过研究,加深了对各种开发模式的了解,初步了解了实现三层客户机/服务器模式的系统开发技术。
参考文献
[1]陈晓红.管理信息系统教程[M].北京:清华大学出版社,2003.
[2]任泰明.基于B/S结构的软件开发技术[M].西安:西安电子科技大学出版社,2006.
篇9
引言
2011年以来,在美国顶尖大学中迅速发展起来并迅速影响世界的MOOC(大规模开放在线课程)模式无疑给“在线学习”这一学习形式树立了成功应用的典范,该模式证明了只有当大学的课程、课堂教学、学生学习进程、学生体验、师生互动过程等被完整、系统地在线实现…,特别是当辅导教师的存在以及相关系统指导活动实现时,在线学习才是有效的。这从一个侧面说明,在线学习并不是纯粹的学生自主学习,还需要充分发挥辅导教师的主导作用。
在线学习模式下,师生活动在时空上相对分离,尽管有同步教学活动发生,但更多时候是异步教学活动,因为异步教学更有助于满足学习者的个性化学习需要。不同于课堂面授教学,辅导教师难以把握一门在线课程学习者学习开展情况的全貌。但是,通过在线学习平台对学习过程的记录,辅导教师了解课程的教学过程是可能的,而且基于学习过程记录开展在线教学的反思以不断改进在线教学这一做法也是必要的。一文献探讨
“教学反思”,顾名思义,反思对象就是教学过程,反思的基础是对教学过程的忠实记录。波斯纳(Poser)将教师的成长发展与其对自己经验的反思结合起来,提出了一个教师成长的公式:经验+反思=成长。由此可见反思对教师成长以及专业发展的重要性。
教学反思的方法是多样的。王映学、赵兴奎指出教学反思的途径主要有录像反思、日记反思、从学习者角度反思、与同事及专家的交流中反思以及通过向学生征询意见反思。张大均将教师成长的途径从观摩教学、微格教学、教学决策训练和教学反思几个方面来说明。俞国良等则将教师的反思训练列为录像反思法、对话反思法和教学反思法。从上述方法中可以看到,教学反思的基础是对教学过程的忠实记录。在“日记反思法”中,第一步就是对教学中包含问题的教学事件进行详细、忠实的描述。在“从学习者角度反思”中,第一步就是“简要记下学习发生的时间、场合、涉及的学习内容和培训(讲授或主持)人员”。在微格教学法中,则通过录像设备记录教学全过程。
在信息化网络时代,教师可以利用现代教育技术手段来实现教学过程的忠实记录,进行有效的教学反思,从而更好地促进自身的专业发展。各种新的网络技术工具给我们的生活带来了新的便利,同时也为教师提供了新的教学反思工具。近年来兴起的学习分析技术可以成为教师开展在线教学反思的有力工具。学习分析技术是对学生生成的海量数据进行解释和分析,以评估学生的学术进展,预测未来的表现,并发现潜在的问题。对教师而言,学习分析技术可用来开展更为深入的教学分析,以便教师在数据分析的基础上为学生提供更有针对性的教学干预。在线学习中,在线学习平台详细记录了师生行为,犹如课堂教学录像。借助学习分析技术,分析师生行为记录数据,可以再现在线学习过程,使教师能够把握在线教学过程全貌,并了解每个教学环节、重要教学活动以及每个学生的种种细节,使原本模糊的印象数字化、清晰化,辅助教师反思其在教学设计、资源制作、学习引导、学习评价等方面的可取之处与不足之处。
因此,本文选取基于Moodle平台的在线课程为样本,应用学习分析技术,具体包括话语分析、社会网络分析等分析技术,统计分析与可视化、聚类、预测、关系挖掘、文本挖掘等数据挖掘方法,以及SSAS、SPSS、ucrNET、EXCEL、ICTCLAS中文分词系统等工具,从一位辅导教师的视角,开展基于学习过程记录的在线教学反思研究,探索一种全新的教学反思形式。
二 研究样本
本文选取国家开放大学主办的网络教育从业人员培训班为研究对象。该培训班依托Moodle平台开设(网址:http://),有“学生支持服务”、“在线学习辅导”和“在线课程设计”三门课,每门课的培训时间为6周,学生通过Moodle平台开展在线学习,辅导教师提供全程的在线辅导。本文具体选择“在线学习辅导”课程第五期培训班作为研究样本。
三 数据分析与培训反思
1 重温整个教学过程――师生群体平台访问行为分析
通过对平台模块访问、模块访问序列以及师生活动时间分布情况的分析,重新回顾教学过程,并对一些突出的数据表现加以解读,使原本时空分离的师生活动再度整合,还原辅导教师的教学过程与学生学习过程的原貌。
(1)平台模块访问总体情况
表l是该期培训过程中,师生访问Moodle平台各模块的频次统计结果。
从统计结果可知,师生最常访问的模块是“forum”,占总活动频次的近50%,说明课堂讨论是最主要的学习活动,也是这门基于讨论的探究式课程学习的突出特点。其次就是“wiki”、“resource”和“assignment”三类行为。这三类行为的频次和比例较为平均,是位列“Forum”之后的重要学习活动。在讨论的基础上,课程设计中的“wiki”其实是为了给学生协作式小组学习的机会,是除“forum”外学生之间重要的交互空间。“resource”(浏览资源)是学习内容重要的组成部分,在此基础上参加讨论和wiki协作学习,最终的学习成果以“assignment”(小论文、大论文)的形式呈现。这几个模块的频次和比例分配较为合理,较好地还原了教学过程。
(2)平台模块访问序列分析
我们已经了解了不同模块的访问频次,下面我们再来了解一些师生访问平台模块的路径。
这里采用Microsoft顺序分析和聚类分析算法,数据来源则是用户每天浏览课程页面产生的过程数据。笔者选取5个频繁访问模块包括forum、wiki、assignment,resource和user(course除外,因为在该模块主要发生登录行为,并没有实际的学习行为)的数据来分析模块访问序列,得到如图l所示结果。由图l可知,从user、resource、assignment、wiki四个模块跳转到forum的条件概率均比较高(分别为0.40、0.32、0.26、0.16),可见forum是一个活动中心模块,也是一个重要的活动中介模块,诸如resource、assignment、wiki等活动可以从中再次启动。而在由forum跳转到其他模块的情形中,forumresource的转换组合的发生概率是最高的,达到0.06。在发帖参与讨论的过程中,发现问题、深入思考再继续学习相关资源,这符合学习常规,也形成了讨论带动资源的学习两者之间的良性互动,从而实现深度学习和反思。另外,resource模块对其他模块的支撑作用还表现为assignmentresource,这一条件概率达到0.13,即学生在做作业的过程中要求助于资源模块,这也是符合学习常规的。
(3)不同时期各模块访问特点
接下来结合时间维度,了解不同时期平台各模块访问特点,以了解不同时期师生关注重点的变化。计算出本期培训不同周此平台模块访问频次分布情况,并绘制师生在主要学习模块的活动频次占比随时间分布的折线图,得到如图2所示结果。
从图2可以看出,除高频访问模块forum外,在正式学习开始前两周及第1周,学生的访问重点user模块和resource模块反映出学生在熟悉人和内容。这启示我们,在网络课程开始之前,辅导教师可能需要提前两到三周就介入课程的学习,实时跟踪学习进程,为他们提供相应的服务来进行预热,这对于后面课程学习的顺利发展和学生积极性的保持都很有帮助。进入第2周,开始主要的学习活动,主要模块则是wiki以及forum。到第3周,wiki活动达到顶峰一一第3周出现本课程第一次wiki协作式小组学习活动,所以这时达到顶峰是正常的;另外,这些学生从没有接触过基于wiki的小组写作式学习,所以他们有很强的好奇心和强烈的兴趣参与。到第4周,assignment活动达到顶峰。这实际上是学生提交的第3周布置的assignment(小论文),这是本课程第一次提交assignment;课程结束后的三周,assignment模块的活动逐渐增强,伴随着resource模块活动的增强,forum活动相对减弱,进入做作业(撰写大论文)的状态。
2 聚焦重点教学活动一一师生论坛交互分析
师生在论坛的讨论发言是本课程的一项重点教学活动。通过这一活动,相关教学信息得以传递,各种其他教学活动得以依次展开,课程知识也在这里不断呈现,支持服务也在这里相继给出。
(1)师生交互的数量与内容
该课程讨论活动在6个学习单元分散展开,本期培训班发帖数量累计743个,如表2所示。由表2可知,辅导教师的发帖量基本呈缓慢下降的趋势。从该趋势我们可以看到,在第1周“学习指南”和第2周“第一单元:什么是在线辅导?”两周的教学中,由于是在线教学的开始阶段,辅导教师需要更多地引导学生进行讨论,投入相对更多的时间。从第3周开始,数据显示,辅导教师的发帖量开始有所减少,从将近50%的比例下降到40%左右。这是因为,经过前两周的学习,由于辅导教师的有效引导,学生保持了较高的积极性,效果明显。从第3周开始,辅导教师有意减少了发帖的量,注意留给学生更多的时间思考并参与讨论,这时候学生明显上升到了讨论的主角这一角色,这说明辅导教师对于讨论的把握和控制比较成功。
(2)师生交互发帖的内容
作者采用傅骞、魏顺平等研发的术语提取算法从所发帖子中提取了约240个术语,如表3所示。这些术语的出现频次为4909次(其中辅导教师使用976次,约占20%);在481个帖子中出现(其中教师帖为204个),占帖子总数的65%。从另外一个角度说,有1/3左右的帖子没有出现任何术语。由此可见,论坛的主要功能是开展课程知识讨论,次要功能则是激发并维持学生的学习动机,引导、鼓励学生不断参加学习。
在前10位术语中,“辅导”出现了3次,“在线(远程)”出现了4次,这比较好地体现了本课程的特点,即在线学习辅导。而排在前两位的是“辅导教师”和“电大”,这更能说明这次培训的内容和对象的特点。无一例外,本次培训的对象全部来自电大系统,所以他们对本系统是最关注的,另外他们对如何做好“辅导教师”也是最关心的,所以他们选择了这门课。从这些术语可以看出,本期的讨论比较成功,课程的设计也比较合理,能够满足学生的需求。
接着,作者对各单元使用的普通词汇(包括动词和名词等实词,不含虚词,不含术语)使用频次进行统计,以体现辅导教师的语言艺术和辅导特色。其中使用频次排名前十的普通词汇分别是“同学、加油、学生、谢谢、可以、学习、问题、课程、研究、讨论”。“加油”和“谢谢”这两个词的大量使用反映了辅导教师为学生提供的情感支持。辅导教师时时刻刻不忘鼓励、支持任何一位学生的发言和进步,处处对他们的讨论表示感谢,无论发言是否精彩,无论对他们的观点是否赞同,都通过“加油”和“谢谢”表示感谢。
(3)师生交互的动态过程与静态结构
我们从师生交互发帖时间分布以及师生交互网络分析来了解师生交互的动态过程与静态结构。本培训课程设有6个单元外加大论文指导环节(实际上是7个单元),计划教学时间是6周,一个单元用时一周。理想情况下,学生应该在规定的学习时间内完成相应单元的活动,但事实并非如此。以每个单元的“话题讨论”为例,某个单元的话题往往要持续3周才会真正结束。各单元讨论活动随时间分布情况如表4所示。
表4中带*号的数字部分是在单元规定学习时间内的发帖数量,但是每个单元在规定学习时间后,在随后的2至3周还陆续有帖子发出来。于是从第3单元开始,将会有3个单元的活动叠加在一起。出现这种叠加现象,可能较大程度上是由工学矛盾造成的。学生不能及时完成本周的学习活动,所以会往后拖延。其实,从学生的角度是可以理解的,这也要求我们的在线教学要有一定的灵活性。同时,也恰恰是在第3周开始出现第一个assgignment(小论文),学生的负担开始加重。正是当“新债旧债”交织在一起的时候,出现了连锁式叠加的现象。当然,这种现象也会无形中增加辅导教师的负担。
根据辅导教师和学生发帖、回帖的关系,借助UCINET社会网络分析工具,可绘制师生交互网络图,如图3所示。从图3可以看出,所有24个成员(包括辅导教师,如图中编号为68的正方形节点)均在一个网络中,不存在孤立的成员。
篇10
Abstract: The factors influencing readers' borrowing amount are analyzed and different readers' borrowing demand are determined. The differential borrowing authority and service are customized. A decision tree classification model of reader borrowing frequency is built with C5.0 in mining tool of SPSS Clementine. The decision tree classifies readers into three groups: activing readers, common readers and silent readers. The mined data come from reader borrowing records of the library of university of international relations. The results show readers' identity, major, grade and gender have an important effect on borrowing amount. The borrowing demand of junior students is great, while that of senior students is small. The library readers may be classified by refering to decision tree classification to provide theoretical evident for adjusting borrowing authority.
Key words: decision tree; classification; library; Clementine; borrowing authority
0 引言
数据挖掘能从大量数据中发现有用的知识,目前己成功应用于各个领域。图书馆系统积累了大量读者数据,研究如何将数据挖掘有效地用于图书馆[1-4],变数据为知识,从而更好地为读者服务,是数据挖掘和图书馆工作者的共同责任。
决策树分类是数据挖掘中的一种重要方法,该方法通过对已有数据的学习,识别影响对象分类的若干因素,构建一个决策树分类模型,对对象进行分类。文献[5-6]为决策树在图书馆读者借阅数据中的应用实例,其中文献[5]利用C4.5算法,对306条读者借阅记录进行了分类建模,利用学历、专业和年级三个属性,构建借阅次数(高/中/低)分级模型,得出的结论为:学历是第一决定因素,其次是专业和年级,研究生和大四学生借阅量低等。笔者认为文献[5]挖掘的数据量过小,不具有足够的说服力,且借阅次数分级采取主观划分的方法,缺乏依据。文献[6]利用ID3算法,对1969条研究生的借阅记录进行了分类建模,利用读者是否为新生、是否为工程类学生、性别和距离图书馆的远近等属性,构建决策树模型,得出的结论为:读者是否为新生为第一决定因素,其次为是否工程类、距离远近和性别,一年级新生离图书馆近的、高年级工科学生为活跃读者等。笔者认为文献[6]的数据只覆盖研究生读者,样本不全,且模型仅从训练数据构建,没有测试数据测试,使模型的普适性受到怀疑。另外,文献[5-6]没有对具体所用挖掘工具的介绍。
针对上述研究背景,本文使用SPSS Clementine软件,采用基于C5.0的决策树分类算法,对国关图书馆的4366条读者借阅记录进行建模。建模过程综合考虑读者身份、专业、年级、性别、民族和索书号等因素,构建读者借阅频度决策树分类模型,分析影响读者借阅量的主要因素,给出针对不同读者群的借阅权限分配和服务建议。作为数据挖掘在图书馆的进一步应用探索,本文一方面可为国际关系学院图书馆开展实际业务工作提供帮助;另一方面可为其他高校图书馆开展挖掘实践,提供方法和过程指导。
1 需求分析及技术思路
1.1 需求分析
国际关系学院图书馆藏书37万余册,服务对象为全校师生员工、家属、成人教育学员、国际大学预科项目PCP学员(Pre-College Program)等。服务的部门涵盖法律系、公共管理系(简称公管)、国际经济系(简称国经)、国际政治系(简称国政)、日语法语系(简称日法)、文化与传播系(简称文传)、信息科技系(简称信科)、英语系共八个系。
长期以来,国关图书馆对于读者权限的设定按本科生、研究生和教工划分,见表1。这种划分一是没有结合读者的实际借阅需求,可能造成借阅需求量大的读者权限不足,借阅需求量小的读者权限过剩;二是划分不够细化,没有考虑到读者年级、专业、性别、成绩等因素对借阅量的影响。依据读者的现实个性化需求来确定借阅权限,已成为目前高校图书馆借阅权限改革的方向[7],问题在于:影响用户借阅量的因素有哪些,哪些是主要因素,如何确定这些因素,如何根据这些因素定制差异化权限和服务。本文针对这些问题展开讨论。
1.2 技术思路
本文收集国关图书馆的借阅数据,通过对历史数据的挖掘和分析找出影响读者借阅需求的若干因素,依靠这些因素进行借阅权限细分。具体地,本文借助于SPSS Clementine工具中的决策树挖掘方法对数据进行分析,借助于挖掘得到的决策树识别影响读者借阅量的主要因素,对借阅量按借阅频度进行分级,并构建一个判定用户借阅频度的决策树分类模型,然后基于决策树分类模型,给出针对国关图书馆读者的借阅权限建议。具体技术思路如图1所示。
2 具体的实现方案
2.1 数据源
数据源于国关图书馆金盘系统Oracle数据库,主要涉及原始数据库三个表:、、。其中流通日志表记录读者每次到馆的一项事务。笔者利用这三张表进行连接,从流通日志表抽取2009-2010完整一学年的数据,抽取后的数据存储在Excel表中,命名为 (格式见表2),该表共包含记录109609条,字段8个。其中操作类型为事务类型,如J:借书/H:还书/S:赔书等;读者级别为读者身份,如本科生、研究生、信科教职工等;源单位具体到班级,如:信科0601/国经0702/国政研二等。
2.2 数据预处理
⑴ 数据筛选
取出流通事务记录表中操作类型为“J”(借书)的全部记录。
⑵ 分组计数
取出的记录集按读者条码分组,统计每个读者出现的次数,将此数值记为读者在一学年中的“借书数”。将此属性添加到中具有相同读者条码的记录中。未在流通事务记录表中出现的读者条码的借书数记为0。
⑶ 空缺值的处理
一些记录在“单位”字段上取值为空,用“资料不全”填充空缺值。
⑷ “借书数”区间化
对“借书数”这一数值属性,在建模前对其区间化,把它划分为几个等级来描述读者的借阅频度,并让其作为输出属性,为读者建立分类决策树。该字段原先的数值分布如图2所示。在4366个读者中,一年中读者借书数最多的为174本,平均约12本,最少的为0本(约占50%,即一般读者该年没有借过书)。借过书的读者按照其累计借书量的增加,人数基本呈递减模式。
对“借书数”区间化时,先将没借过书的读者单分一个区间,即借书数等于0,记为“Null”。其余读者尽量按照等频,即相等人数的原则,分为高(high)、低(Low)两个区间,经过统计分析,发现“17”为较好的分界点,区间划分规则为:0
为记录区间化后的借阅频度,为读者库表添加列“借阅频度”,来储存每位读者的年借阅量,处理后的借阅频度属性不同区间的样本数量分布为:
Null:2187;Low:1103;High:1076;总计:4366。
⑸ 其他字段的概化
“读者级别”字段中,教职人员具体到各系和各行政部门,将该字段统一归为“教职工”。“源单位”字段中,学生的单位具体到班级,将其概化到年级。将“索书号”字段概化为索书号头一位。
将预处理后的数据导入到Microsoft Access数据库中,表名命名为,它共包含国关4366名读者09-10学年的借书统计数据,见表3。
2.3 模型构建
利用数据挖掘工具SPSS Clementine(版本11.1)中的C5.0建模节点构建决策树模型。将预处理后的Access数据库表文件作为数据源节点,先后连接工具中的“选择节点”、“抽样节点”和“C5.0节点”,形成如图3所示的读者借阅频度挖掘训练流程图。
将得到的分类模型加入到流程取代“借阅频度类别”建模节点,链接相关输出节点,检验训练样本的自检正确率。之后再用原样本剩下的30%做测试,具体流程如图7所示。其中测试路径抽样节点的配置跟图6基本相同,除了将单选按钮“包含”改为“丢弃。
执行图7流程,得到模型测试结果,其中训练样本上的测试正确率为69.1%,测试样本上的正确率为67.2%。
模型分类结果与测试样本的对比矩阵见表4。该矩阵记录了得到的决策树模型对不同属性取值的分类结果和所占总样本的比例等信息。例如表4,对于测试样本中原来标注为“High”的记录,决策树准确地将其中的203条记录归类为“High”,占所有标为“High”的样本数的60.237%,占总样本数的16.009%。在所有被决策树归类为“High”的记录中,正确归类的这432条占其中的59.882%。
2.4 模型优化
在创建决策树过程中,训练样本可能存在噪声和离群点,形成异常分支,异常分枝在训练模型中表现好,但会对预测带来不良影响。因此通常需对决策树剪枝,使树的复杂度降低,更易理解,预测分类时更快更好。
在SPSS Clementine中,C5.0模型通过“修剪严重性”指标控制对决策树的修剪程度,取值为0到100,该指标值越小剪枝越少;值越大剪枝越多。为保证模型精度,并使构建的决策树简单。笔者对“修剪严重性”指标进行了不同设置和反复测试,测试结果见表5。
从表5看出,当“修剪严重性”在50-85间变化时,测试样本准确率和训练样本自检率并没有出现较大变化,而树的复杂度降低了,深度从3变为2。为了在不增加决策树深度的情况下保留较完整的决策树信息,我们将“修剪严重性”值设为50,此时树的深度为2。
最终生成的国关读者借阅频度决策树分类模型如图8所示。
集合A={法律(大三,研一/研二),公管大三,国经(研一/研二),国政(大二/大三,研一/研二),日法(研一/研二),文传(大一/大二/大三,研一/研二),信科(大一/大二/大三,研一/研二),英语(大一/大三/大四,研一/研二),应用化学研一}
集合B={法律(大一/大二/大四),公管(大一/大四),国经(大一/大三/大四),国政(大一/大四),日法(大二/大三/大四),信科大四,英语大二,应用化学研二,家属,成人教育}
集合C={公管大二,信科研三,应用化学研三,教职工,外教,PCP}
需说明的是,公管系在2009年至2010学年还没有研究生,故相应信息未出现在决策树分支集合中。除信科系外,其他系的研究生学制均为两年,没有研三。
2.5 模型分析和建议
模型的准确度还不够高,这可能是由于源数据缺乏更多与“借阅频度”相关的属性,可继续收集一些有关读者学习成绩(如GPA、年级排名)、距离图书馆远近等信息来为建模服务。
从图8中看出,所在单位(包括身份、专业和年级)对其借阅量影响较大,其次是“性别”。具体如下。
⑴ 借阅量高的读者(活跃读者群):文传大四女生,集合A(特别是大三的学生)。约占总人数的25%。
⑵ 借阅量低的读者(一般读者群):国经大二女生,日法大一女生,集合B;约占总人数的25%。
⑶ 无借阅的读者(沉默读者群):国经大二、日法大一、文传大四的男生,集合C。约占总人数的50%。
按身份分析,大致地,本科生大二、大三的借阅需求较大,大一新生和大四毕业班学生借阅需求较小;研究生文科的借阅需求较大,理科非毕业班的借阅需求大,理科毕业班研三的借阅需求小;教职工借阅需求小。尤其是理科研三学生和教职工在09-10学年的借阅量为0,这可能是由于理科研三写论文所需要的文献大多从电子数据库中获取,而国关教职工每人每年都有充足的购书经费,使得他们更愿意自己购买图书的方式获取资料。
从上述分析结果看出,权限最低的本科生中很多群体借阅量高,而权限最高的教工的借阅量却为0,这跟表1的权限分配相悖,说明了表1权限分配的不合理性。针对国关图书馆读者的借阅权限分配,本文提出以下建议。
建议⑴:按决策树分类模型划分权限。模型中活跃读者群,借阅册数权限设为20;一般读者群,借阅册数权限设为10;沉默读者群,借阅册数权限设为5。权限划分的关键在于模型的构建和基于模型的读者分类,具体数值可根据藏书量、读者人数加以调整。
建议⑵:平均划分权限。按教育部规定,高校图书馆的生均藏书量应达到80-100册,按一个图书馆可经常利用文献量约为馆藏总量的20%计[8],理论上的每生借阅权限应在16-20之间。国关人均藏书量约为85册(37万册/4366人),因此理论上每人借阅权限应为20%×85册=17册,考虑到国关有约50%的人基本不到图书馆借书,理论上的借阅权限还有较大上调空间。保守计算,可将借阅册数权限统一设为17,以最大程度体现“平等服务”和最大限度满足读者借阅量。
建议⑴重视读者需求差异,有助于提高文献利用率和读者需求满足率,但未考虑读者对“平等借阅权”的诉求,然而相对于表1的权限设置更为合理和科学;建议⑵重视读者借阅权的平等。
除借阅权限,图书馆还可针对不同读者群提供针对,比如针对活跃读者群,图书馆可让其参与到图书购买、图书资源评价中,进行新书推荐,提供额外的培训,以提高文献资源利用率和最大限度满足读者需求。
3 结束语
图书馆的数据挖掘对提升图书馆服务质量,开发增值服务具有重要意义。本文从校图书馆的实际需求分析和数据出发,采用SPSS Clementine中的C5.O决策树算法,建立借阅频度决策树分类模型。建模结果显示,决策树模型可按借阅量对读者有效分类,读者身份、专业、年级和性别对借阅量有重要影响,本科大三学生借阅需求较大,大四学生借阅需求小。决策树模型能够帮助图书馆进行读者细分、调整借阅权限和提供差异化服务。
进一步的研究可从两个方面开展,一是收集更多年份、更多属性的数据,提高模型的准确率;二是以分析读者的借阅时长为目标,建立读者借阅时长分类模型,为图书馆针对不同读者群制定不同借阅期限提供帮助。
参考文献:
[1] 顾倩.数据挖掘应用于高校图书馆个性化服务的探讨[J].图书馆杂志,2013.32(8):63-65
[2] 郑斐,郭彦宏,郝俊勤,刘娜.数据挖掘技术如何在图书馆建设中体现价值[J].图书情报工作,2013.S1:263-264,212
[3] 王伟.基于数据挖掘的图书馆用户行为分析与偏好研究[J].情报科学,2012.30(3):391-394,418
[4] 冯研,王馨.国内图书馆数据挖掘技术实践应用进展分析[J].图书馆学研究,2011.20:2-4
[5] 吴修琴.决策树分类技术在图书馆管理中的应用[J].农业图书情报学刊,2007.19(5):24-26,35
篇11
1 常见数据挖掘方法
1.1 贝叶斯网络
贝叶斯网络是通过简明的图形方式结合统计理论来定性表示变量间复杂因果或概率关系的一种数据分析方法,包括网络集和概率集两部分。该方法具强大的执行高效推理任务的功能,能充分利用先验知识,而使其在诊断领域的应用价值极大。在解决中医定量诊断问题上,其体现出的功能主要表现在:揭示众多症症之间以及症与证间的复杂关系,探究证候的主要症状和次要症状,定量确定其诊断价值,这有助于确定证候诊断的标准和规范,而且建立的证候诊断模型以概率形式给出诊断结果,能有效辅助专家作出决策。因此,该方法对促进中医诊断学发展所做的贡献不可忽视。张氏等[1]对255例肺癌患者证候以症状之间的关联性及关联强度为基础,利用贝叶斯网络概括出了肺癌的证候要素,包括病机要素9个、病位要素5个及病机要素之主要症状与次要症状。曲氏等[2]对611例抑郁症患者的中医证候进行了研究,采用贝叶斯网络对抑郁症中医症状进行评定,发现拟定的中医证型包含了抑郁症的核心症状和周边症状的不同组合方式,体现了抑郁症临床多变的证候特点。范氏等[3]对收集到的1512例类风湿关节炎(RA)患者的临床数据采用基于聚类的贝叶斯网络模型,提取出了RA的7项主特征及4型的类特征,为中医辨证分型及RA中医诊断标准提供了临床依据。龚氏等[4]对2501例2型糖尿病的临床数据运用该方法分析,发现空腹血糖异常患者及糖化血红蛋白异常患者均以阴虚热盛多见,而餐后2 h血糖异常患者则以阴虚多见。王氏等[5]应用此方法通过分析474例血瘀证临床诊断数据进行血瘀证定量诊断,发现了血瘀证的7个关键症状,并与此同时建立“是否血瘀证”的分类器模型,经交叉验证发现此分类器诊断准确率达96.6%。郭氏等[6]认为,证候的复杂性表现为证候各因素之间的高维高阶性,他们运用贝叶斯网络技术对肺系疾病证候构成因素之间关联形式进行了研究,发现各因素间的联结形式是线性相关与非线性相关并存的,它们相互交织,形成复杂的网络结构,表现出典型的非线性特征。
1.2 人工神经网络
人工神经网络是在对人脑神经网络结构认识理解的基础上人工构造的新型信息处理系统。目前的神经网络模型有:用于分类、预测和模式识别的前馈式神经网络模型,用于联想记忆和优化计算的反馈式神经网络模型,以及用于聚类的自组织映射方法。其中前馈式神经网络模型是目前应用最广泛的神经网络之一。对于将其应用于中医诊断领域,陈氏[7]认为,中医学辨证施治本质上就是对众多数据信息进行处理并提取规律的过程,而人工神经网络恰恰具备较好获得数据规律的能力。人工神经网络模型的优势主要体现于其黑箱结构,这赋予人工神经网络强大的非线性拟合能力,使其能够任意精度逼近非线性函数。
但不足的是,在中医研究中,人工神经网络不能进行变量筛选,对其得到的结果也只是局部最优而非全局最优。如李氏等[8]对142例脾气虚弱及肺脾气虚证HIV/AIDS患者的主要实验指标、四诊信息的主要症状和舌象运用Clementine中的特征选择节点进行筛选,建立脾气虚弱和肺脾气虚的人工神经网络模型,发现该模型能较好地诊断艾滋病患者脾气虚弱和肺脾气虚证型,其样本模型训练集诊断的正确率和测试集诊断的正确率分别为87.25%和80.00%。傅氏等[9]认为,运用数据驱动模式建立中风人工神经网络模型,将为进行繁杂多变的中风证候的动态研究、掌握证候的动态演变规律及在不同时点进行疗效评价提供一个新的探索方向。许氏等[10]通过对心血管疾病中医临床信息数据库中的临床信息和证候类别之间的关系进行分析,发现人工神经网络尤其是OCON网络对该病常见的中医证型的识别率最高,其中心气虚证和心阳虚证分别高达92.4%、82.9%。有研究运用人工神经网络分析RA、糖尿病肾病(DN),分别建立RA和DN证候的BP网络模型,并采用三倍交叉验证的方法,发现这2种模型平均诊断准确率分别为90.72%、92.21%[11-12]。余氏[13]通过文献资料和临床资料收集选用人工神经网络等方法开展2型糖尿病证候诊断标准模型建立及对比研究,所建模型在临床数据测试样本的正确辨识率为73%。
1.3 粗糙集理论
粗糙集理论主要用于分析研究不完备数据,这是继概率论、模糊集、灰色理论之后又一个刻画不确定、不完备系统的有力数学工具。基于其具有能有效处理各种不确定、不完备信息的强大能力,有研究者认为将其用于分析中医症状-辨证要素间相关性,建立定性定量标准,有很大前景[14]。其最大优点在于不需要问题所需处理数据之外的任何先验信息,能够在保留关键信息的前提下求得知识的最小表达式。因此,将粗糙集理论引入中医,运用到中医诊断上,将可能是实现中医诊断智能化的又一个发展方向。
陈氏等[15]以450例老年人细菌性肺炎患者在就诊过程中的285项指标为研究对象,采用粗糙集方法对已经过初始数据处理的各数据进行挖掘分析,得到7种中老年肺炎的证候诊断标准,为疗效评价指标提供了客观依据。陈氏等[16]从与原发性高血压相关的古今医案中收集237例病案,对其症状和体征进行数据预处理,运用基于粗糙集理论的KDD决策分析系统Rosetta软件约简病证属性,获取到了原发性高血压肝阳上亢证的专家知识,为进一步研究原发性高血压肝阳上亢证奠定基础。刘氏[17]运用粗糙集理论对脾胃系疾病的证候诊断进行相关研究,建立了可进行辨证分型的计算机软件,并通过这一软件量化标准来判断患者所属证候,为治疗脾胃系疾病辨证提供可靠依据。谢氏[18]建立了一个基于粗集理论的中医诊断专家系统模型,以模拟中医专家诊断的过程。秦氏等[19]把粗糙集应用于中医类风湿证候诊断,并在类风湿病的各证候诊断上应用。
1.4 关联分析
在数据挖掘方法中,关联分析常用来挖掘特征之间或者数据之间的相互依赖关系,对给定的事务数据库找出满足最小支持度和最小置信度的关联规则。与其他数据分析方法不同的是,关联规则的引入,可以从大量貌似繁杂症与证的数据中,找到隐形的关联,极大促进中医诊断学的发展;并且其所得结果清晰有用,同时支持间接数据挖掘;可处理变长的数据,为寻找诊断数据中的隐性关联带来了方便,其计算的消耗量也可以预见[20]。
肖氏等[21]设计了一种基于遗传算法的正相关关联规则挖掘算法,发现胃部不适症状与处方、证候重要关联关系。陈氏等[22]通过对400例肝硬变患者进行关联分析,找出符合最小支持度和最小置信度并形成规则的中医证候气滞/气郁证和血瘀证,这表明肝硬变和气滞证、血瘀证之间关联度非常高。钟氏等[20]采用关联规则的分析算法,探求胃炎症状与“中虚气滞”辨证之间的关系,得到在中虚气滞证中,口干欲饮这个症状对辨证的影响最大。
1.5 决策树
决策树算法是一种逼近离散值函数的方法,常用来形成分类器和预测模型,是建立在信息论基础之上对数据进行分类的一种方法。岳氏[23]通过选取300例确诊为小儿肺炎患者的数据为基础,成功构建了基于决策树算法的小儿肺炎指纹辨证分类模型,准确率达84.5%。钟氏等[20]从中医胃炎数据中筛选出“中虚气滞”的病历,通过决策树,以“中虚气滞”为目标属性,根据病历中症状辨证是否与目标属性相同设置“yes”和“no”两值,再通过设置的训练样例运用ID3算法构建决策树,以判断未知中医证型的病例是否归属“中虚气滞”。查氏等[24]将397例已确诊活动期RA患者随机分为中药和西药治疗组,通过对其初诊中西医症状及检查结果采用决策树进行证病信息和疗效的相关关系探索,得出可从证候信息的角度获得药物治疗的最佳适应证,从而实现个体化治疗。徐氏等[25]对406例慢性胃炎病例用bootstrap抽样扩增,采用基于信息熵的决策树c4.5算法建立中医辨证模型,测试集模型分类符合率为81.25%。
1.6 聚类分析
聚类分析的实质就是聚集数据成类,使类间的相似性最小,而尽可能增大类内的相似性。其优点是:作为一种探索性的统计分析方法,聚类分析方法可以在对数据没有先验知识的情况下对数据资料进行分类,根据数据的内在相似或相关程度,可使得类别内数据“差异”尽可能小,类别间“差异”尽可能大,对中医药领域中的症状组合规律、证候规律等方面的研究具有一定的推动作用。但由于中医证候复杂程度较大,聚类分析在解决这些问题时存在的局限性表现在:①多结果,主观性大。此分析方法无法根据数据内部特点自主确定分为几类,需要研究者依据其学科知识和经验来确定到底聚为几类、聚到哪一类为最佳;此外,选择不同的类间距离和变量间距离的定义方法,结果将大有不同,因此,多次尝试、反复分析对于此类分析方法来说是必须的。②单分配,即变量只能被聚到某一类。在研究症状的聚类问题时,中医的一个症状常需要能被聚到不同的类中,但聚类分析只能将一个症状归入某一个类别里面。
李氏等[26]应用系统聚类的方法对276例乙肝后肝硬化的症状、体征进行分析研究,得出乙肝后肝硬化基本中医证候有湿热内蕴证、肝肾阴虚证、肝郁脾虚证、脾虚湿盛证、脾肾阳虚证、血瘀证、气(阳)虚证共7类。卢氏等[27]通过制定“中医证候临床观察表”,对106例儿童中间型β地中海贫血患者进行中医证候调查,采用聚类分析等统计学方法得出广州地区中间型β地中海贫血患儿中医证候分布特点为气血两虚证>肝肾阴虚证>脾肾阳虚证>阴阳两虚证,这为进一步规范化辨证论治提供了一定依据。何氏等[28]采用临床流行病学的方法,对143例冠心病PIC术后患者的症状、体征等临床资料进行了聚类分析,得出冠心病PIC术后患者证候分为气虚痰浊、肾虚血瘀、肝气郁结、脾气亏虚、心气亏虚、气阴亏虚共6类。黄氏等[29]应用变量聚类分析的数理统计方法,对慢性疲劳综合征(CFS)进行了中医辨证分型,并对收集到的237例CFS患者的症状、舌象和脉象等临床资料进行了变量聚类分析,得出变量聚类分析能帮助CFS在中医证候中合理分为精髓空虚、阴液亏虚、脾肾阳虚和肝火亢盛共4型,解释比例为61.68%。
1.7 判别分析
与其他统计学方法不同的是,判别分析的主要目的是建立一个线性组合,使其可用最优化的模型来概括分类之间的差异。该方法常用来根据已知数据的分类情况判断未知待分析数据的归属问题等,在证候的研究方面应用最广。
胡氏等[30]根据所收集的413例亚健康失眠患者的中医证型对证候变量进行逐步判别分析,建立判别函数式,得出亚健康失眠中医证型判别函数与临床诊断吻合良好,逐一回代法判别总一致率达81.1%。夏氏等[31]对77例慢性再生障碍性贫血(CAA)患者进行辨证分型分组,应用逐步判别分析方法建立CAA中医证型判别方程,筛选出了与判别方程最相关的6个免疫学和血常规指标。郦氏等[32]以脑梗死中医证型标准化研究结果为基础,采用逐步判别分析,建立了脑梗死各证型与观察指标间的数学判别方程。赵氏等[33]对收集符合RA诊断标准的患者按照辨证对变量进行逐步判别分析,建立了一个具有较好的判别效果的判别模型。薛氏等[34]选用已进行频数分析的文献207篇进行肝病证候的判别分析,认为肝郁脾虚证辨证标准难以脱离疾病特点。
1.8 支持向量机
支持向量机是基于统计学习和结构风险最小化原则的学习机器,可以通过核函数将低维输入空间的数据特征投射到高维数据控件,并求得最优分类的超平面。该算法的关键思想是利用核函数把一个复杂的分类任务映射,使之转化成一个线性可分问题。在许多实际学习问题中,它允许扩大的空间维数非常大,在某些情况下可能无穷大,能较好地解决小样本、非线性、高维数和局部最小等问题。支持向量机方法较适用于中医诊断数据的现状和对中医临床经验的总结。
徐氏等[35]以中医心系503个样本为例,利用支持向量机进行中医心系证候分类研究,结果表明,该方法在证候分类中能达到较高的准确率。王氏等[36]以名医诊治冠心病典型医案115例建立冠心病名医诊疗数据库,运用支持向量机方法提取到名医诊治冠心病8个主要证候要素并确定其定量诊断,阐释了证候要素应证组合规律。殷氏等[37]对舌诊数据进行主成分提取,分别建立Logistic回归和支持向量机模型,发现在小样本情况下支持向量机模型更优,敏感度达92.8%,特异度达92.3%。杨氏等[38]精选1个家系虚寒证的相关基因信息,选择间接比较实验方案进行基因芯片实验,对5例虚寒证和5例正常人差异表达基因的表达值进行建模,使用支持向量机、K近邻分类法等方法,将家系中其他人样本带入,发现其能够正确判别。在舌象诊断鉴别上,谢氏[39]依据支持向量机理论,以径向基函数作为核函数构造多分类分类器,将舌象的特征参数作为输入样本,对病证进行分类,并以肝病病证分类做了仿真。
1.9 多标记学习方法
与其他分类方法不同的是,多标记学习方法的每个研究对象不再对应于单一的概念标记,而是由单个示例(属性向量)表示并对应于多个概念标记,即一个样本和多个类标相关联。鉴于现实社会涉及到的很多真实对象往往都具多语义、多分类目标性,如疾病的证候、证型,待分类的文档、网页,生物信息学中的基因等,因此,多标记学习方法的成熟对促进这些领域的发展也就显得十分重要。然而该方法存在的一个主要问题是不能充分利用各训练样本所含概念标记之间的相关性,从而有效提高学习系统的泛化能力;此外,由于其存在复杂程度较大,运用该方法进行研究尚存在降维方法和特征选择方法较少的不足。
针对中医临床证候兼夹的多标记特点,研究人员首次将多标记学习算法引入到中医问诊的客观化研究。该研究将多标记学习结合频次分析,应用于冠心病的问诊证候模型建立,有效提高了诊断模型的识别率;在此基础上,还结合中医数据特点,提出了多标记学习算法(REAL),并结合信息增益等特征选择方法,挑选出常见证候的20个最优特征,显著提高了慢性胃炎的证候的识别率[40-41]。邵氏等[42]运用多标记学习结合混合优化的特征选择算法(HOML),用于冠心病中医问诊数据分析,建立了中医冠心病数据模型,并获得了冠心病问诊症状的最优特征子集。
1.10 随机森林
随机森林是决策树算法的一种改进,其综合思想是组合多棵bootstrap样本建立的决策树的预测,通过投票给出有效的错判率估计、分类器强度、相关性和变量的重要性等指标。该方法对每个被分析的数据都给出了重要性的评分,在某种程度上有利于有效的特征变量的挑选,降低数据维度。随机森林作为一种自然的非线性建模工具,具有很高的预测准确率,能很好地容忍异常值和噪声,不易出现过拟合,降低分类错误率;也不会出现在bootstrap样本中的OOB数据,还能为样本提供一个数据内部估计,可用来高效估计组合分类器中的泛化误差,有助于理解分类精度以及如何提高精度。
洪氏等[43]通过引入随机森林方法,对《慢性疲劳(CF)中医临床症状分级量化表》中的95个症状进行数据编码,选取CF常见证候要素的主要症状并衡量症状对各证候要素的贡献程度,得到了CF脾虚证、心虚证、肝郁证以及气虚证4个证候要素的症状集,将各症状集作为模型输入,各模型预测准确率分别为96.13%、94.75%、95.89%、94.26%。邹氏等[44]借用特定脾虚证临床数据集证明基于特征提取的分类集成模型比其他集成方法具更低的错误率,认为特征提取在降低错误率上作出了明显的贡献,但其结果是否适用于其他小样本数据尚未证实。王氏等[45]通过文献调研,推测使用随机森林提取亚健康关键症状或指标可帮助亚健康状态的判断。
2 讨论
中医临床诊断数据存在的一个显著特点是证候夹兼、数据多而繁杂、各数据之间的关系藏而不现。因此,借助现代化的信息技术手段,综合运用数理统计分析方法以进一步挖掘四诊以及证候之间的隐性关联具有重要意义。然而,在数理统计方法研究发展正处于高峰期的信息化时代,如何根据待分析的数据库的特点选择正确恰当的方法是当前数据挖掘首先要考虑的问题。
一个样本量较大的数据库,当需要进行一定的数据分类时,可能有必要对上述方法进行探索。聚类分析可满足对数据进行一定的症状的组合、证候规律的挖掘;若是在已知数据的分类情况下需要对待分析数据进行分类,判别分析恰有这方面的优势;决策树则在实现数据分类挖掘过程中的可视化方面凸显其优势;随机森林可在决策树的基础上进一步提高有效特征变量的提取率,同时还能避免数据预处理过程中的过拟合现象。当然,在临床数据分析过程中也经常出现数据样本量较小、维度较高等现象,支持向量机方法在中医领域的引进则为这些数据的分析带来新的契机。除了对数据进行分类挖掘外,数据之间的关联讨论也是数据分析必不可少的,尤其在中医诊断中探讨各症、证之间的关联领域的应用;在隐性关联分析的众多分析方法中,多标记学习法有效解决了证候夹兼的现象;粗糙集理论有利于建立定量定向标准;人工神经网络在识别证型上主要体现其强大的非线性拟合能力;此外,在探究症与证关系上,贝叶斯网络还是诊断领域的常用之法,该方法还可帮助我们进一步探讨症状集中的主次症。
总之,集各种数据挖掘方法之长于一体来对某一数据库进行挖掘分析将为中医界数据挖掘技术的成熟带来不可预料的进展。目前,大部分数据挖掘方法都只是被单一采用,即使有同时运用多种挖掘方法进行数据分析,也只是对某一数据系统运用多种方法相互比较,所获得的结果效用度较小。多重方法相互交融、相互补充、综合运用于某一数据分析系统中的研究在在中医领域尚不很成熟,或许可以成为数据挖掘在中医药研究中的进一步的模式和规则,为数理统计在中医药知识的创新和发展中开辟一条新的途径。
参考文献:
[1] 张霆,陈波,马胜林,等.基于贝叶斯网络的肺癌证候研究[C]//庆祝浙江省中西医结合学会成立三十周年论文集粹.杭州:浙江省中西医结合学会,2011:50-52.
[2] 曲森,启盛,包祖晓.贝叶斯网络模型在中医证候研究中的应用[C]//世界中联第三届中医、中西医结合老年医学学术大会论文集.北京:世界中医联合会,2010:61-63.
[3] 范建平,李常洪,吴美琴,等.贝叶斯网络在中医诊断中的应用研究[J].管理科学学报,2008,11(6):143-150.
[4] 龚燕冰,倪青,高思华,等.Ⅱ型糖尿病主要理化指标与中医证候相关性的贝叶斯网络分析[J].中华中医药杂志,2010,25(1):3l-33.
[5] 王学伟,瞿海斌,王阶.一种基于数据挖掘的中医定量诊断方法[J].北京中医药大学学报,2005,28(1):4-7.
[6] 郭蕾,王学伟,王永炎,等.论高维高阶与证候的复杂性[J].中华中医药杂志,2006,21(2):76-78.
[7] 陈伟青.浅论人工神经网络在中医学上的应用[J].河南中医学院学报, 2004,19(11):12-13.
[8] 李玉森,施学忠,杨永利,等.人工神经网络在HIV/AIDS患者主要虚证诊断中的应用[J].中华中医药杂志,2012,27(5):1269-1271.
[9] 傅勤慧,裴建,惠建荣,等.中风证候动态研究现状与展望:数据与模型驱动模式的应用[J].中西医结合学报,2011,9(12):1292-1300.
[10] 许朝霞,王忆勤,颜建军,等.基于支持向量机和人工神经网络的心血管疾病中医证候分类识别研究[J].北京中医药大学学报,2011,34(8):539-543.
[11] 白云静,申洪波,孟庆刚.基于共轭梯度下降算法的类风湿性关节炎BP神经网络症候模型研究[J].中国中医药信息杂志,2010,17(3):96-97.
[12] 白云静,申洪波,孟庆刚,等.基于人工神经网络的中医证候非线性建模研究[J].中国中医药信息杂志,2007,14(7):3-4.
[13] 余学庆.基于智能计算的2型糖尿病中医证候诊断方法研究[D].北京:北京中医药大学,2007.
[14] 晏峻峰,朱文锋.粗糙集理论在中医证素辨证研究中的应用[J].中国中医基础医学杂志,2006,12(2):90-93.
[15] 陈楚湘,沈建京,陈冰,等.运用粗糙集理论建立中老年肺炎中医症候诊断标准[C]//第二中国控制会议论文集.上海:中国自动化学会控制理论专业委员会,2010:40-42.
[16] 陈素玲,付爽,高云,等.基于粗糙集理论的原发性高血压肝阳上亢证辨证系统的建立[J].山东中医药大学学报,2010,34(3):201-203.
[17] 刘泉.粗糙集在脾胃系疾病中医辨证中的应用研究[D].武汉:湖北中医学院,2008.
[18] 谢国明.基于粗集理论的中医诊断模型的建立[J].数理医药学杂志, 2005,18(4):302-304.
[19] 秦中广,毛宗源,邓兆智.粗糙集在中医类风湿证候诊断中的应用[J].中国生物医学工程学报,2001,20(4):357-363.
[20] 钟颖,胡雪蕾,陆建峰.基于关联规则和决策树的中医胃炎诊断分析[J].中国中医药信息杂志,2008,15(8):97-99.
[21] 肖光磊,陆建峰,李文林,等.正相关关联规则及其在中医药中的应用[J].计算机工程与应用,2010,46(6):227-233.
[22] 陈明,杨慧芳,余蕾.基于关联规则的肝硬变辨证数据挖掘研究[J].河南中医杂志,2009,29(3):258-260.
[23] 岳路.决策树算法在小儿肺炎中医临床诊断中的研究与应用[D].济南:山东大学,2011.
[24] 查青林,何羿婷,喻建平,等.基于决策树分析方法探索类风湿性关节炎证病信息与疗效的相关关系[J].中国中西医结合杂志,2006,26(10):871-986.
[25] 徐蕾,贺佳,孟虹,等.基于信息熵的决策树在慢性胃炎中医辨证中的应用[J].中国卫生统计,2004,21(6):329-331.
[26] 李毅,刘艳,寇小妮,等.乙肝后肝硬化症状学聚类研究[J].中医药导报,2012,18(2):14-16.
[27] 卢焯明,钱新华.以聚类分析法研究儿童中间型β地中海贫血的中医证候分布规律[J].中华中医药杂志,2012,27(3):607-611.
[28] 何庆勇,王阶.基于聚类分析的冠心病介入术后中医证候分类及诊断[J].中医杂志,2008,49(10):918-921.
[29] 黄小波,李宗信,陈文强,等.慢性疲劳综合征的中医证候聚类分析[J].中华中医药杂志,2006,21(10):592-594.
[30] 胡万华,陈克龙,赵娜,等.亚健康失眠患者中医证型的判别分析[J].中医杂志,2012,53(2):142-144.
[31] 夏乐敏,王运律.慢性再生障碍性贫血中医证型判别方程的建立与使用[J].中华中医药学刊,2012,30(2):409-411.
[32] 郦永平,温淑云.脑梗死证型量化分级的判别方程研究[J].中国中医急症,2012,21(1):81-82.
[33] 赵宝利,黄可儿,赵敏.类风湿关节炎中医辨证分型的判别分析[J].中华中医药杂志,2012,27(1):240-242.
[34] 薛飞飞,汪南.基于判别分析的肝病肝郁脾虚证证候特点的文献研究[J].中华中医药杂志,2011,26(6):1260-1263.
[35] 徐,王亿勤,邓峰.基于SVM的中医心系证候分类研究[J].世界科学技术―中医药现代化,2010,12(5):713.
[36] 王阶,吴荣,周雪忠.基于支持向量机的名老中医治疗冠心病证候要素研究[J].北京中医药大学学报,2008,31(8):540.
[37] 殷彬,方思行.脾虚证诊断的数学模型[J].暨南大学学报:自然科学版,2006,26(3):363-367.
[38] 杨丽萍,黄睿,张洛欣,等.用特征功能模块法挖掘一个虚寒证家系的基因表达谱[J].中华中医药杂志,2010,25(5):683-685.
[39] 谢铮桂.基于多分类支持向量机的中医舌诊诊断的研究[J].计算机与数字工程,2008,36(11):60.
[40] Liu GP, Li GZ, Wang YQ. Modelling of inquiry diagnosis for coronary heart disease in TCM by using multi-label learning[J]. BMC Complementary and Alternative Medicine,2010,10:37.
[41] Liu GP, Yan JJ, Wang YQ, et al. Application of multi-label learning using the relevant feature for each label (REAL) algorithm in the diagnosis of chronic gastritis[J]. Evidence- Based Complementary and Alternative Medicine,2012,6:3-5.
[42] 邵欢,李国正,刘国萍,等.多标记中医问诊数据的症状选择[J].中国科学:信息科学,2011,41(11):1372-1387.
[43] 洪燕珠,周昌乐,张志枫,等.基于随机森林法的慢性疲劳证候要素特征症状的选择[J].中医杂志,2010,51(7):634-638.
篇12
1 分部门、分灾种的危机管理决策支持系统
我国防震减灾系统应用和辅助决策系统的发展是与计算机技术,主要是GIS技术的发展相辅相成的。在20世纪80年代初,我国通过世行贷款开始了有关城市地理信息系统的开发研究。“九五”期间,结合950 项目(大中城市防震减灾示范研究与应用),地震系统有关单位在乌鲁木齐、天津、大连、合肥、自贡、泰安、福州、厦门等地建立了各自地区的“基于GIS的防震减灾信息与辅助决策系统”,利用GIS等工具软件,姚保华(2002)将区域地震环境、震害预测成果和应急辅助决策模块等进行集成。云南地震局王景来(1999)将GIS应用到地震灾害的评估提出将地震灾害评估智能化或半智能化的设想,在此基础上建立了玉溪地震减灾信息系统。上海地震局宋俊高、火恩杰等(2000)将GIS应用到城市防震减灾应急研究,以上海市宝山区为试点,建立了上海市防震减灾应急决策信息系统。王晓青等(2004)利用现代通讯技术、GIS技术和信息处理技术,构建了基于GIS的地震现场灾害损失评估系统,实现破坏性地震发生后地震现场灾害损失的快速、动态评估,现场震情和灾情信息的显示以及各种信息的远程交换。
火灾是各种灾害中发生最频繁且具有很强破坏性的一种。谢唤亮(1997)给出了基于GIS的决策支持系统的框架,并在南京市消防指挥中心初步实现。许云,任爱珠(2003)对虚拟现实技术(VR)在基于GIS的城市消防指挥系统中的应用进行了研究。朱霁平(2004)建立城市火灾应急决策支持系统,一旦发生火灾,信息可以迅速传递到指挥中心,并快速模拟灾害现场情况、预测灾害发展趋势,综合各种要素,生成救援方案,有效调度和科学利用消防减灾资源。
国内防洪减灾决策支持系统的研究起源于20世纪80年代末期,特别是国家在“八五”期间安排的“八五”重点科技攻关项目――长江、黄河、淮河防洪减灾DSS研究,出现了很多比较成功的成果,胡四一等(1996)在分析总结长江中下游防洪经验和防洪决策流程的基础上,研究防洪决策支持系统建立的开发模式、程序、方法、技术和应用模式,研制和开发了系统中总控管理――人机界面系统、数据库、知识库、系统接口和通讯软件、洪水演进和调度仿真模型、防洪决策风险分析模型等,初步建立了可运行的原型系统,并通过联机试验运行、检验系统设计、推进分洪决策支持系统的实际应用。到20世纪90年代初,又有翁文斌等开发的安阳市防洪DSS,浙江省洪涝台风灾害预报及省级防洪调度决策系统、黄河防洪调度决策支持系统和长江防洪决策支持系统等投入运行。这些系统都以关系数据库为核心,系统具有一定的可扩展性、可移植性。余达征等(1999)针对防洪减灾DSS的不足和防洪减灾决策的特点,将专家系统中的知识处理思想引入防洪减灾DSS中以解决其不足之处。设计出智能型的城市防洪减灾DSS。
2 城市危机管理决策支持系统
2.1 城市危机管理决策支持系统理论研究
韩燕晖将城市公共危机防范与救助系统分为指挥决策系统这一上位系统与预警系统、预案系统、信息系统、保障系统、动员系统、善后系统等六个下位系统。刘宁认为突发事件应急决策支持系统是用户通过人机交互与系统主推理机连接,并借助规则、案例、模糊知识推理部分共同完成不同库间的调用和内部推理求解。朱晓峰等根据政府决策支持系统的信息复杂程度和时效程度将其分为四大类:日常决策支持系统、宏观决策支持系统、重大活动决策支持系统和危机决策支持系统。惠志斌构造了由危机信息管理预警、危机信息管理知识、危机管理指挥、危机管理反应、危机管理恢复等子系统构成的综合性危机信息管理系统。谷岩,冯华综介运用数据仓库、联机分析处理(OLAP)、数据挖掘、信息智能推拉等多种信息处理技术,以多种形式灵活地生成各种应急方案。徐志胜等以地理信息系统(G1S)为平台,集成决策支持系统(DSS),研究开发了“基于G1S的城市公共安全应急决策支持系统”。唐裙裙认为应该采用五级架构,底层是硬件支持层;其次是基础信息层;基于其上的是决策支撑平台层;再上层是决策应用平台层;最上层是用户界面,需要针对不同类型的用户进行设计。张茜公共危机管理决策支持系统的主要功能包括机理分析、预警预报、资源优化、综合评价和决策建议。柳宗伟,景广军提出利用信息技术促进我国城市危机管理机制创新的思路,即建立以统一机构(城市危机管理中心)为核心的调度统一、联动协调、信息共享的城市综合危机管理机制,研制实用的城市危机管理决策支持系统以支持该模式的高效运作。
2.2 城市危机管理决策支持系统技术支撑
在智能决策支持系统的算法研究方面,研究的焦点集中在GIS路径优化、案例检索算法以及数据挖掘等方面:黄诗峰等对灾民撤退网络流模型及其GIS模拟技术进行了深入研究;罗忠良对案例推理系统中案例检索算法的改进进行了探讨;冯兴杰等对有关数据挖掘及其关联规则算法进行了详细地讨论;陶灵皎,孙继银等对决策树的算法进行详细探讨并针对自己的研究对象作了适当优化;王秀坤等设计了改进的EM算法并实现了在防洪决策中的应用。
2.3 城市危机管理决策支持系统工程实践
2003年“非典”事件后,我国目前许多城市已经开始设置专门的应急管理机构,将应急管理作为政府的一项日常的工作来抓,使城市应急管理逐渐走上正规化和制度化的轨道。已建成的城市应急管理机构有北京市突发公共事件应急委员会、上海市突发公共事件应急管理委员会、深圳市处置紧急事务委员会、广州110社会联动中心、武汉市110联动服务中心、南宁市社会应急联动中心等。城市危机管理信息系统一般由以下四个子系统,即应急指挥系统、应急业务处理系统、信息与资源共享系统、决策支持系统组成。管理决策支持系统作为城市危机管理信息系统的一个子系统,目前大多城市尚未进行专门建设。但在某些城市危机管理信息系统中包含了初步的辅助决策功能,下面分别对具有代表性的北京、天津、深圳、台湾的城市危机管理信息系统中所包含的辅助决策功能进行介绍。
北京市危机管理信息系统主要由以下子系统组成:①网络通信子系统,比如有政府网、应急呼报警网;②信息数据库子系统,城市地理环境数据库、城市社会经济数据库、灾害历史数据库;③应急评估数学模型子系统,危机事件潜势预测模型、社会灾变心理分析模型等;④对策预案子系统,综合应急管理总体预案,单灾种专业应急预案,预案实施决策流程;⑤专业救援子系统,比如医疗急救网、消防网自然灾害现象救援保障,还有公共设施抢修队,治安和反恐防爆队。这里应急评估数学模型子系统和对策预案子系统就包含了初步的辅助决策功能。其应急指挥系统中心设计联动国家减灾中心、水利、气象、地震、消防社区、单位重点区域,城市生命线系统管理部门,它有一些监测设备,比如现场空中监测,还有现场救援指挥车,对突发公共事件进行灾害的动态显示。还有应急对策的显示系统,根据专家的意见和对策,进行会商结果,最后形成一个综合的减灾策指令。
天津市负责突发公共事件应急管理的主要部门是防灾应急指挥中心,配置有线、无线通信系统、指挥辅助决策系统、指挥办公自动化系统、远程图像传输系统、综合视讯系统、应急供电、供水系统、楼宇保安监控系统等,运用现代通信网络和高技术手段,实现各类应急信息的收集、处理、整合,为市领导处置重大灾害和突发事件实施应急指挥提供了基本平台和手段。指挥中心在楼设置了专家会商室和相关单位、抢险专业组、应急救援队工作室,可集中各险种专家和专业组、队共同会商,为领导提供辅助决策。
深圳市应急指挥系统的辅助决策概况:深圳政府特别重视对预案信息系统的设计和开发。深圳有关部门制定和修改了各项应急预案,明确各类突发事件分级分类定量标准,提高预案的可操作性,并建成预案数据库,纳人应急指挥技术平台的“预案生成系统”。深圳市发生重特大突发性事件时,市领导不但可以在应急指挥中心通过视频、音频系统进行现场指挥,还通过地理信息系统和电子地图了解事件发生地点的具置及周边情况。同时,系统还将根据现场和数据库中的各种数据,自动生成多个应急预案以供领导决策选择。
台湾的灾害管理决策支持系统研究结合了地理信息系统(GlS)、遥感(RS)、全球定位系统(GPS)以及日益成熟的网络技术,建立一套整体性的防灾救灾决策支持系统。该系统使用灾害生命周期法来进行决策支持系统整体架构的规划,将灾害从发生前至发生后的整个过程视为一个完整的灾害管理循环周期,并进一步分析各阶段所需的决策支持需求,运用模组化的概念规划其中的各项子系统。完整的灾害防救决策支持系统资料库由地理资料库、气象水文观测资料库、历史性灾害资料库、趋势分析与境况模拟成果资料库、诠释资料库等五大资料库组成。台湾是多发地震的地区,以该系统的地震知识管理为例,通过“案例式推理”的研究方法,搜集台湾历年来都市层级的地震防灾救灾相关研究(不含地质研究、地震工程)案例一百余例,并利用英国Wales大学所开发的CBR软件caspian(1999),建置“地震防灾救灾文献案例式查询系统”,探讨其应用于都市防灾救灾的可行性,初步获得了良好的成果。
参考文献
[1]姚保华,陶夏新.分布式防震减灾系统的可行性[M].南京:东南大学出版社,2002.10.
[2]王晓青,丁香.基于GIS的地震现场灾害损失评估系统[J].自然灾害学报,2004, 13(1):118-125.
[3]许云,任爱珠,潘国帅.基于GIS和VR的消防指挥系统研究[J].土木工程学报,2003,36(5):92-96.
[4]朱霁平.基于GIS的城市火灾应急空间决策支持系统和仿真模型[D].中国科学技术大学博士学位论文,2004.
[5]谷岩,冯华.智能化城市防灾救灾应急处理支持系统的研究[J].计算机工程与设计,2005,(6): 1503-1505.
篇13
Yang Lufan
【Abstract】The network curriculum develops has begun to take shape, at present urgently awaits the duty which is solved is the establishment effective, the comprehensive network curriculum analyzes the indicator system, the guarantee network curriculum quality of teaching. The domestic and foreign experts often focus the attention in the network teaching platform and the environment aspect, actually neglected has carried on the analysis by the learner from the side to the network curriculum, the gain network curriculum recessive attribute. Therefore, this article mainly carries on the analysis based on the learner angle to the network curriculum, forms a preliminary network curriculum to analyze the target frame, analyzes the indicator system for the establishment perfect network curriculum to propose the new angle of view.
【Key words】The network curriculum analyzes; Learner; Target frame
1 介绍
众所周知,网络课程已成为终身学习的重要手段。为确保网络课程的教学质量,真正意义上促进学习者学习,我们亟待建立有效的、全面的网络课程分析指标体系。因此,不仅要把是否具备最为完善的网络教学平台和环境作为衡量网络课程的一方面,也要透过学习者从侧面对网络课程进行深入分析。
目前从网络课程教学平台和环境方面对网络课程进行分析,已有较成熟的理论研究。本文主要从网络课程分析的另一个角度即学习者,对学习者在网上学习相关的数据进行定义建模,形成初步的网络课程分析指标框架,为建立一个有效的、全面的网络课程分析指标体系提出新视角,为网络教育工作者分析、改善已有的课程提供参考依据。
2 基本概念
2.1 网络课程:网络课程是在课程论、学习论、教学论指导下通过网络实施的以异步学习为主的课程,是为实现某学科领域的课程目标而设计的网络学习环境中教学内容和教学活动的总和。
2.2 网络课程分析:网络课程分析,本文主要是指基于学习者角度的网络课程分析。即对学习者在网上学习相关的数据进行统计、挖掘和分析,从侧面得到网络课程的隐性属性。网络课程有三类用户,即学习者、教师、管理员,网络课程的直接受益者是学生,从学习者角度进行分析较能体现网络课程的一些隐性特征。
3 网络课程分析指标框架的确定及解析
网络课程分析是对学习者在网上学习相关的数据进行统计、挖掘和分析,从侧面得到网络课程的隐性特征。学习者网上学习相关的数据即学生的个性特征、网络资源的使用情况等,通过对学习相关数据进行定义建模,结合网络课程教学平台进行数据采集如登录次数、登录时间、自测正误率、发帖数量、帖子访问量、回帖数量、学习资源点击次数、作业完成情况等,以数据库的方式存储到数据库管理系统中,参考Web数据挖掘相关算法,从而获取网络课程的一些内在隐性特征如专业性、响应度、参与度、难易度、趣味性等,为今后更好地、全面地分析网络课程提供参考依据。
3.1 学习者网上学习相关数据定义建模:利用文献研究方法综合分析了国内外近十年来学习者网上学习相关的数据元素,较多文献是从学习者个性特征、自主学习以及交互学习三方面进行描述。因此,从学习者个性特征、自主学习和交互学习三个方面对网上学习相关数据进行定义建模,详见表1。
学习动机动机来源:外在动力、内在动力、成就动力;具体动机:教育目标、经济学期望、社会学期望、学习方式的开放性
3.2 构造网络课程分析指标树:通过与相关专家学者的反复讨论,并参考若干网络课程分析的相关资料,笔者认为用“三性三度”能较好地体现网络课程的隐性属性,“三性三度”即:目标性、趣味性、交互性、难易度、参与度、响应度。因此,“三性三度”形成了网络课程分析的6个一级指标。参考网上学习相关数据模型表,借鉴Web挖掘相关技术对其进行数据挖掘,形成了网络课程分析的11个二级指标,便构造出了一个网络课程分析指标树。(见图1)
3.3 网络课程分析指标解析:网络课程分析由6个一级指标和11个二级指标构成,下面对各项指标进行进一步的解析:
专业性:通过统计、挖掘和分析学习者的身份信息、学习条件、学习动机以及信息素养能力等,获取本课程是否具有专业性,面向的学生是专业的还是普遍大众。
趣味性:单位时间内各个栏目与媒体资源的在线人数统计分析,网页、网页、流媒体、BBS信息、教学信息、图书等资源的点击率统计分析,可以挖掘出本课程最具趣味性资源与栏目。
交互性:统计交互工具,如在线聊天、视频会议、音频会议、BBS、Email等的使用次数和时间间隔平均值,可以挖掘出本课程是否具有交互性。
难易度:统计各问题与知识点的发帖数量与回帖数量,计算平均值,并与平均值比较,数量超过平均值的多少可以反应出课程的难易程度。
参与度:统计参加网上直播课堂学习、提交作业、网上自测、网上考试的次数,调研报告、PPT等个人作品和研究成果的展示数量,对其进行分析,可以挖掘出本课程的参与度。
响应度:统计教师对问题的答复率与回应时间间隔,挖掘、分析出本课程的响应度如何。
3.4 网络课程分析指标框架表:经过对网络课程分析各个指标的确定及解析,形成了一个初步的清晰的网络课程分析指标框架表。(见表2)
4 结论
网络课程分析指标框架目前还只是一个雏形,需要相关专家学者对其进行不断地论证与改进。本文对其进行研究主要有两个方面的原因:第一是希望能为全面分析、评定网络课程提出一个新视角;第二是希望能引起广大教育技术工作者和网络教育工作者的注意,对如何有效全面的分析网络课程进行激烈地探讨,以期形成一个标准的、全面的网络课程分析指标体系。
参考文献
[1] 李朝葵,陶卫国.层次分析法在网络信息资源导航系统评价中的应用[J].四川图书馆学报,2004,(3):75-78
[2] 张伟远.网上学习环境评价模型、指标体系及测评量表的设计与开发[J].中国电化教育,2004,(7).