引论:我们为您整理了13篇聚类分析论文范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。
篇1
1.3数据来源与处理文中的数据资料,来自于2011年《中国统计年鉴》、2011年《中国城市统计年鉴》、2011年《中国城市竞争力年鉴》、2011年《中国城市能源统计年鉴》等,部分数据是整理计算后得出的结果。
1.4评价方法文中首先采用因子分析法,对我国31省级行政区域的环境友好型社会水平进行综合评价。因子分析在SPSS17.0软件环境下进行。其次,在因子分析的结果基础上,对各省市区域的环境友好型社会发展状况进行聚类分析。采用HierarchicalCluster的聚类方法,运用离差平方和法(Ward'smethod)计算类与类之间距离,选择欧式距离的平方(SquaredEuclideanDistance)进行聚类,最终得出聚类分析结果,并用Arc-GIS9.2软件呈现空间差异。
2结果与分析
2.1因子分析通过对评价对象的3个二级指标下的23个三级指标进行环境友好型社会程度综合评价。
2.2聚类分析与空间分异在因子分析基础上,进行样本聚类分析,并利用ArcGIS9.2软件显示量化分类结果的空间分异特征。聚类方法选择Ward法,距离测试采用欧氏距离平方法,利用SPSS的系统聚类法进行聚类分析。根据聚类结果,可以将31个省市区域划分为3-8类如果划分太少的类别(如分为3类或4类),则无法考察类别之间的具体差异,如果选择较细的类别划分(如分为7类或8类),则某一类别中含有的省份过少,更多地表达了特殊性。为了体现类型之间的差异性,又保证不同类型包含省份的均匀性,本课题将31个省份分为5类,并用ArcGIS9.2软件分析得出空间差异
3讨论
(1)为了解决环境友好型评价指标体系缺乏针对性的问题,文中在环境友好型社会概念基础上,从环境影响总量、环境影响发展和环境保护潜力等三个方面,提出了由23个既相互联系又相互独立并能进行量化的指标构成的环境友好型社会综合测度指标体系。通过采用2011年度中国统计年鉴和各行业和能源产业统计年鉴数据基础上,对中国31个省级行政区的环境友好型社会发展状况进行了综合评价和聚类分析,研究结果与当前中国环境生态质量的现状有较好的一致性,这也说明了该指标体系具有一定科学性和完备性。
(2)尽管文中的研究为我们客观评价环境友好型社会提供了一种思路并具有一定的可操作性,但在选择环境影响总量、环境影响发展和环境潜力等具体指标时,大多是建立在数据的可获得性和以往的研究文献基础上,仍存在一定的主观性。并且所选用的统计分析方法也可以是多种多样的,也不仅仅是文中所提到的主成分因子分析法,还可以是诸如物元法、模糊评价法、神经网络法和层次分析法等,不同的分析方法势必会有不同的优点和不足之处,这需要后续学者做进一步探索。另外,从评价对象上看,文中选用的是省级空间分布尺度,这种尺度分类仍较为粗略,未来的研究可以进一步深化,比如县域等。
(3)从研究结果看,中国31个省级行政区的环境友好型社会发展状况可以划分为五类;在空间分布上,环境友好型社会程度相对较高的省份大多位于东部沿海地区和西部国界线附近的不发达地区,而环境友好型社会程度相对较弱的省份大多位于京津唐冀和晋等省份和地区,这一研究结果与张墨宁的调查结果相一致。造成这种现象的原因,或许与中国所处的发展阶段、区域主导产业结构和在很大程度上继续沿用以往粗放型经济发展模式有关,并值得相关政府决策部门的重视。
篇2
2农村环境污染物排放的核算
2.1农村环境污染物具体排放量的计算研究得知,各污染源污染实物的排放量多少是和流失系数、产污系数等密切相关的。而农村环境污染具有极其明显的地域性,所以我们计算中需要的参数值必须通过对某一地区内各种相关联的因素进行测定和综合分析才能得出。目前,得出这些参数的方法一般有两种,一是通过特定地区的污染发生学实验研究来得出,二是通过相关的文献进行筛选、调研。
2.2农村环境污染敏感性的调研这里提到的敏感性主要是指调研区域地表水环境对农村各种社会经济活动的反应的敏感程度。可以反映产生地表水水体富营养化的概率的大小,敏感性分为5级,即不敏感、轻度敏感、中度敏感、高度敏感、极敏感。根据相关的调查,对农村环境污染的敏感性评价可以采用污染物(COD、TN、TP)的排放浓度结合水质评价模型进行评定。具体可有以下3种方法。①单向水质指数法。在确定各基本单元的基本指数后,用污染物(COD、TN、TP)的水质指数作为变量,进行全面的聚类分析,然后根据分析结果,划分敏感级别。②加权指数法。运用加权指数法可以反映出污染物(COD、TN、TP)在不同地区对环境污染的影响。首先要确定影响农村环境污染敏感性发热污染物(COD、TN、TP)的排放浓度,然后再依据加权指数法计算出各基本敏感单元的敏感性数值。③内梅罗综合指数法。如果单项水质指数的数值变化很大,为了更加有效的突出各个高值的影响,就可以采用内梅罗平均值法。同样,在确定了各基本单元的内梅罗指数后,以其指数为变量。进行综合的聚类分析,然后根据分析结果划分敏感性等级。
3污染程度的区分
首先确定环境污染中的主要污染物、总污染负荷,然后与区域相结合确定重点污染区域,进而确定其污染程度。
3.1水质系数和排放浓度要想全面的反映出区域污染的状况,要从排污总量和排污浓度两方面上来进行考虑,水质系数反映评价标准和污染物浓度之间的关系,其中:污染物水质指数=该污染物排放浓度/该地环境质量标准
3.2聚类分析进行聚类分析要运用SPSS软件,采用Q型聚类,通过对农村环境污染源等标污染的负荷率进行综合的聚类分析,然后来区分不同区域的主要污染类型,比如种植污染型、养殖污染型、综合污染型、生活污染型等。
篇3
一 引言
聚类分析是数理统计中研究“物以类聚”的一种方法。聚类分析是一种无监督分类工具,其目的是在没有先验知识的前提下基于某个相似性度量找出属于同一属性集的数据,继而将数据对象集合分成不同的类,因此它是挖掘数据未知的、具有潜在应用价值的信息的一种很好的方法。介于其在海量数据处理中显现出的优势,使得它在数据挖掘、模式识别、图像处理、经济学(尤其是市场研究方面)等领域得到了广泛的应用。免费论文。然而,正是由于聚类分析的无监督特性,导致了数据最佳的聚类数很难确定,这就是聚类分析面临的最主要的问题。免费论文。
二 FCM方法
经典分类学是从单个因素或有限几个因素出发,凭经验和专业知识对事物分类,这种分类具有非此即彼的特性,分出的类别界限很清晰。免费论文。随着认识的深入,发现这种分类不适用于具有模糊性的分类问题,如图像中的区域之间的边界就往往是模糊不清的。1965年,Zadeh提出了著名的模糊集理论,创建了一个新的学科—模糊数学。
用普通数学方法进行分类的聚类法称为普通聚类分析,而把应用模糊数学方法进行分析的聚类分析称为模糊聚类分析。。。在实际中应用最为广泛的是模糊C一均值算法(FCM:Fuzzy C-Means)。。FCM算法首先是由为Ruspini提出的,但真正有效的方法是由Dunn给出的。1974年Dunn将硬C--均值聚类算法推广到模糊情形,同年Bezdek将Dunn的方法一般化,给出了基于目标函数模糊聚类的一般描述:
其中,表示隶属第类的隶属度函数,表示与的距离,为平滑指数.聚类准则为取为极小值.
1980年Bezdek证明了模糊C-均值聚类算法的收敛性并讨论了模糊C一均值聚类算法与硬C一均值聚类算法的关系。从此,基于目标函数的模糊聚类方法蓬勃发展起来。
三 模糊聚类有效性函数
不少学者为估计数据集存在的最佳聚类数进行了大量地研究,基于模糊聚类分析的最佳聚类数的研究,也取得了丰富的成果。1974年,Dunn给出了如下的有效性判别函数:
其中,
1974年,Bezdek给出了如下有效性判别函数:
1991年,X.L.Xie和G.Beni定义了如下有效性判别函数,在实际应用中取得很好的效果。
四 一种新的聚类有效性函数
2000年, Tibshirani R等提出了Gap统计量,并用它来估计最佳聚类数。方法通过引入一个参考分布,用gap统计量刻画样本观察值与它们在这个参考分布下的期望值之间的差异,最后通过这个统计量得到最佳聚类数的估计。
其中,表示在某参考分布下的期望,一维情况下通常取均匀分布为参考分布,最佳聚类数即出现在取最大值时。
实验证明应用Gap统计量确定最佳分类数取得比较好的效果,但同时我们注意到Gap统计量方法只考虑了数据的几何特征,没有考虑到数据分类的模糊性,所以我们对Gap统计量的方法加以改进,引入数据的模糊特性,从而使分类数的确定更加合理准确。具体方法如下:
令,其中是隶属第i类的隶属度函数,是第i类的质心(均值)。从而定义函数:
表示在某参考分布下的期望,一维情况下通常取均匀分布为参考分布。这样最佳聚类数出现在取最大值时。
参考文献:
1. 黄陈蓉 张正军 吴慧中. 图像分割的Gap统计模型[J]. 计算机科学.2005.
2. 张正军 李建军 刘力维. 标准化水平的Gap统计量的零件图像分割数估计[J]. 中国制造业信息化.2007
3. 李娜 刘力维 张正军. 基于GS方法的图像最佳分割的研究. 南京理工大学硕士学位论文.2006
篇4
论文的关键词是文章内容的提炼及核心思想,在某一学科中,如果某些关键词在众多的论文中反复出现,就说明这些关键词是该学科的研究热点。因此本文以教育技术学专业为例,将研究生学位论文和论文关键词作为研究对象,对教育技术学的研究热点和发展趋势进行探析,并从中得到一些启发,以期探讨进步。
1.研究过程
1.1主要的分析工具
论文分析需要定性和定量相结合,离不开相应软件的辅助。本研究中主要使用书目共现分析系统(Bicomb)抽取论文中的关键字段,形成高频词一论文矩阵,Python进行聚类分析,Excel作为Python的输入,以及进行简单的统计。
1.2数据采集和处理
中国知网上收录的论文数量较多,故将其作为研究对象的数据来源。通过本校数字图书馆访问中国知网,选择“博硕士”类型,并以“教育技术学”为“学科专业名称”进行检索,共获得研究样本7937篇研究生学位论文,然后按照NoteFirst格式采集研究生学位论文的题录信息。使用书目共现分析系统,将论文的发表年份和关键词提取出来,输出成EXCEL格式。
共词聚类分析的主要有如下几个步骤:首先选定参与共词分析的高频关键词并构建共词矩阵,然后将共词矩阵转化为相似矩阵,然后进行聚类分析,最后对结果进行解释。关键词的选择,目前有TOPN,正太分布法,齐普夫第二定律等几种常见的方法。
经过统计分析,本文样本数据不符合正态分布,故本文选择累积百分比20%的关键词作为高频关键词,生成如表1所示的共词矩阵。
为了消除频次悬殊造成的影响,用Ochiia系数将共词矩阵转化成相似矩阵,即将矩阵中的每个数字都除以与之对应的两个关键词总频次开方的乘积,该矩阵主对角线上的数据均为1,代表高频关键词自身的相关程度,如表2所示。
2.研究结果
2.1关键词的词频分析
词频分析法通过对关键词中高频词汇的分析,能够确定某一学科的研究热点及其变化。本研究共收集到7937篇研究样本,对所有关键词进行统计排序后,得到排名靠前的20个关键词,表3提供了前10个关键词。
观察上表数据,可以发现,教学设计出现频次远超其他关键词,在教育技术学中占据着核心地位;信息技术和网络课程占据第二和第三名次,说明教育技术学对信息技术和网络的应用比较深入和频繁。
为了进一步探究教育技术学的发展历史,故对各年度所的关键词进行统计,可以得出各年度频次排名前10的关键词表,具体见表4。
表4显示了高频词的变迁过程。观察上表可以发现,首先历年排名靠前的关键词都有教学设计和网络教育,稳定性比较好,正体现出教育技术学交叉学科的特点,同时也可以看出,2000年后的“技术”,主要指网络技术。其次教育技术已经处于信息化教育研究阶段,这一阶段的核心关键词主要有远程教育、信息技术、网络学习、教育游戏、移动学习等。从这一阶段的研究热点可以看出,随着信息化时代的到来,教育活动的数字化、网络化、智能化等现象已成为研究热点,这一时期研究者关注的对象不再仅限于媒体本身,而是从信息化学习方式人手,考察技术、人和教育三者间的关系。
2.2关键词的共词聚类分析
聚类分析是根据研究对象的特征对其进行分类的多元分析技术的总称,基本思想是基于研究对象的样本或变量指标间存在着不同程度的相似性或亲疏关系。
层次聚类按照距离度量的不同分橐韵录咐啵single-linkage、complete-linkage、average-linkage、ward-linkage。现有同类型的论文中,均采取层次聚类法对共词矩阵进行聚类分析,但是并没有针对上述不同情况给出对比分析,本文使用Python第三方库scipy中的层次聚类函数以及dendrogram方法,对多种度量的聚类方法进行了对比实验,发现ward-linkage方式的聚类效果最好,具体聚类树如下图所示。
观察该层次聚类树状图可以发现,研究生学位论文高频关键词大致聚为5类,具体分类如下:
第1类:学习方法研究,关键词包括知识管理、大学生、网络学习、虚拟学习社区、策略、非正式学习、知识构建等。该类研究主要以如何提高学习的效果为目的,寻找和对比多种学习方法,为后续的教育教学方法提供参考。
第2类:教师与教育技术研究,该类研究主要由教育技术、教师专业发展、教育技术能力、现代教育技术、师范生、教师培训、中小学教师等关键词构成。这一主题的研究主要围绕教师与教育技术的关系,着力提高教师运用新型教育技术的能力和水平,从而更好地从事教学活动。
第3类:网络教育教学研究,主要由网络课程、移动学习、网络、网络学习、自主学习、远程教育、网络环境网络教学、现代远程教育等关键词构成。网络教育以互联网为载体打破了空间和时间的限制,涌现出在线教育和MOOC等新型教学方式。
第4类:信息技术条件下的教育模式研究,主要包括信息技术、教学模式、信息素养、教育信息化、信息技术与课程整合、行动研究、翻转课堂等关键词。随着信息技术的不断进步,越来越重视信息技术与教育教学的结合,碎片化学习、翻转课堂等都成为该学科内的研究趋势。
第5类:设计与开发应用研究,主要由设计、应用、对策、开发、现状和应用研究等关键词构成。教学设计与应用是教育技术学的核心目标和价值体现,不论采用何种技术手段,最终的落脚点都是教育教学方案的设计及应用实践。
3.研究结论
3.1发展趋势
第一,研究热点保持稳定。从关键词词频分析中可以看到,不论是全量数据的统计,还是历年关键词数据的统计,出现频率较高的关键词都是信息技术、教学设计、远程教育等。这些核心关键词,包括教学效果,教育信息化等其他高频关键词在内,都显示出中国教育技术牢牢把握学科定位与目标,重视教与学的应用与研究,而且应用信息技术进行教与学是中国教育技术领域近20年研究的热点。
第二,教育技术学在走向融合。主要包括三个层面上的融合,即教育理论层面、技术层面、理论和技术结合的层面。在前文的分析结果中可以看到由何克抗教授正式倡导的混合式学习概念,更是最好的证明。一是教育理论层面,主要体现在教育理论基础的变化上。教育技术学研究的焦点,已经由建构主义转向混合式学习。在词频分析中的历年高频关键词中,可以看到建构主义的排名在2004年以后,就比较靠后了。二是技术层面,教育技术已经从基础的视听技术,发展到了网络信息技术为主,多种基础技术为辅的阶段。但就像网络没有取代报纸一样,粉笔和黑板也依然存在着。各种不同的教学技术相辅相成、相互作用,它们以整体融合的形式,出现在各种教育教学活动中。三是理论和技术相结合层面,不同的教育与学习理论,需要各种不同的技术作为支撑,而各种技术的最终目的,是要为优化教学效果而服务。共词聚类分析中发现的信息技术下的教学及学习模式研究,说明教育技术工作者已经开始关注适应性学习和协作学习环境的创设。
3.2启发
第一个启发是要自信。有人说,教育技术学专业学生的教育理论水平不如教育学相关专业的学生;论信息技术能力不如计算机相关专业的学生。多数人都看到了这个现象,但如果因为这个原因,变得不自信和迷茫,那就有些妄自菲薄了。因为教育技术学是交叉学科,本专业的学生跟其他专业的学生比的就是教育理论与信息技术相结合的“综合实力”,这才是教育技术学特色和优势的所在。本专业的学生在平时的学习和研究中,可以遵照南国农老前辈的指导,坚持现代教育理论与现代信息技g的融合,并牢记二者“相乘”的关系,双翼齐飞,同时努力探索教育技术的中国道路。
第二个启发是要并重。包括电教并重和教学并重,主要是为了解决目前教育技术学出现的误区和问题。电教并重是指要认清教育技术姓“教”不姓“电”,信息技术只是教育技术的一种支撑,教育技术所研究的是在教育理论的指导下,如何有效利用各种信息技术为教学活动提供支持,以达到最优化的教学效果。教学并重是指教与学是相辅相成的统一整体,而且其立足点在学而不在教,因为教育教学活动的根本目的是学生的学习与发展。
第三个启发是要融合。不仅是教育技术学内部的融合,还有借鉴其他学科的精华,如计算机、心理学和传播学,才能更好地体现出交叉学科的特点和优势。举例来说,目前计算机领域,机器学习和人工智能正在如火如荼的进行,虽然教育技术领域已经在进行虚拟现实和数据挖掘技术的相关研究,但深层次的融合,结合教育教学活动进行落地的尝试,还需要尽快开展和总结。
篇5
1 前言
随着中国信息化进程的加速,各行各业每天都产生大量的数据,如何充分利用这些数据,更好地为人类生产和生活更好地服务?数据挖掘是一种不错的方法,数据挖掘又称数据库中的知识发现,是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。知识发现过程由以下三个阶段组成:(1)数据准备;(2)数据挖掘;(3)结果表达和解释。
聚类分析(Cluster Analysis)是一种数据挖掘方法,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品或数据,要求能合理按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。目前在文献中存在大量的聚类算法,算法的选择取决于数据的类型、聚类的目的和应用。大体上聚类分析主要的算法可以分为:(1)划分方法;(2)层次的方法;(3)基于密度的方法;(4)基于网格的方法;(5)基于模型的方法。如果聚类分析被用作描述或者探查的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。聚类方法广泛应用于各行各业。
人口是基础数据,是制定各项政策的依据。人口区划根据自然、经济、人口特征及相应的指标体系,对全国人口分布状况分区划片,并提出各区人口发展合理目标及相应的人口政策和措施,为全国和分区人口发展规划提供科学依据,并为国民经济计划和经济区划服务。20世纪80年代初,中国学者胡焕庸根据自然地理特征、人口密度、人口自然增长、人口迁移、耕地、粮食产量、劳动力等指标,将中国划分为人口区,即:黄河下游区,辽吉黑区,长江中下游区,东南沿海区,晋陕甘宁区,川黔滇区,蒙新区,青藏区。随着中国经济的迅猛发展人口分布呈现出许多新的特征,为了适应新的趋势,有必要重新定位和再研究。
2 数据与方法
2.1 数据来源与指标选择
本研究的数据采用2011年全国31个省及直辖市的统计数据,人口数据来源于《中国人口统计年鉴》,各省人均可支配收入来源于经济信息网。因研究的是各省的人口及经济指标聚类,研究区域很大,信息粒度较大,因此选择了有代表性的综合性人口数据指标,人口(总量)、人口密度、人口自然增长率、第六次人口普查数据、人均可支配收入、人均GDP、迁移数据。其中人口自然增长率为(人口出生率-人口死亡率)/人口均值*1000%,迁移数据=第六次人口普查数据-人口(常住人口)。各省及直辖市的基础数据如表1所示。
2.2 聚类分析原理
3.2 二维聚类
以人均GDP和人口自然增长率进行聚类,数据进行标准化处理后,得到的结果有五类,如表5如示。
从以上聚类结果看,第一类是沿海地区,经济较为发达,人口增长正常;而第二类内陆地区,人均GDP较低,人口自然增长优率较为正常;第三类为东北三省,人均GDP中等,人口增长率低;第四类为人均GDP高,为三个直辖市;第五类为人均GDP低,而且人口增长快的区域。
3.3 多维聚类
多维聚类时,采用K均值法进行聚类,得到的聚类结果如表6。
根据多维数据聚类,共分为六类,其中第一类属于人口少,但较为富裕的北京和上海,而第六类为天津,自成一类,主要是流动人口及可支配收入较第一类差一些;第四类为经济发达的广东、江苏和浙江;第二类为经济较好,人均收入中等,流动人口较少的地区;第五类为经济欠发达,人口保持较高增长率的省份;第三类则是大部分的内陆地区。
4 结论与讨论
本文通过采用聚类分析的手段分析全国31个省市人口的发展规律,揭示了不同省市在人口发展之间的相似性和差异性,研究得出合理聚类结果,为政府和各职能部门在制定人口及各项地方性经济发展政策提供依据。
聚类分析结果表明,一维、二维和多维聚类分析方法有各自的典型特征有用途。一维聚类分析简洁地表明各省人口自然分布规律,可为国家对不同各省份的人口政策提供科学依据;二维聚类分析直接反应了不同省份人口与经济等指标的相互关系,如论文中对人均GDP和人口自然增长率的二维聚类分析,分类结果合理的体现了当前我国各省经济发展与人口特征。多维聚类分析方法适用于对各省综合分类,论文中采用了与人口有关的5个指标进行的多维聚类分析,分类结果有较强的综合性,与当前各省公众认识的综合分类一致。
解决了传统的经验分类方法导致的客观性缺乏等问题。为人口的分类管理实践提供了理论依据和技术手段。
(本论文为院级大学生实践创新训练计划项目2011XYCXXL14资助项目)
参考文献:
[1] Jiawei Han,Micheline Kambe.数据挖掘概念与技术[M].北京:机械工业出版社,2012.
[2] 陈志泊.数据仓库与数据挖[M].北京:清华大学出版社,2009.
[3] 陆学艺.可持续发展实验区发展历程回顾与建议[J].中国人口资源与环境,2007,17(3):1-2.
篇6
1.问题及背景
世界农业的发展历史已经证明:农业机械化是建设现代农业的必然过程,是农业现代化不可逾越的阶段。农业的机械化程度是衡量一个地区农业发展水平的一个重要指标,而不同地区的机械化水平又是不平衡的,以往对农业机械化水平的研究只是停留在对各地农用机械的绝对拥有量的描述上的,《2005年江苏省农业机械化管理统计分析江苏农机化论文》【1】只给出了绝对的统计数据并简单的编制了一些指数,各地区的差异从中表现的并不很明显。本文拟采用因子分析和聚类分析两种方法对吉林省9个地市2005年和2009的农业机械化水平进行排名分类研究。
表1 吉林省农业机械总量及增长率
年份
农用机械总动力(万千瓦)
大中型农用拖拉机(台)
农用小型及手扶拖拉机(台)
大中型机引农具(部)
农用排灌动力机械(台)
粮食加工机械(台)
2005
1471.30
90750
538024
171632
416968
101088
2009
2001
245162
589961
480785
469501
113467
增长率(%)
36.00
170.15
9.65
篇7
一、引言
河北省凭借其区位优势和国家及省内政策的支持,经济获得了持续的高速发展。但伴随而来的是省内地区间、城乡之间在经济增长、生产力分布、生活水平等方面出现了明显的差距,并且这些差距还有逐步扩大的趋势。而资本作为一种流动最频繁、最基本的货币化的生产要素,对区域经济的发展具有重要的影响。要促进一个区域的发展就必须建立一种有效机制,促进资本的合理流动,提高资本利用效率。而如何从资本流动方面实现河北地区的经济增长就成为当务之急。
资本在地区之间的流动,能够带动其他生产要素在各地区之间的有效配置,从而更有力地促进区域的经济增长。影响区域资金分布的原因有多方面聚类分析,区域经济基础差异,存贷款的区域配置以及市场发育不平衡等因素使资本在区域间的流动大多体现为向经济活跃、资本收益率高的区域流动论文开题报告范例。另一方面政府为缩小区域之间的差距,通过制定经济发展政策,积极引导资本由经济发达的区域向经济落后的区域流动。资本流动的区际流动不仅可以给各地区带来效益、加强不同发展条件下的区域的相互联系,而且可以协调区域发展。由此可见,资本作为一种最基本、最重要的生产要素无疑是河北省发展和提高自身造血功能的必然选择。
二、河北省区域经济发展差异的聚类分析
对于区域经济发展差异的分析,本文侧重于对河北省现状的研究,故在研究过程中选取2009年为当前时间节点,对河北省各市的经济发展水平进行横向比较,从而获得当前的河北省区域经济差异的空间分布特征。研究方法是首先选择能够综合评价河北省经济发展水平差异的指标,运用因子分析提取公因子,最终得出各市的因子得分,在此基础上根据因子得分进行聚类分析。
1、因子分析
因子分析法旨在减少分析指标的同时,尽量减少原指标所包含信息的流失,对所搜集的资料做全面的分析。由第一部分分析可知,固定资产投资额、政府财政补贴、银行存贷款情况均与当地的经济增长密切相关。据此选择的描述经济发展水平的指标有GDP、人均GDP、固定资产投资额、人均固定资产投资额、地方财政一般预算内收入、人均地方财政一般预算内收入、地方财政一般预算内支出、人均地方财政一般预算内支出、外商实际投资额、城乡居民年末人均储蓄存款余额、年末金融机构贷款余额。根据2010年《河北经济年鉴》以上各指标的数据聚类分析,将各变量标准化,然后运用SPSS18.0统计软件进行因子分析,最终提取出两个公因子,旋转后的因子载荷阵中可以看出两个公因子可归结为经济规模因子和人均水平因子。根据因子得分系数矩阵和原始变量的标准化值就可以计算每个观测值的各因子得分,具体得分如表1。
表1河北省区域经济发展总体发展水平综合得分
城市
公因子1得分
公因子2得分
合计
排名
唐山市
1.636
1.551
3.190
1
石家庄
1.790
-0.192
1.600
2
廊坊市
-0.306
0.893
0.590
3
秦皇岛市
-0.929
1.362
0.430
4
邯郸市
0.525
-0.705
-0.180
5
承德市
-1.043
0.596
-0.450
6
张家口市
-0.829
0.353
-0.480
7
沧州市
-0.010
-0.659
-0.670
8
保定市
0.401
-1.280
-0.880
9
邢台市
-0.308
-1.036
-1.340
10
衡水市
-0.926
篇8
1 引言
新技术的产生可以导致一系列相关的新产品问世,对人们的生活、企业的发展乃至社会经济产生巨大的推动作用。在某一新技术尚未完全成熟之际,必定会有很多企业围绕这一技术不断进行改进和完善,并申请相关专利技术进行保护。因此,未来主流市场中的主流技术在专利文献中有量的征兆,可以通过对专利数据的定量分析来进行技术热点的监测。
当前利用专利文献进行技术热点监测的方法主要有两种:①通过对具有技术含义的专利著录项,如专利IPC分类号的数量变化来监测技术热点;②利用文本挖掘技术,从专利文献中抽取技术关键词进行词频统计、聚类分析来监测技术热点。在学术领域,学者们基于专利分类号对某个时间点或时间段的技术热点进行了探索。袁冰等指出,通过分析专利涉及的所有IPC分类号,以及这些IPC分类号下分别包括的专利数量,就能够获知整个区域的技术构成情况以及该区域内市场经营主体关注的技术热点。王燕玲认为,将不同主体的1PC分类按时间分布并加以比较,可发现不同主体的IPC变化过程,是一个从创新主体角度研究技术领域热点变化的主要方法。左凤茹对水电行业中世界著名企业的专利申请量按IPC分类号进行统计后,指出目前水电没备的研究热点。栾春娟等认为,经过德温特技术人员标引的“德温特指南代码”(Derwent Manual Codes),对研究专利的技术领域分布更具指导意义,她们利用德温特指南代码,陆续对基因工程、3G技术、生物技术、电动汽车领域进行了技术热点分析。在技术实践领域,主流的专利分析软件如Thomson Data Analyzer(TDA)、Aureka、HIT-恒库等正是基于上述原理,实现了从批量专利文献中抽取专利分类号或技术特征词汇进行统计、聚类分析的功能,并用可视化的方式展示分析结果,生成相应的专利地图,进行技术热点监测。以Aureka为例,它提供了ThemeSeape地形图功能,以分析的专利样本为基础,对其中相关词汇的词频应用聚类分析生成主题(词汇)地形图,以此来描述专利技术热点的分布情况。
但是,由于IPC的分类原则是将同一技术主题归在同一分类位置,使之具有相同的分类号,即侧重于对单一技术主题进行分类,而且IPC将专利要求的技术主题作为一个整体来分类,而不是对其各个组成部分分别进行分类,因此分类不彻底,也造成分类不够细,某个分类号下存在大量文献。这样一来,基于IPC分类号的技术热点难免存在偏差,且比较宏观,难以反映企业关注的微观技术热点变化,更难以揭示技术日新月异的变化和发展。而利用模式匹配、规则基础和自然语言处理技术直接从专利文本中抽取词和词组进行统计或聚类分析,虽然相对比较精确和具体,但也存在着一些相关陛较高的词组或短语,因为出现过于频繁而容易被软件分析系统自动剔除,造成分析的误差。因此,如何提高基于专利文献技术热点监测的准确性,如何利用专利引文所承载的技术关联信息进行获取和关联挖掘,如何对已有的宏观技术热点和微观技术热点监测进行补充,是本文研究的主要问题。
2 基于专利引证的技术热点监测方法
2.1 专利引文的技术情报价值
专利对先有技术(prior art)和科学论文的引用是科学和技术发展规律的表现,它体现了科学和技术的累积性、连续性和继承性,也体现了不同学科、不同研究层次之间的交叉、渗透。大多数发明不是“无中生有”的,一般发明人在进行发明创造活动时,会参考具有相同发明目的的先有技术的发明创造内容和发明人所熟知的先有技术。另外,专利审查员审查专利文件时常会将被审查的专利与主题相近的先有技术相比较,这两种方式导致了专利引文的出现。Arehibugi和Pianta指出,专利引文数据广泛地提供了具体技术领域某一技术发明的相关技术信息。
1965年,普赖斯创造性地研究了科学论文之间的施引与被引证关系,以及由此形成的所谓“引证网络”。专利引证网络是将文献计量引证网络的对象从科技论文到专利文献的直接延伸,通过绘制专利引证关系图来考察互相引证的专利的关联程度和技术相互间的影响,寻找最早被引证的专利文献,洞悉专利的继承性和发展历程。专利与其引证论文或引证专利密切相关,反映了相同或相近的技术创新,这种相关性是由技术本身的传承和发展而形成的。据此,利用各种数学以及统计学的方法对专利与专利之间的施引和被引现象进行比较、归纳、抽象判断,以探索其数量特征及内在价值,专利引文分析也具有重要的技术竞争情报价值。
2.2 基于专利引证进行技术热点监测方面的实践应用
借助专利与专利间的引用与被引用关系,不仅可以揭示出专利的理论、技术起源,而且可以对技术领域中的技术前沿和技术热点进行追踪。Mogee等利用专利同被引(patent co-cltation)对2808条Eli Lilly公司的专利数据进行聚类分析,识别该公司的核心专利技术和技术热点群组,发现主要的技术热点(teehnolo-gy fronts)。孙涛涛等基于专利耦合关系,指出同时引用相同基础技术专利簇的另一个专利簇(base tech-nology)可以构成技术热点。尹丽春等将文献计量学中的共被引方法应用到专利文献的研究中,对在我国申请的数字信息传输领域中的专利技术前沿问题进行探讨。
目前市场上各种专业的商业化专利分析软件(如法国IMCS的Matheo Analyzer、美国汤森路透旗下的Aureka、Innovation和Delphion、中国恒和顿的HIT-恒库等)几乎都有绘制引证网络图的功能,利于追溯目标技术的起源和发展。但是这些软件工具无法利用专利文献中的同被引或耦合技术,借助可视化关系揭示技术前沿或者技术热点。
2.3 基于专利引证的技术热点监测方法设计
研究首先通过基于“关键词+专利引文”的检索策略,从专利数据库中检索、下载研究主题范围内的原始专利数据,构建本地专利专题数据库;其次,按照分析需要对本地原始专利数据进行拙取,将专利号、题名、发明人等专利著录项从专利文献中抽取出来,完成数据预处理;再次,分别利用专利耦合聚类和具体概念词聚类,实现由浅至深、由粗到细的技术热点监测。具体实施流程如图l所示:
值得注意的是,为了构建准确、有效的专题数据集-进行分析,专利数据检索至关重要。在专利数据采集的过程中,首先采用关键词试检,从试检结果中寻找相
应表达的同义或近义词,扩充、调整检索策略,力求保证关键词的全面性与准确性,构建初始专利数据集。然后对初始专利数据集中的专利进行被引频次排序,遴选25-50个高被引专利作为种子专利,并请领域专家对种子专利进行判读。如果专家认为研究领域的种子专利不准确,则需要重新回到第一步,调整检索策略进行数据检索。
此外,在利用专利耦合进行技术监测的过程中,要注意设定合适的专利耦合阈值,阈值过大或过小都会影响耦合矩阵的构建,从而影响耦合技术热点的聚类。同时,那些低于耦合阈值的专利内容相对分散,较难形成热点,应该予以舍弃。
2.3.1 基于专利引证的技术领域数据集构建 利用专利引文和专利引文索引能识别那些用其他方式不能识别的专利之间的关系,而且这些关系往往可以使相关信息的检索变得迅速。正如Garfield E所言,除了专利引文和专利引文索引,现在尚无一种更加有效的工具可以确定某一专利所透露的技术是如何被改动、完善和利用的。马海群指出,引用检索作为传统专利情报检索方式(如分类或主题检索)的重要补充,可以有效地提高专利检索的查准率和查全率。借助专利与专利间的引用与被引用关系,本文提出“关键词+专利引文”的技术领域专利文献数据集构建方法,获得同一批技术专利技术起源的所有相关专利数据,提升检索效率、增强资料的搜集性及准确性,具体步骤如下:①与领域专家讨论,确定相关检索技术关键词,确定检索式进行关键词检索;②根据初检结果,构建与专题技术相关的初始专利数据集;③遴选TOP25-TOP50高被引专利作为该技术领域的种子专利;④检索引证种子专利的专利(citing patent)及其被引专利(cited patent),构建专题技术数据集。
通过上述步骤,构建待分析的技术专题数据集,其专利引证关系如图2所示:
2.3.2 技术热点监测方法文献中的间接关联包括文献耦合和同被引两种,都能用来确定研究热点(re-search fronts)。正如Persson和Morris。所言,耦合论文可以反映“研究热点”的知识结构,同被引论文则提供了一种知识基础(intellectual base)的知识结构。Glanzel指出论文从发表到被引用期问有一个明显的时滞,用同被引来映射学科结构存在时差,而耦合分析则可以实时地反映学科最新的动态变化。Van denBesselaar P等也指出,耦合测度的是源文献之间的关系,同被引测度的是被引文献之间的关系。前者是基于有意识的行为,即著者有意地将两篇文献联系起来,而后者仅是两篇文献出现之后的偶然关联。因此,文献耦合更适于最新研究主题的揭示。
为了在基于IPC分类号的宏观技术热点和基于词的微观技术热点中找到一个较好的平衡点,本文首先利用专利之间的耦合关系获得耦合专利簇,形成中观层面上的技术热点?技术热点交由领域专家识别,为其命名。其次,引入时间轴的概念,对耦合聚类实现的技术热点发展趋势进行分析,帮助技术决策者了解每个技术热点随时间的发展变化情况。再次,利用自然语言处理技术,从技术热点的专利文本中抽取词和词组进行统汁和聚类分析,获得以概念词为表征的技术热点,辅助技术决策。
3 实证研究
3.1 数据集的构建
本文采川基于专利引证的方法构建技术领域专题数据集。研究以DVD领域激光头技术为例,经与领域专家讨论,将optical head、pickup和pick up确定为检索关键词,从美国专利商标局(USPTO)文摘库中检索1995-2004年1O年间的专利数据,检索出1934个专利构建DVD激光头技术领域初始专利数据集。从巾遴选TOP25高被引专利作为该技术领域的种子专利。从USPT0数据库中检索出种子专利的729个施引专利(citing patent),去重后得到515个。上述515个专利又引用了3397个(去重后)被引专利(cited patent)。分别将上述数据下载到本地,构建专题数据库,作为本次研究的分析对象。
3.2 基于专利耦合的技术热点分析
研究首先将515个专利和3397个被引专利的专利号(patent number)、题名(title)、授权日期(issuedate)、专利权人(assignee)、技术分类号(IPC)从数据集中抽取出来,为后续分析做准备。然后将研究的耦合阈值确定为4,对原始数据集中的515个专利进行筛选,舍弃专利耦合强度少于4的那部分专利,得到272个专利作进一步的分析。
其次,根据专利之间的引证关系,生成专利初始引证矩阵。这是个典型的二值矩阵,即矩阵中所有的元素取值均为0或者1,如果两个专利之间存在着引证关系,即取值为1;如果两个专利之间不存在引证关系,即取值为0。本例中的研究对象有272个专利,需要生成272×272的矩阵,由于文章篇幅限制,略去原始的272×272矩阵。专利初始引证矩阵是一个不对称矩阵,根据初始引证矩阵转换成对称的专利耦合矩阵。
再次,采用层次聚类法对专利单元样本进行聚类分析。聚类的过程是:先将n维专利耦合矩阵转换成n维的相似矩阵,然后根据一定的聚类算法把分析对象分成类群。在选择相似性(similarity)测度方法时,本文采用了Dice相关系数来对耦合距阵进行标准化处理,采用离差平方和法(ward’s method)计算类间距离。上述步骤用Matlab提供的statistics toolbox工具,选择层次聚类方法实现,将耦合强度大于4的专利聚成了10个小类的专利簇,得到10个技术热点,并通过领域专家帮助,给每个技术子主题命名。
最后,绘制各技术热点的发展演变图,考察技术热点在10年间的发展变化。从DVD激光头技术各个子技术主题在10年间(1995-2004年)的发展趋势来看,大部分子技术主题在1997-2002年处于上升阶段,随后缩量发展,从一个侧面说明激光头技术整体而言已经相对成熟,自2003年始发明创新逐渐减少。其中,生命力最为旺盛的是技术热点4――光记录设备,从1997年至2004年不断有新技术发明问世。DVD激光头技术10个热点的发展演变如图3所示:
3.3 基于词聚类的技术热点分析
为了考察光记录设备这一技术热点的具体情况,随后将光记录设备的87条专利数据导入Patentics专利检索分析平台,进行概念聚类分析,得到10组概念索引词,表征光记录设备的详细技术热点,见表1。
其中,关于物镜的专利占了该技术热点的1/4,其次为光度头和激光束。在这些子技术热点中,日立、松下电工、富士施乐、日本电气等日本企业在光度头中表现突出,日立、富士施乐、希捷等企业在激光束中有较大的技术优势。
4 研究结论
篇9
近年来辽宁沿海经济带作为环渤海经济圈整体开发的重要组成部分,经济产生了飞速的发展,随着经济全球化进程的加快促使客运量和货运量的快速增加,现代物流业已经成为了辽宁省的支柱产业,港口作为客运和货运的最佳途径在社会经济发展中的作用日益凸显,必然使得港口物流成为了发展现代物流业的重中之重。为了加快辽宁省港口物流的发展,提高港口物流效率,保持港口的持续性竞争优势,就需要将各港口进行横向的比较了解其地域差异,从而有针对性的提高辽宁沿海港口物流的效率 [1-2]。
1 研究方法
1.1 聚类分析方法与步骤
聚类分析[3](Cluster Analysis),亦称群分析或点群分析,它是研究多要素事物分类问题的数量方法。在根据对象间的关联程度进行聚类分析时,有些类别是属于隐藏状态的,聚类分析之前并不知道具体能够分为几种类别,因此要根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。在聚类分析中,聚类要素的选择直接影响着分类结果的可靠性。
对聚类要素进行数据处理。假设有m个聚类的对象,每一个聚类对象都有x1…,x2,…xn个要素构成。在聚类分析中,常用的聚类要素的数据处理方法有总和标准化、标准差标准化、极大值标准化和极差标准化。
距离的计算。距离是系统聚类分析的依据和基础,选择不同的距离,则会使聚类结果产生差异,在地理分区和分类研究中,往往采用绝对值距离、欧式距离、明科夫斯基距离以及切比雪夫距离进行计算、对比,选择一种较为合适的距离进行聚类。
利用计算和程序进行聚类。聚类分析的方法主要有直接聚类法、最短距离聚类法、、最远距离聚类法、中线法、重心法、组平均法、距离平方和法、可变数平均法、可变法[3]这九种系统聚类分析方法。
1.2 指标选取
“十一五”以来,辽宁沿海港口集装箱吞吐量虽然呈大幅度上升趋势,但是与全国其他主要港口相比,其总体增长幅度处于全国中等水平,2000年全省港口集装箱吞吐量为122万TEU,2005年达到368.9万TEU,2010年仅大连港就达到526.2万TEU,而上海港达到2906.9万TEU、深圳港2250.97万TEU、宁波-舟山港1314.4万TEU、青岛港1201万TEU、天津港1000万TEU,是大连港的2-2.5倍。为了进一步了解辽宁沿海港口群各主要港口的差异情况,有必要从空间的角度来分析辽宁省沿海港口群的发展状况。辽宁港口承担了东北地区70%以上的海运货物,80%以上的外贸物资和90%以上的外贸集装箱运输[4-5]。根据交通运输部的统计数据,提取2010年1月份至10月份的辽宁主要港口企业内、外贸集装箱吞吐量作为聚类分析的指标,从而对辽宁沿海港口物流的地域差异进行研究。
2 辽宁沿海港口物流的地域差异研究分析
在SPSS中,根据聚类的过程不同聚类方法主要分为三种:分层聚类法(Hierarchical Cluster)、K-均值聚类(K-Means Cluster)和两步聚类(Two Step Cluster),本文选择SPSS中的分层聚类法(Hierarchical Cluster)对辽宁沿海港口物流进行地域差异的分析。分层聚类分析又称系统聚类分析,是聚类分析中最常用的方法,将关系密切与关系疏远的分别聚合,直到把辽宁沿海的所有港口聚合成唯一的类别为止。首先,对原始指标数据进行处理,这里利用标准差标准化的对原始数据进行转换,同时进行相似性与距离测度,然后对标准化后的数据进行聚类分析[6]。
用SPSS完成聚类运算各步骤之后,得出聚类分析结果的层次聚类树形图(如图1所示),由图可以看出,可将7个港口企业集装箱码头分为三类,第一类包括(2,3);第二类包括(5,6);第三类包括(1,4,7)。从这个分类结果可以看出,大连集装箱码头有限公司和大连港湾集装箱码头有限公司竞争力最强,港口物流发展最快,营口集装箱码头有限公司和营口新世纪集装箱码头有限公司其次,丹东港集团集装箱公司、锦州新时代集装箱码头有限公司以及大连国际集装箱码头有限公司发展相对较弱。这基本合辽宁港口物流发展的现状,辽东半岛以大连港作为集装箱干线港的主要枢纽港,营口港、丹东港、锦州港等为支线港[7]。地处东北亚经济发展圈中心的大连港,具有极其优越的发展区位,并且根据交通运输部的统计,大连港在2010年我国沿海港口货物吞吐量排名第六,营口排名第十,但是国际集装箱运输相对薄弱一些,2010年全年有六个月份以上在全国港口国际标准集装箱吞吐量排名第八,营口港除4月、5月、6月三个月份排名第十之外,其余都未上榜,说明还需要加强国际标准集装箱方面的发展。
3 结语
本研究提出通过采用聚类分析的方法来研究港口物流地域差异的问题,建立相应的数学模型并进行实际比较,所得比较结果有一定的说服力,对提高辽宁省港口物流发展以及相关政策的规定和执行有一定的参考价值。
参考文献:
[1]李学工,杨贺.现代港口物流产业组织的空间布局.水运管理[J].2007(2).
[2]刘.环渤海港口竞争力的地域差异分析及因果研究[D].研究生硕士学位论文,2009.
[3]徐建华.现代地理学中的数学方法[M].高等教育,2009.
[4]戚馨,韩增林.辽宁省主要港口物流效率分析[J].港口物流,2007(10).
篇10
Key words: colleges and universities;research status;factor analysis;cluster analysis;evaluate
中图分类号:G463 文献标识码:A 文章编号:1006-4311(2016)31-0015-04
0 引言
科研能力是衡量一所高校科教水平的重要标志。某高校作为省重点高校有着悠久的办学历史,科研水平在省内也是名列前茅,本文针对该高校20个学院的各项科研指标进行多元统计分析,建立了描述科研水平的各类变量,包括各类科研项目的经费总额、各类论文的发表数量、论著发表数量,投入科研人员数量等。但由于各学院规模不一,各学院科研性质也不尽相同,为了保证研究结果的平衡性,本文采用对科研成果人均贡献率的方式进行研究。然而进行统计分析时,并非变量收集的越多越有利,变量间信息的高度相关、高度重叠会给统计方法的应用带来许多困难,因此本文借助SPSS统计分析软件,采用因子分析方法,在众多变量中提取影响各学院科研状况的主要因子对问题进行分析,最后通过因子变量的聚类分析对评价结果进行验证。国内学者目前主要集中对我国体育事业进行科研状况分析,如贾志强、郑岩平对我国1995-2000年篮球科研状况作了分析。张金、夏秀荣对我国1994-2003年排球科研状况作了分析。在高校科研状况分析方面,孟学英、陈春华利用调查问卷方式对我国部分高职院校教师科研状况做了调查分析。同时国内对多元统计方法的应用也主要集中在医疗、经济方面,如孟莹、谢守祥等利用多元统计分析方法对江苏省经济差异化做了分析。王曦、宋剑南利用多元统计分析方法对影响中医症候的主要因素做了研究。利用多元统计分析方法结合高效科研状况评价分析还鲜有研究。本文结合多元统计分析分析方法对某高校科学地建立高校科研业绩的管理体系及评价体系提供了理论依据。
1 因子分析方法简介
因子分析是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量之间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究问题的某一具体问题,原始变量可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。进行因子分析的步骤如下:①根据研究问题选取原始变量。②对原始变量进行标准化并求其相关阵,分析变量之间的相关性。③求解初始公共因子及因子载荷矩阵。④因子旋转。⑤因子得分。⑥根据因子得分值进行进一步分析。
2 各学院科研状况的因子分析
2.1 数据分析和指标选取
本文选用的数据来源于某高校2006年至2015年的统计数据。设定数据中8个指标变量分别是X1:2006-2015年横向项目金额人均贡献率(万元/人);X2:2006-2015年市校级项目金额人均贡献率(万元/人);X3:2006-2015年省部级项目金额人均贡献率(万元/人);X4:2006-2015年国家级项目金额人均贡献率(万元/人);X5:A类论文人均贡献率(篇/人);X6:B类论文人均贡献率(篇/人);X7:C类论文人均贡献率(篇/人);X8:论著数量人均贡献率(项/人)。数据详情见表1。
在进行数据分析前,进行KMO检验,P值为0.000,检验结果是显著的,同时KMO值达到0.577,结果见表2,表明数据之间具有一定的相关性,可进行因子分析。
从表3变量共同度表中可以看出因子分析的变量共同度均较高,表明变量中的大部分信息均被因子所提取,说明因子分析的结果是有效的。
2.2 因子提取和因子解释
现应用主成分分析法来进行因子提取和因子个数的确定,从表4中可以看出只有前三个因子特征根大于1,并且前三个因子特征值之和接近80%,故提取前三个因子基本包含了全部测评指标的绝大部分信息,因子分析效果较理想。
由于初始载荷阵结构不够清晰,不便于对因子进行解释,因此对因子载荷矩阵实行旋转,达到简化结构的目的,使各变量在某些因子上有较高载荷,而在其余因子上只有小到中等的载荷。这里采用方差最大正交旋转法进行因子旋转。结果见表5。
从旋转后的因子载荷矩阵来看,第一个主因子在省部级项目金额人均贡献率、国家级项目金额人均贡献率、A类论文人均贡献率、B类论文人均贡献率上具有较高载荷,第二个主因子在C类论文人均贡献率、论著数量人均贡献率上具有较高载荷,第三个主因子在横向项目金额人均贡献率、市校级项目金额人均贡献率上具有较高载荷。
2.3 因子得分和因子变量
本文采用回归法估计因子得分系数,并输出因子得分系数矩阵见表6。
根据表6可写出以下因子得分函数:F1=-0.014横向项目金额人均贡献率-0.078市校级项目金额人均贡献率+0.263省部级项目金额人均贡献率+0.293国家级项目金额人均贡献率+0.178A类论文人均贡献率+0.508B类论文人均贡献率+0.021C类论文人均贡献率+0.174论著人均贡献率(1);F2=-0.159横向项目金额人均贡献率+0.065市校级项目金额人均贡献率+0.00省部级项目金额人均贡献率-0.057国家级项目金额人均贡献率-0.235A类论文人均贡献率+0.393B类论文人均贡献率+0.328C类论文人均贡献率+0.570论著人均贡献率(2);F3=0.442横向项目金额人均贡献率+0.582市校级项目金额人均贡献率+0.123省部级项目金额人均贡献率+0.010国家级项目金额人均贡献率-0.076A类论文人均贡献率-0.219B类论文人均贡献率+0.384C类论文人均贡献率-0.010论著人均贡献率(3)
通过上述公式(1)、公式(2)和公式(3)可得到各个学院的因子得分。从而获得三个因子变量,由于这三个因子变量是线性无关的。因此,可以利用它们对各个学院的科研状况做统计分析。
3 各学院科研状况的综合评价分析
下面利用三个因子变量对2006年-2015年该高校各学院科研状况做多元统计分析,并对各学院近10年来科研状况进行综合评价。
首先画出三因子变量的散点图,对各学院近10年来科研状况做对比分析。以第一因子变量为横坐标,第二因子变量为纵坐标,第三因子变量为竖坐标的三维散点图如图1所示。
从图1中可以看出P学院、O学院、M学院等的第一因子很高。说明这些学院在国家级项目人均贡献率、省部级项目人均贡献率、A类论文人均贡献率、B类论文人均贡献率上成绩突出,但在横向项目人均贡献率上稍显不足,这些学院应该在保持尖端学术科研的前提下,多加强与企业的合作,创造更多产业应用成果。L学院、R学院、N学院等的第二因子很高,说明这些学院在论著人均贡献率、C类论文人均贡献率上成绩突出,这与这些学院的科研性质是密不可分的,第二因子很高的学院可以在保持自己科研特色的前提下,多关注学术前沿的相关信息,争取在尖端科研中有更大的突破。如B学院、I学院等的第三因子很高,说明这些学院在横向项目人均贡献率上成绩突出,这些学院可以在紧密保持与企业的科研联系的基础上,加强自己在学科特色科研中的研究,多出一些基础研究方面的尖端科研学术成果,增强学院在科研创新中的能力。
最后利用系统聚类分析法对各学院科研状况进行聚类分析,即利用三因子变量对20个学院进行聚类,结果如表7所示,M学院、P学院、O学院和J学院为一类,B学院、I学院为一类,其它学院为一类。这个结果与散点图分析的情况基本类似。
4 结束语
本文针对某高校各学院科研状况进行综合评价分析,通过对高校近十年科研指标数据进行因子分析,将八个指标变量分为三个科研因子,分别是高端科研因子、校企合作科研因子、基础科研因子,并给出了因子得分模型,对各学院近十年的科研状况给出了分析,最终的聚类分析结果也对各学院科研状况做了验证说明。论文的研究成果为科学地建立高校科研业绩的管理体系及评价体系提供了理论依据。
从分析结果来看,因学院科研特色不同,导致各个学院在学术科研这个万花筒中所扮演的角色也各不相同,但各学院之间还是应当加强科研合作,取他人之长补己之短,这样才能为该高校向科研大校、科研强校的进军道路上打下坚实的基础。
参考文献:
[1]薛薇.SPSS 统计分析方法及应用[M].二版.北京:电子工业出版社,2006:303-349.
[2]张文彤.SPSS11统计分析教程―高级篇[M].北京:北京希望电子出版社,2002:166-210.
[3]李卫东.应用多元统计分析[M].北京:北京大学出版社,2008:226-240.
[4]阎慈琳.关于主成分分析做综合评价的若干问题[J].数理统计与管理,1998(2):22-24.
[5]胡永宏,贺思辉.综合评价方法[M].北京:经济科学出版社, 2000.
篇11
Cluster Anlaysis Methods of Data Mining
HUANG Li-wen
(School of Science, Quanzhou Normal University, Quanzhou 362000, China)
Abstract: Cluster analysis is one of the important methods of multivariate statistical analysis, and this method has a wide range of applications in many fields. In this paper, the classification of the cluster is introduced briefly, and then gives some common methods of cluster analysis and the advantages and disadvantages of these methods,and these clustering method were compared and anslyzed so that people can chose suitable clustering methods according to the actual issues.
Key words: Cluster Analysis; Data Mining?
1 引言
聚类分析是数据挖掘中的重要方法之一,它把一个没有类别标记的样本集按某种准则划分成若干个子类,使相似的样品尽可能归为一类,而不相似的样品尽量划分到不同的类中。目前,该方法已经被广泛地应用于生物、气候学、经济学和遥感等许多领域,其目的在于区别不同事物并认识事物间的相似性。因此,聚类分析的研究具有重要的意义。
本文主要介绍常用的一些聚类方法,并从聚类的可伸缩性、类的形状识别、抗“噪声”能力、处理高维能力和算法效率五个方面对其进行比较分析,以便人们根据实际的问题选择合适的聚类方法。
2 聚类的分类
聚类分析给人们提供了丰富多彩的分类方法,这些方法大致可归纳为以下几种[1,2,3,4]:划分方法、层次方法、基于密度的聚类方法、基于网格的聚类方法和基于模型的聚类方法。
2.1 划分法(partitionging methods)
给定一个含有n个对象(或元组)的数据库,采用一个划分方法构建数据的k个划分,每个划分表示一个聚簇,且k≤n。在聚类的过程中,需预先给定划分的数目k,并初始化k个划分,然后采用迭代的方法进行改进划分,使得在同一类中的对象之间尽可能地相似,而不同类的中的对象之间尽可能地相异。这种聚类方法适用于中小数据集,对大规模的数据集进行聚类时需要作进一步的改进。
2.2 层次法(hietarchical methods)
层次法对给定数据对象集合按层次进行分解,分解的结果形成一颗以数据子集为节点的聚类树,它表明类与类之间的相互关系。根据层次分解是自低向上还是自顶向下,可分为凝聚聚类法和分解聚类法:凝聚聚类法的主要思想是将每个对象作为一个单独的一个类,然后相继地合并相近的对象和类,直到所有的类合并为一个,或者符合预先给定的终止条件;分裂聚类法的主要思想是将所有的对象置于一个簇中,在迭代的每一步中,一个簇被分裂为更小的簇,直到最终每个对象在单独的一个簇中,或者符合预先给定的终止条件。在层次聚类法中,当数据对象集很大,且划分的类别数较少时,其速度较快,但是,该方法常常有这样的缺点:一个步骤(合并或分裂)完成,它就不能被取消,也就是说,开始错分的对象,以后无法再改变,从而使错分的对象不断增加,影响聚类的精度,此外,其抗“噪声”的能力也较弱,但是若把层次聚类和其他的聚类技术集成,形成多阶段聚类,聚类的效果有很大的提高。
2.3 基于密度的方法(density-based methods)
该方法的主要思想是只要临近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。也就是说,对于给定的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这样的方法就可以用来滤处"噪声"孤立点数据,发现任意形状的簇。
2.4 基于网格的方法(grid-based methods)
这种方法是把对象空间量化为有限数目的单元,形成一个网格结构。所有的聚类操作都在这个网格结构上进行。用这种方法进行聚类处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。
2.5 基于模型的方法(model-based method)
基于模型的方法为每个簇假定一个模型,寻找数据对给定模型的最佳拟合。该方法经常基于这样的假设:数据是根据潜在的概率分布生成的。该方法主要有两类:统计学方法和神经网络方法。
3 常用的聚类算法
目前,已经提出的聚类算法很多,常用的聚类算法主要有以下几种:系统聚类法、动态聚类法、CLARANS、CURE、DBSCAN、STING和模糊聚类法(FCM)。
3.1 系统聚类法
系统聚类法[5]是将n个样品看成n类,即一类包含一个样品;然后将性质最接近的两类合并成一个新类,这样就得到n-1类,再从这n-1类中找出性质最接近的两类加以合并,成了n-2类;如此下去,最后所有的样品均成一类;将上述类的合并过程画成一张图(这图常称为聚类图),这样便可决定分多少类,每类各有什么样品。
系统聚类法的计算简单,而且其聚类结果给出一个谱系图,因此,可以根据该图选择所需要的聚类结果。但是,它也有不足之处,其主要表现在以下几个方面:1)当样品数量很多时,而且只需要划分为较少的类别时,这种聚类方法的重复计算量很大;2)当某一样品划归某一个类后,其属性不变,若分类方法的选择不当,对聚类的精度影响很大;3)对大数据量进行处理时,计算机内存开销很大,有时,计算机受此限制而无法进行聚类分析,而且其速度很慢;4)抗干扰的能力很弱。
3.2 动态聚类算法
动态聚类法[5]就是在开始时先建立一批初始中心,而让待分的各个样品依据某种判别准则向初始中心凝聚,然后再逐步修改调整中心,重新分类;并根据各类离散性统计量(如均方差)和两类间可分离性的统计量(如类间标准化距离、J-M距离等)再进行合并和分裂。此后在修改调整中心,这样不断继续下去,直到分类比较合适为止。
动态聚类法使用随机方式选择 作为初始聚类中心,按照算法的迭代执行,整个算法的结束条件是类的重心(或凝聚点)不再改变,它的计算复杂性是O(nkt),其中,n为样本数量,k为聚类数,t为迭代次数。与系统聚类法相比,动态聚类法明显的优势是运算量小,能用于处理庞大的样本数据,也为实时处理提供了一定的可能性,但其也存在一些缺点,主要表现在以下几个方面:(1)动态聚类法要求用户必须事先给出聚类的数目,选择初始划分的最佳方向、更新分区和停止准则,且其结果与数据输入顺序有关,不同的初始值可能会导致不同的结果;(2)对于噪声和孤立点敏感,很容易受例外情况的影响,适用于发现球状类,但不适合发现非凸面状的簇,不适合大小差别较大的簇;(3)一个对象只能属于一个类中,不能多维揭示其多重属性。
3.3 CLARANS算法
CLARANS[2,6,9]也叫随机搜索聚类算法,是一种分割聚类方法。该算法是基于CLARA算法的改进,与CLARA算法不同的是:CLARA算法在每个阶段都选取一个固定样本,而CLARANS在搜索的每一步都带一定的随机性选取一个样本,在替换了一个中心点后得到的聚类结果被称为当前聚类结果的邻居,搜索的邻居点数目被用户定义的一个参数加以限制。如果找到一个比它更好的邻居,则把中心点移到该邻居节点上,否则把该点作为局部最小量,然后再随机选择一个点来寻找另一个局部最小量。
该算法能够探测孤立点,并适用于大型数据库,但其计算复杂度复杂度较高,大约为O(n2);此外,该算法对数据输入的顺序敏感,适用于凸形或球形数据。
3.4 CURE算法
CURE[6,7,8]算法是一种使用代表点的聚类算法。该方法首先把每个数据点看成一簇,然后再以一个特定的收缩因子向中心“收缩”,即合并两个距离最近的代表点的簇,直至达到预先给定的聚类个数为止。它回避了用所有点或单个质心来表示一个簇的传统方法,将一个簇用多个代表点来表示,使CURE可以适应非球形的几何形状。另外,收缩因子降底了噪音对聚类的影响,从而使CURE对孤立点的处理更加健壮,而且能识别非球形和大小变化比较大的簇。
该算法采用随机抽样与分割相结合的方法来提高聚类效率,对于大型数据库,它也具有良好的伸缩性,运行速度很快,而且有较好的聚类效果,其计算复杂度为O(n)。
3.5 DBSCAN算法
DBSCAN算法[6,7,8,9]是一种基于高密度连接区域密度的聚类算法。该方法将密度足够高的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。其主要的思想是通过检查数据库中每个点的ε-邻域来寻找聚类。如果第一个点p的ε-邻域包含多于MinPts个点,则创建一个以P作为核心对象的新簇,否则先把它暂时标为噪声点,跳到下一个点,并判断它是否为核心点。然后反复地寻找从这些核心点直接密度可达的对象,当没有新的点可以被添加到任何簇时,该过程结束。
该算法可以数据集中的所有簇和噪声,但其不对数据集进行预处理而直接进行聚类操作,当数据集很大时,占用内存很大,而且I/O消耗也很大,如果采用空间索引,其计算复杂度为O(nlogn),否则,其计算复杂度为O(n2)。
3.6 STING算法
STING算法[2,3,8]是一种基于风格的多分辨率聚类技术,它将空间区域划分为矩形单元。针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构,高层的每个单元被划分为多个低一层的单元,高层单元的统计参数可以很容易地从低层单元计算得到,而统计信息的查询则采用自顶向下的基于网格的方法。这些参数包括:属性无关的参数count;属性相关的参数m(平均值)、s(标准偏差)、min(最小值)、max(最大值)以及该单元中属性值遵循的分布(distribution)类型。该算法预先计算和存储每个单元的统计信息,它不依赖于查询的汇总信息。
该算法主要优点是效率高,有利于并行处理和增量更新;它通过扫描数据库一次来计算单元的统计信息,因而其计算复杂度为O(n)。在层次结构建立后,其查询处理的计算复杂度为O(m),其中m为最低层网格单元的数目。其缺点是聚类质量取决于网格结构最低层的粒度,粒度的大小会明显影响处理代价,特别是当数据集的维数较高时,由于生成网格层次及每一层的单元数较多,算法的效率会降低。
3.7 模糊聚类算法(FCM)
传统的聚类分析是一种硬划分,它把每个待识别的对象严格地划分到某类中,具有“非此即彼”的性质;而在实际中,大多数对象并没有严格的属性,它们在性态和类属方面存在着中介性,具有“亦此亦彼”的性质;鉴于此,人们开始用模糊的方法来处理这类问题,从而产生了模糊聚类的方法,也就是说,模糊聚类法[5]是将模糊数学的思想观点用到聚类分析中产生的方法,其关键是隶属函数的确定。该方法多用于定性变量的分类。其主要算法如下:
(1)选择一个初始模糊分类方案,将n个样本分成k个模糊类,得到一个模糊隶属度矩阵U={uij,i=1,2,…,n;j=1,2,…,k},其中uij表示样本Xi对模糊集Cj的隶属度,uij∈[0,1];
(2)利用矩阵 计算模糊评判函数的值,模糊评判函数通常是一个与对应的分类相联系的加权平方误差和
是第k个模糊集的中心,重新分配样本到各模糊集以减少评判函数的值并重新计算U;
(3)重复(2),直到矩阵U不再有较大的变动。
模糊聚类解决了一些混合对象的归类问题,同时,当样本数较少的时候,应用该方法的优越性也比较明显,另外,其抗干扰的能力也较强;但是,它对一些隐含类的提取能力还有待于进一步的改进,除此之外,预定的分类数目一般也是人为决定的,同动态聚类一样,就可能出现人为预定的分类数与实际存在的类数不相符这种情况,从而影响分类的结果。
4 聚类的性能比较
基于上述的分析,现从可伸缩性、类的形状识别、抗噪声能力、处理高维能力和算法效率五个方面对常用聚类算法的性能进行了比较,结果如下表。通过这些比较,可以给聚类算法研究和应用的选择提供参考。
5 结束语
目前,已经提出的聚类算法很多,每种方法都有其优缺点和不同的适用领域,可以根据上述的分析,选择适合特定问题的聚类方法;但是,在实际应用中,由于数据的复杂性,往往用某种聚类算法进行聚类划分得到的效果不佳,可能要综合多种聚类方法才能得到较好的聚类效果。因此,在将来的研究中,需要做好对现有聚类算法的改进和融合,以便得到更好的聚类方法。
参考文献:
[1] 孙孝萍.基于聚类分析的数据挖掘算法研究[D].硕士学位论文,2002.4.
[2] 覃拥军,刘先锋.数据挖掘中的聚类研究[J].科技咨询导报,2007(16):28-30.
[3] 梁志荣.数据挖掘中聚类分析的技术方法[J]. 电脑开发与应用,2007,20(6):37-39.
[4] 谷淑化,吕维先,马于涛.关于数据挖掘中聚类分析算法的比较[J].现代计算机,2005(3):26-29.
[5] 黄利文.基于几何概率的聚类分析[D]. 硕士学位论文,2006(1).
[6] 张红云,刘向东,段晓东等.数据挖掘中聚类算法比较[J].计算机应用与软件,2003(2):5-6.
[7] 王劲波,翁伟,许华荣.数据挖掘中基于密度的聚类分析方法[J].统计与决策,2005(10):139-141.
[8] 刘泉凤,陆蓓. 数据挖掘中聚类算法的比较研究[J].浙江水利水电专科学校学报,2005,17(2):55-58.
[9] 丁学钧,杨克俭,李虹等.数据挖掘中聚类算法的比较研究[J].河北建筑工程学院学报,2004,22(3):125-127.
篇12
1.1 指标选取
为了分析公共图书馆科研实力的区域水平,本文从论文产出的角度,运用文献计量学对31个地区公共图书馆2002—2011年的科研产出进行评价,选取总数、基金资助论文数、核心期刊论文数、核心期刊率、被引篇数、被引频次、篇均被引量、论文被引率、高频被引论文数、高频被引论文频次、H指数作为评价指标,这些指标内容包含了论文产出规模和学术影响力,既有量的内容,也有质的反映,指标内容基本上反映了一个公共图书馆的科研实力,有关指标的说明详见表1。
1.2数据来源
利用中国期刊全文数据库统计各地区公共图书馆在2002—2011年发表的论文总数、核心期刊发文数和基金资助论文数;利用中国引文数据库统计2002—2011年各地区公共图书馆论文被引篇数、被引频次、高频被引论文数、高频被引论文频次和H指数,统计时间为2012年10月;统计期刊按《中文核心期刊要目总览(2004版)》7〕和《中文核心期刊要目总览(2008版)》〔〕的图书馆学、情报学类核心期刊表;各地区公共图书馆名单来自《中国图书馆年鉴2010》。
经过统计、汇总和计算获得2002—2011年31个地区的公共图书馆在上述11个指标的具体数据,如表2所示。表22002-2011年我国31个地区公共图书馆论文产出一览表2.
1.3研究方法
1.3.1因子分析
因子分析是多元统计分析中应用广泛的一种方
法,通过数据的降维,将具有一定关联的多个变量进行高度概括,简化为几个互不相关的公共因子,每个因子都反映了某一类事物的共同特征。
1.3.2聚类分析
聚类分析是研究区域差异和划分地域类型的常用方法。聚类分析的目的是根据数据的特征,计算各观察个体或变量之间亲疏关系,根据某种方法将观察个体或变量分为若干类。本文采用SPSS分层聚类中的Q型聚类对31个地区公共图书馆进行分类分析,其中,个体距离采用平方欧氏距离,类间距离采用平均组间链锁距离,根据各地区公共图书馆的科研实力划分为不同类型的区域。
2数据分析
2.1因子分析及指标内涵
运用SPSS16.0统计软件对表2中的11个变量进行因子分析,得到各变量的特征值,见表3。
从表3可知,因子1、因子2的累计贡献率已达81.072%,根据累计贡献率大于80%的原则选取主因子,因子1和因子2可以作为主因子,但为了更准确的解释原有变量的信息,本文选择前3个因子作为主因子(分别用F1、F2和R表示),它们的累计贡献率已达到87.663%,可以比较准确地反映2002—2011年我国公共图书馆各地区的科研状况。为了使各因子变量具有更好的解释性,本文采用方差最大法进行正交旋转,旋转后的因子载荷矩阵如表4所示。
由表4可知:主因子F;i在核心期刊率、核心期刊论文数、高频被引论文频次、高频被引论文数、H指数等指标上有较高的载荷,这5项指标代表了论文高影响力,因此,主因子R可以看成是一个质量因子;主因子R在论文总数、被引篇数、基金资助论文数、被引频次等指标上有较高的载荷,这4项指标都是论文的数量指标,因此,主因子F可以看成是规模因子;主因子R在论文被引率、篇均被引量等指标上有较高的载荷,这2项指标反映了论文被引比重和篇均影响力,因此,主因子R可以看成另一个质量因子。
2.2 我国公共图书馆科研实力综合评价
运用SPSS得分功能,可以直接得到各地区公共图书馆在上述3个主因子的得分,以3个主因子的方差贡献率为权数,各地区公共图书馆科研实力综合得分公式为:
F综合=0.34119F1+0.31069F2+0.22475F3(1)将3个主因子的具体得分代入公式(1)中,各地区公共图书馆科研实力综合得分与排名如表5所示
从表5科研实力综合得分的排名来看,广东省公共图书馆科研综合实力最强,上海市仅次之;广东、上海、湖南、黑龙江、浙江、江苏、天津、辽宁、吉林、河南、宁夏11地区都在0分以上,其它20个地区都在0分以下。从各因子的单项排名看:
(1)在质量因子R论文局影响力上,上海市公共图书馆以3.109分名列榜首,学术影响力最大,广东省公共图书馆次之,天津、宁夏、湖南名列前5名。
(2)在规模因子R上,广东省以2.456分排名第1,浙江、辽宁、黑龙江、吉林、北京、河南、广西、天津、江苏、山东、重庆、贵州12地区紧随其后,得分都在0分以上,其它地区得分都在0分以下。
(3)在质量因子R——论文被引比重和篇均影响力上,江苏省以2.303分位于第1名,江西、福建、广东,上海名列前5名。
综合上述科研实力综合得分排名与3个主因子单项排名,广东省公共图书馆在论文产出的规模和质量上都名列前茅,综合得分排名第1,显示出其强大的科研产出实力;上海市在质量因子R上得分最高,学术影响力全国最大,综合得分排名第2,但论文产出规模较小,规模因子得分仅排在第28名;辽宁、吉林两省综合得分名列前9名,规模因子得分排名前5名,但质量因子R得分却排名最后。西藏,新疆,内蒙古三个地区公共图书馆科研实力的综合得分排名最后,科研实力最弱,从表2可知,在11项指标中,各指标数量远远少于其它地区。
3.我国公共图书馆科研实力的类型划分及区域差异分析
3.1科研实力的类型划分
为了便于分析各地区公共图书馆科研产出的相同点和不同点,更加确切地描述我国公共图书馆科研实力的状况,本文以各地区科研能力的综合得分为变量进行聚类分析,把我国31个地区的公共图书馆分为7大类,见表6。
3.2 区域差异分析
为了分析不同区域的公共图书馆科研情况,按照表6所示类型列出各区域的指标平均值和各指标的基本描述(见表7)
第1类是广东省。其在论文总数、核心期刊论文数、被引篇数、论文被引率、被引频次、高频被引论文数、H指数7个指标上均名列第1,论文产出规模最大,学术影响力较大,科研综合实力在全国处于领先水平。
第2类是上海市。其在核心期刊率、篇均被引量、高频被引论文频次3个指标上均名列第1,在核心期刊论文数、被引频次、高频被引论文数、H指数4个指标上均名列第2,其学术影响力最大,但在论文产出规模因子上的分值偏低,科研综合实力在全国处于优势地位。
第3类是湖南、黑龙江、浙江、江苏、天津5个地区。科研综合实力得分仅次于广东省和上海市,江苏省在被引比重和篇均影响力因子上得分第1,但在论文高影响力上得分较低;湖南省得分较均衡;天津市在论文高影响力上得分较高,但在被引比重和篇均影响力因子上得分较低;黑龙江和浙江两省在规模因子上得分很高,但在质量因子上得分较低。从表7得知,该区域的大多数指标数量低于广东、上海,但又高于其它区域,科研综合实力较强。
第4类是辽宁、吉林、河南3个地区。辽宁、吉林两省在规模因子上得分较高,但在论文高影响力因子上得分排名最后;河南省得分较均衡。从表7可知:该区域除在基金资助论文数量上高于第III类区域外,其它指标数量均低于第III类区域,科研综合实力处于全国中游水平。
第5类是宁夏、福建2个地区。宁夏地区在论文高影响力上得分偏高,但在规模因子、被引比重和篇均影响力因子上得分很低;福建省在论文被引比重和篇均影响力上得分偏高,但在其他两个因子上得分较低。从表7可知,该区域除核心期刊论文数高于第W类区域、核心期刊率高于第III类和第IV类区域外,其它指标均低于前几类区域,科研综合实力处于全国下游水平。
第6类是北京、河北、山西、安徽、江西、山东、湖北、广西、重庆、四川、贵州、陕西、甘肃13个地区。该区域科研综合实力偏低,江西省在被引比重和篇均影响力因子上得分偏高;北京、广西在规模因子上得分较高,其它地区在三个因子上得分都不高。从表7看出,该区域除论文总数高于第V类区域外,其它指标数量均低于前五类区域,科研综合实力处于全国偏弱水平。
第7类是青海、海南、云南、内蒙古、西藏、新疆6个地区。从表7中可看出,该区域公共图书馆科研实力各项指标的数量都远远小于其它区域,除了个别地区在某个因子上得分较高外,大多地区在各个因子中的得分和科研实力综合得分都处于全国落后地位。
同时对表7中各指标的描述性分析看出,比值最大的指标是高频被引论文频次(417.17次),最高的是上海市(2503次),最低的是第V类区域(6次)。标准差反映了组内个体之间的离散程度、差距的大小,除了论文被引率标准差较小(0.19)外,其它10个指标的标准差都较大,最大的是论文被引频次,达到了2934.81。从以上分析得出:我国各地区公共图书馆科研实力差异较大,中东部高于西部。
4.结论及建议
4. 1结论
(1)区域间科研综合实力差异悬殊。不论是以科研实力综合得分为变量进行聚类分析还是以三个主因子的得分作为变量进行聚类分析(由于篇幅有限,本文不再阐述用因子得分变量进行聚类的过程),第丄类地区的广东省和第2类地区上海市都是单独聚类,再次体现了在科研产出规模和影响力上的突出优势。虽然第III类、第w类、第V类、第w区域中有的省份在某些因子中得分较高,但其平均综合得分尚不及第丄类地区、第2类地区的一半,第VII类地区在论文产出的各项指标上基本上全处于落后地位,与其它地区有着巨大的差距。
(2)区域内科研产出差异较大。在第III类地区中,天津市在论文高影响力因子上的得分远高于浙江省,江苏省在被引比重和篇均影响力因子上的得分远高于天津市;在第w类地区,河南省在论文高影响力因子上的得分远高于辽宁省;在第V类地区,宁夏在论文高影响力因子上的得分远高于福建省,而在论文被引比重和篇均影响力因子上的得分远低于福建省。
(3)地区内部科研产出存在很大差异。在统计数据过程中发现,地区内部的公共图书馆科研产出也存在很大差异,很多地区的市级图书馆10年间很少,大多数基层(县级)图书馆几乎没有,一个地区公共图书馆的科研实力主要由省级图书馆的科研实力所决定。但科研实力综合得分名列前茅的几个地区,市级图书馆或区级图书馆在论文产出规模和影响力方面,都有一定的优势,如广东省的深圳图书馆、广州图书馆、佛山市图书馆、汕头市图书馆、东莞图书馆、广州少年儿童图书馆、深圳市南山图书馆、深圳市宝安区图书馆等;湖南省的长沙市图书馆、岳阳市图书馆、常德市图书馆等;浙江省的温州市图书馆、杭州图书馆、衢州市图书馆等;黑龙江省的哈尔滨市图书馆、齐齐哈尔市图书馆、牡丹江市图书馆等。由此看出,一个地区的公共图书馆只有“百花齐放”,才能提升整个地区的科研综合实力。
(4)需要从多个方面对公共图书馆的科研实力进行全面评价。本文只是从论文产出的角度对地区公共图书馆进行了科研实力评价,更全面的科研能力测度还需考虑期刊的影响因子、著作、专利、基金课题的级别、期刊对本地作者的倾向性和社会影响等因素。参考有关单位对科研实力评价的各种方法,不但包括对学术队伍、学历水平、努力程度、人均产出等内部因素的评价,还要包括对科研经费投入、资料设备、科研激励、科研氛围、地区经济发展水平等外部因素的评价。如何设计出更加合理的评价指标体系,对公共图书馆科研实力进行评价,期待有更多的学者进行研究。
3. 2建议
篇13
1概述
2016年,杭州举办了举世瞩目的G20峰会,2022年杭州又将迎来第亚洲运动会,G20峰会不仅会大大提高了杭州的知名度和美誉度,同时将其国际化进程大大推向前进,2016年杭州正式跻身一线城市行列。得益于杭州持续推进城市建设的力度,尤其是规划中的10条地铁轨道交通和城际铁路的建设,杭州的房价在G20之后迎来了一波快速上涨。房价问题一直是全国人民都热切关注的问题,众多的学者对房价的走势都做了相关的研究。许光建在对全国35个城市的房价的研究中,就指出城市基础设施、教育、医疗卫生等公共服务的投入在一定程度上影响着房价的变动。徐美茹在《房价与地价因果关系研究》一文中也表明,过于宽松的金融环境是造成近年来房价过快的重要原因。王海滋在研究中构建了房价与人均可支配收入、与人均GDP的回归分析,结果表明北京房价增速远高于人均可支配收入与人均GDP的增长幅度。彭聪应用OLS对我国房地产销售价格与国内生产总值(GDP)、居民消费价格指数(CPI)、居民可支配收入等加以回归分析,结果表明经济总理、物价等都是影响未来房价走势的重要因素。本文主要基于2016年杭州市13个行政区的相关数据,分别从每个行政区的总GDP、人均GDP、人均可支配收入三个维度进行聚类,对杭州13个行政区区的房价问题进行分析,得到了一些有意义的结论并针对这些结论提出一些合理的建议。
2数据的收集处理
2.1数据指标选择
杭州各行政區当前的房价到底是否合理,这是一个值得研究的问题。因此,本文选用2016年杭州13个行政区的相关数据,利用国内生产总值(GDPI、居民家庭人均可支配收入、人均GDP三个指标对杭州13个行政区的房价问题进行聚类分析。GDP即国内生产总值,是指在一定时期内一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,将其作为考察的变量主要是力求反映各地区的经济状况对房价的拉动作用。人均GDP是一个考虑了人口因素的相对指标,弥补了GDP仅考虑总量的不足,选用该指标可以同时兼顾经济发展和社会人口发展。居民人均可支配收入是指居民家庭全部收入中可用于支付生活费用的收入,该指标被认为是消费开支的最重要的决定性因素。
2.2数据收集处理
本文搜集了2016年杭州13个行政区的数据如表1所示。论文研究过程中所涉及的分析数据,主要来自杭州统计信息网(网址:http://hzstats.gov.cn/)和千数堂(网址:http://d.askci.com/)。
由于不同的指标数据之间取值范围相差较大,为了使具有不同数量级的数据能放在一起比较,需要进行数据的标准化操作,本文采用的Z-score进行数据的标准化处理。Z-score标准化可以根据公式(1)执行,经过处理的数据符合标准正态分布,即均值为0,标准差为1。
其他数据如上述操作所得,最终结果如表2所示。其中z1表示GDP总量的标准化值;Z2表示人均GDP的标准化值;Z3表示居民人均可支配收入的标准化值;Z4表示每平方米商品房房价的标准化值。
3房价的聚类分析
聚类分析就是根据某种相似性度量标准,将一个没有类别标号的数据集s直接拆分成若干个子集Ci(i=1,2,…..k;k≤n),使得每个子集内部数据对象之间相似度很高,而不同子集的对象之间不相似或相似度很低。本文主要采用SPSS中的系统聚类方法,以最短距离为计算依据实现聚类分析。最短距离法就是一组对象两两之间的距离矩阵m×m的非对角元素中找出dpq=min{dij}1≤i≤m,1≤j≤m,从而把把分类对象G,和G。并未以新类Gr,然后再按结算公式l计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。
Grk=min(dpk,dqk)k≠p,q(5)
使用SPSS软件的系统聚类进行聚类分析之后,得到如图1所示的树状图。
图1清楚地反映了聚类分析的全过程,通过树状图对所选的13个行政区进行分类,得到表3。
通过比较表1与表3,我们可以得出以下结论:
①房价水平较合理地的是上城区和滨江区,虽然两者的房价很高,但无论从GDP总量还是人均GDP方面看,两者都名列前茅。上城区是南宋皇城所在地,山水江湖聚一身,吴山广场、河坊街等都在此。滨江区是浙江省最有影响的科技创新基地、高新技术产业基地和最具活力的经济增长区域,汇聚了浙江乃至全国各地的脑力IT精英,房地产市场相对成熟。
②萧山区和余杭区,是杭州最晚设区的,这两者无论在GDP总量、人均GDP、还是家庭可支配收入的指标上,都处于中间位置,两者的房价基本上也是如此反映。
③江干区、拱墅区、下城区、西湖区在GDP总量、人均GDP、家庭人均可支配收入指标上的排名都是比较靠前的,但是经济高速发展的同时其房地产市场也存在着一些问题,致使这些行政区的房价有些不合理。这些行政区都是杭州的主城区,相对来说经济比较发达,外来人口流入较多,可能这也是导致房价过高的一个因素。
④建德市、桐庐县、临安市、淳安县、富阳区,这些行政区总体上来说经济发展并不是很好,但从房价问题考察,可发现这些行政区的房价还是比较合理的,究其原因可能是这些行政区的人口相对较少,房价比其他行政区低。