在线客服

数据分析方向实用13篇

引论:我们为您整理了13篇数据分析方向范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。

数据分析方向

篇1

2. 网站访问时段

从上图观察发现,我们可以分析出用户在上午9点-11点,下午14点-17点,这两个时段较为活跃,那么便可根据此进行推广,因为访客越是活跃,进行推广便更呕效果。同样的,在做竞价推广时,也可以此作为参考。

3. 搜索引擎分析

有统计数据可以发现,各个搜索引擎过来的流量有多少,而从该网站数据上看,该网站的主要访客来源于百度,竟然如此,该站就更加需要加强百度优化,更多的去迎合百度。

4.搜索词

通过对搜索词的查看,我们可以查看用户主要通过哪些词来到该网站,从而可根据此来对长尾关键词进行挖掘。同时我们可以发现用户是通过一些我们根本想不到的词来访问网站,通过这些词我也可作为研究用户搜索习惯的重要参考因素。

5.访问时长及跳出率

通过对访客的页面停留时间长短及跳出率,我们可以分析出用户的需求点,从而分析出哪些最终页,哪些是过度页。如此此我们就可以根据此来对页面进行优化,以及分析哪些栏目更应放在首页等。

6.浏览器访问比例

篇2

The Application of Correlation Analysis Algorithms in the Data Invites Chien

ZHANG Hanyun,DUAN Peng

(School of Mathematics and Computer Science,Yunnan University of Nationalities,Kunming 650031,China)

Abstract: The data warehouse was constructed by using the mass data of computer science majors’ scores generated during the past three years in thirteen classes of four grades, we analyze the corresponding degree of different courses in the database using corresponding analyzing techniques, and condense the attributes in database according to corresponding factors, An example is given to illustrate the application of the proposed method. The analysis introduced in the paper has provided a scientific basis for improving the teaching quality .Then it is prepare for the Association rules mined of different courses.

Key words: data mining;data warehouse; correlation analysis

相关分析法是在分析某个问题或指标时,将与该问题或指标相关的其他问题或指标进行对比,分析其相互关系或相关程度的一种分析方法,用少数几对综合变量来反映2组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.本文主要研究如何利用相关分析技术产生计算机专业课之间的相关系数,发现专业课程之间的相关度,对数据仓库中的数据进行约简[1].

1 相关分析

1.1 相关分析概述[2]

相关分析(Correlation Analysis)是研究随机变量之间的相关关系的一种统计方法.相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系.例如,教育投资与教育发展速度的关系、教师教学水平和学生的学习效果之间的关系等[3].

相关系数值为-1(完全负相关关系)~+1(完全正相关关系)之间,相关系数为0时,表示不存在相关关系.例:

正相关:学生的学习能力与学习成绩的关系;

负相关:教师的身体状况与缺勤率的关系;

零相关:教师的身高与教学能力的关系.

Pearson相关用于双变量正态分布的资料,其相关系数称为积矩相关系数(Coefficient of Product-Moment Correlation).进行相关分析时,我们一般会同时对2变量绘制散点图,以更直观地考察2变量之间的相互变化关系[4].

用Flag Significant Correlations 进行显著性检验,标出有显著性意义的相关系数,用一个星号“*”标记在α=0.05水平上有显著性意义的相关系数;用2个星号“**”标记在α=0.01水平上有显著性意义的相关系数[5].

1.2 相关分析的表示方法

进行相关分析的主要方法有图示法和计算法.图示法是通过绘制相关散点图来进行相关分析,计算法则是根据不同类型的数据,选择不同的计算方法求出相关系数来进行相关分析.

1.2.1 图示法

图示法的具体做法就是绘制相关散点图.相关散点图是观察2个变量之间关系的一种非常直观的方法.具体绘制的方法是:以横轴表示2个变量中的1个变量(作为自变量),以纵轴表示另一个变量(作为因变量).将2个变量之间相对应的变量值以坐标点的形式逐一标在直角坐标系中,通过点的分布形状和疏密程度来形象描述2个变量之间的相关关系.

相关散点图可以通过手工绘制而得到.但如果面对的变量值比较多,手工绘制的过程既费时,又不够精确.

1.2.2 计算法

相关系数也称为相关量,是用来描述变量之间变化方向和密切程度的数字特征量,一般用r表示.它的数值范围在-1到+1之间,它的正负号反映变量之间变化的方向;它的绝对值的大小反映变量之间关系的密切程度.

根据2个变量变化的密切程度,我们把相关关系分为完全相关、高度相关、中度相关、低度相关、零相关[6].

完全相关:│r│=1的相关;

高度相关或强相关:0.7≤│r│<1的相关;

中度相关:0.4≤│r│<0.7的相关;

低度相关或弱相关:│r│<0.4的相关.

1.3 Pearson相关

Pearson相关也称积差相关,积差相关也称积矩相关,是英国统计学家Rearson提出的一种计算直线相关的方法,因而又称为Rearson相关[6-7].

积差相关系数是2列成对观测值中各对观测值的标准分数乘积之和除以观测值对数所得之商[8].

1.3.1 Pearson相关的使用条件

1) 2个变量之间是线性关系,都是连续数据;

2) 2个变量的总体是正态分布,或接近正态的单峰分布;

3) 2个变量的观测值是成对的,每对观测值之间相互独立.

1.3.2 Pearson相关的计算公式

r=∑ZXZYn=∑X-Y-nσXσY.

式中,[ZK(]n表示数据的对数;σX,σY分别表示X和Y变量的样本标准差;[JP],分别表示X和Y变量的样本平均数.[ZK)]

对于学生成绩,其课程总体分布接近正态分布,满足Pearson相关的使用条件.在统计软件SPSS中,可以很方便地得出2变量之间的Pearson相关系数.[JP]

2 用相关分析法进行数据约简

2.1 学生成绩数据仓库的建立

数据选择上,主要选择了作者所在学校计算机专业3年来产生的专业基础课成绩,收集并整理了包含高等数学、C语言、数据结构和数据库系统原理的504条学生成绩数据.并将具体的成绩数据离散化为4个等级[9],即:

成绩>=80“A”; 70=

2.2 用相关分析法进行数据约简

对大规模数据库内容进行复杂的数据分析通常需要耗费大量的时间,这就常常使得这样分析变得不现实和不可行,尤其是需要交互式数据挖掘时.数据约简技术正是用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘,显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果基本相同[10].

数据约简并不是一个新的领域,现在已经提出了很多理论和方法,如:层次分析法,主成分分析法,随机抽样、免疫算法等.本研究根据实际需要,提出将相关分析方法应用于学生成绩的属性约简,即方便快捷又不失理论性.

在SPSS软件中,画出计算机专业课高等数学成绩的直方图,如图1.

用同样的方法,可以画出其他计算机专业课如C语言、数据结构等的直方图,可以看出,我们所建立的数据仓库中,学生计算机专业课程成绩基本上符合正态分布,满足Pearson相关的使用条件.

我们用双变量相关分析技术来分析相关课程之间的关联程度,并做出统计学推断,以最少的数据量反映最大的信息量,进而对数据库的属性进行约简.通过相关分析约简相关性较弱的属性,选择相关性强的属性而不直接利用数据库中的所有属性,从而减少大量冗余属性,以提高算法的效率.

在SPSS中进行课程间Pearson相关系数分析,得到计算机专业课程相关系数分析表如表1.

1:表中数值为4门课程进行相关分析得到的皮尔逊相关系数(Pearson Correlation)、相伴概率(Sig.(2-tailed))、样本个数(N).“*”标记在α=0.05水平上有显著性意义的相关系数;用两个星号“**”标记在α=0.01水平上有显著性意义的相关系数;

2:相伴概率用来判断求解线性关系的两变量之间是否有明显的线性关系.一般将这个Sig值与0.05相比较,如果它大于0.05,说明平均值在大于5%的几率上是相等的,而在小于95%的几率上不相等;如果它小于0.05,说明平均值在小于5%的几率上是相等的,而在大于95%的几率上不相等;如C语言与数据结构的Sig是0,此数值说明C语言与数据结构有显著的线性关系(因为Sig0.05,则说明两变量之间没有明显的线性关系).

由表1可以看出,同一门课程之间的Pearson相关系数为1,是完全相关关系.高等数学与C语言之间的Pearson相关系数为0.283,C语言与数据结构之间的Pearson相关系数为0.281,数据结构与数据库系统原理之间的Pearson相关系数为0.565,并且都有“*”标记,由此可以推断这4组课程之间有显著性意义的相关性.

3 结语

用相关分析技术对数据库进行约简,结果表明:线性代数、计算机导论及Pascal语言等多个因素相关性较弱;而C语言、数据结构、高等数学及数据库系统原理之间相关性较强,根据数据库约简原则,可将线性代数、计算机导论及Pascal语言等多个属性项从数据库中删除,以便提高数据挖掘效率.

参考文献:

[1]段西凌,甘开鹏.数据挖掘在人口普查信息系统中的应用[J].云南民族大学学报:自然科学版,2006,15(2):170-172.

[2]茆诗松.统计手册[M].北京:科学出版社,2003.

[3]TANG Zhaohui,MACLENNAN J.数据挖掘原理与应用[M]. 邝祝芳,焦贤龙,高升,译.北京:清华大学出版社,2007.

[4]王艳.数据挖掘中关联规则的探讨[J].成都信息工程学院学报,2004,19(2):173.

[5]张儒良,王翰虎.论数据挖掘优化教学管理[J].贵州民族学院学报,2004:133.

[6]赵辉.数据挖掘技术在学生成绩中分析中的应用[D].大连:大连海事大学,2007.

[7]王月敏.基于遗传算法的智能组卷系统研究[J].云南民族大学学报:自然科学版,2009,18(2):173-176.

[8]刘利锋,吴孟达. 关联规则的快速提取算法 [J].计算机工程.2008,34(5):63-65.

[9]李萍,段富.数据挖掘中数据约简的研究与应用[J].微计算机应用.2009,25(2):58-60.[ZK)]

[10][ZK(#]蔡勇,韩永国,刘自伟.数据挖掘技术在生源分析中的应用研究[J].计算机应用研究.2004,32(6):48-51.

篇3

真人秀(也称真人实境秀、真实电视,reality television)一般是指以电视传媒为介质,通过举办某一类别的比赛活动,以从多名参赛者中选取最终获胜者为目的;同时,有着丰富的奖品,可以获得广泛的经济效益的电视节目。

2、大数据环境下的电视真人秀节目量产分析

尽管电视真人秀节目在荧屏上的收视率已经达到了一定的高度,但是从采编的实际角度上来分析的话,电视真人秀节目在现在的环境下如果实行量产的话仍然有一定的难度,综合分析主要包括以下四种原因:

2.1采编工作量大。《爸爸去哪儿》每一集都要有五组家庭参与演出,在每一集的游戏设计上,采编人员和导演组要进行多次的协同沟通,无论是从工作量上还是从信息量上都是很大的。尽管每一集的播出时长仅为120分钟左右,但是导演组要分别派出至少五组的采编人员跟随演员实景拍摄72小时。这与常规的综艺娱乐节目最多的2组采编人员现场工作1-2个小时比起来完全是一种“量化”的突破。

2.2后期制作繁琐。为了突出节目效果,才拍摄素材汇总完成之后,在剪辑的过程中要有大量的后期特效制作跟进,无论是画面效果还是工作量,在我国的电视荧屏上都是一次创新。如此大的信息量,让整个《爸爸去哪儿》节目的数据库信息完全达到了一个峰值。

2.3演员甄选难度高。第一季播出的成功如果是因为节目较为新颖的原因的话,那么第二季以后的节目在演员的甄选上也就相对的增加了很大的压力,因为按照广电总局的相关要求,对于这种真人秀的演员甄选要本着一定的原则来执行,因此尽管这个工作并不是采编人员要具体跟进的,但是在整个过程中,几乎每一个环节上都有采编人员忙碌的身影。

2.4社会效应和经济效果不成正比。《爸爸去哪儿》在播出的过程中,其实反映了当下的许多育儿教育方面的问题,因此引起的社会效应是十分轰动的,但是由于节目制作过程十分的繁琐,需要耗费大量的人财物来为其支撑体系的运转,因此就目前的情况来看,除了与之同名的电影节目的经济收益还较为明显之外,常规的电视节目其经济收益并没有太过突出。

3、大数据环境下的电视真人秀节目量产改进措施

每一集如此庞大的信息量,和相对不成正比的经济效益,给节目组,尤其是采编人员带来了巨大的工作压力,再加之节目前两季所取得的巨大社会效应,对于今后的节目制作而言,应遵从以下的几个改进方向:

3.1将节目大数据由量化管理向质化管理推进。前两季的成功,节目信息量的相对较为集中起了决定性的作用,如此大的节目数据如果仍然延续现在的量化管理模式的话,不仅仍然要增加采编工作人员的相对工作量,还可能因为节目效果的重复和同化让节目的收视效果受到冲击,因此,必须将节目的大数据从量化管理向质化管理进行改革。这种改革主要是将节目的全部信息数据由最初的后期集约化筛选向前期的质量筛选推进。所谓质量筛选是在减少固定摄影机位的同时,增加人工定位摄影机位,这样在表面上看起来是增加了摄影师的工作量,但是从实际的拍摄效果上来看,其实是减少了总体的节目素材累积量,因为对于固定机位而言,是长时间定位拍摄的,几乎是在演员到达拍摄现场之后就开始了,在演员离开拍摄现场之后才结束。而对于人工定位摄影而言,在需要采集素材的时候才开始拍摄,在不不要采集素材的时候是处于待机或者关机状态。这样在节目的后期制作上对于素材的审验就节省了大量的时间。

3.2采取商业化运作管理节目大数据。几百个小时的节目素材最终要浓缩到2个小时的实际播出节目中,其中海量的数据信息被浪费掉了,尽管这些数据信息中也有许多亮点内容和较为新颖的元素,但是仅仅是一个时间关系的问题就把其浪费掉了,这种情况无论是从节目的社会效应上还是从经济角度都是一种极大的浪费。如果采用一些商业化运作的模式来管理这些大数据的话,其实完全有很大的空间来改进。

首先,将大数据信息分类管理。前两季的节目不仅带来了轰动的社会影响,也催生了许多粉丝群的出现,对于这些粉丝群来说,相对应的偶像在拍摄过程中的信息是十分关注的,如果将一些没有正式播出的信息按照不同的演员主题进行分类处理,可以满足一些粉丝的需求。

其次,将分类信息商业化包装。毕竟粉丝群的影响力是有局限性的,而且也不一定带有太多的商业元素在其中,不过如果将这些经过分类处理的信息通过商业包装之后以单一演员的形式推向市场的话,那么对于广大的市场消费群体而言也会是一种拉动。

最后,将包装信息网格化销售。《爸爸去哪儿》是通过电视平台播出的,相关的数据信息如果再通过电视平台播出的话,并不一定能够再取得太好的收益,《中国好声音》的相关节目包装就是一个反面的教材,随着互联网技术和网络媒体的兴盛,如果通过点播平台和互联网媒体互动平台全方位网格化处理这些信息的话,可能要比单一的从电视平台上获取收益要强的多。

4、结束语

综上所述,在大数据环境下,如果让电视真人秀节目实现量产,达到社会效应和经济效果双丰收,其核心在于将采编工作从策划开始就实行团队协同合作的方式。这种方式能够将海量的数据分析细化到每一个节点上进行处理。从而让电视节目效果达到最佳状态。

参考文献:

篇4

一、引 言

居民消费价格指数(Consumer Price Index,英文缩写为CPI)是反映一定时期内居民消费价格变动趋势和变动程度的相对数,是以居民购买并用于消费的一组代表性商品和服务项目价格水平的变化情况来反映居民消费价格变动幅度的国民经济核算统计指标。从一般理论来看,居民消费价格指数受社会总供给与社会总需求之间差数的影响,也受到货币发行量的影响。这一指标影响着政府制定货币、财政、消费、价格、工资、社会保障等政策,同时也与居民生活密切相关,因此,长期以来,不仅宏观政策的制定者密切关注着CPI的高低,而且很多学者也围绕着CPI进行了大量的理论和实证研究。尤其是自2007年以来,CPI持续地呈高位增长,引起了政府、学者、企业厂商的高度关注,成为目前学界研究领域的一个热点难点问题。

关于CPI的影响因素分析,学界已有研究。李敬辉、范志勇(2005)将粮食价格波动作为价格指数变动的重要因素[1],李庆华(2006)认为固定资产投资增长率对消费价格通胀率的反应是相当敏感和强劲的[2],何维炜等(2007)则认为食品价格和居住价格是决定CPI走势抬高的两大主导力量[3]。这些研究都有一定的科学性,但将过多的将视线注意于CPI的构成因素上,即CPI的结果本身是由这些因素如食品、居住等加权计算得来的,这无疑具有较大的自相关性。

笔者认为CPI涨幅的适度规模是由于经济社会发展、产业结构调整、资源的有限性等诸因素综合发展的必然结果,属正常调整。然而,CPI的过高上涨则反映了社会供需之间的矛盾已经明显,客观上需要及时调整影响社会供需关系的主导因素以将CPI稳定在一定的变化幅度内。因此,本文试图从一个比较长的时间跨度内,选取影响社会供需的主导因素的数据,通过VAR模型来测试CPI的影响因素及其程度。

二、VAR模型设置、估计与解释

(一)数据收集和变量选择

从宏观经济理论看,社会总供给主要有消费、储蓄、税收以及进口等构成,社会总需求主要有消费、投资、政府购买以及出口。可进一步将这些因素具体化为城镇居民人均可支配收入、农村居民人均可支配收入、全社会固定资产投资、货币供应量、工业品出厂价格指数、农业生产资料价格指数、出口总额和进口总额。

从宏观经济理论来看,物价上涨的原因一般有三种情况:第一种情况是需求拉动式的物价上涨,它是由于需求扩张所引起的;第二种情况是成本推动式的物价上涨,它是由于原料、燃料价格等成本价格的上涨所引起的;第三种情况是物价上涨的国际传递,它是由于一个国家的物价上涨或货币贬值传导到他国的现象。为了较准确地分析CPI的影响因素,须对每一种情况进行考察。

从需求来看方差分解,自2007年全国各地区开始出台了不同程度地提高工资的政策措施。提高工资在短期内会增加居民的购买力,进而有效地刺激需求。一方面,产品会由于需求的增加而涨价,另一方面,这会增加投资者的预期,刺激他们更多的投资。因而,收入的增加在很大程度上拉动了物价上涨。同时,为了尽可能准确客观地分析收入对CPI的影响程度,在这里采用城镇居民可支配收入作为变量,因为农村居民可支配收入在对CPI的上涨是滞后的,反应不敏感。其次,货币供应量也是影响需求变化的重要因素,根据货币数量论,通胀率来自货币增长率,所以它在一定程度上具有内生性。再次,固定资产投资规模在很大程度上决定产品价格,固定资产投资由于主要是由政府支撑的,所以它不会因为货币政策的变化而发生显著变化,基于此,将其也作为一个变量进入模型。

从供给来看,农产品价格和工业品价格的增加是物价总水平上涨的外在因素,考察农产品价格波动的指标是农业生产资料价格指数,考察工业品价格波动的指标是工业品出厂价格指数。因此,用农业生产资料价格指数和工业品出厂价格指数来反映供给方的变化,将其作为外生变量进入模型。

从国际传递来看,由于我国的经济总量比较大,经济结构是复合型的,即不是单一地依赖某一生产要素取得发展,因此,其他国家的物价上涨或货币贬值的波及效应是有限的,意即国外通胀率的变化对我国CPI的影响是不显著的。

(二)VAR模型的建立与估计

根据上述分析,我们选取居民消费价格指数(CPI)、城镇居民人均可支配收入(Income)、货币供应量(Money Providence,简写为M)、固定资产投资(Permanent Assets,用PA代替)、农业生产资料价格指数(Agricultural ProductionPrice Index,简写为API)、工业品出厂价格指数(IndustrialProduction Price Index,简写为IPI),为了量纲的统一,将这些变量通用“率”来考量。

在模型中将货币增长率(货币供应量)作为内生变量,同时由于固定资产增长率(固定资产投资)决定于利率和货币供给两者的变化,因此将固定资产增长率也作为内生变量进入模型。将来自两方面的供给冲击——农业生产资料价格指数API和工业品出厂价格指数IPI作为外生变量。基于此,根据历年中国统计年鉴并经计算整理后,得到表1的样本。

表1 与模型相关的数据表

 

YEAR

CPI

M

PA

API

IPI

1990

103.1

100.0

102.4

105.5

104.1

1991

103.4

126.5

123.9

102.9

106.2

1992

106.4

131.3

144.4

103.7

106.8

1993

114.7

137.3

161.8

114.1

124.0

1994

124.1

134.5

130.4

121.6

119.5

1995

117.1

129.5

117.5

127.4

114.9

1996

108.3

125.3

114.5

108.4

102.9

1997

102.8

119.6

108.8

99.5

99.7

1998

99.2

114.8

113.9

94.5

95.9

1999

98.6

114.7

105.1

95.8

97.6

2000

100.4

112.3

110.3

99.1

102.8

2001

100.7

117.6

113.1

99.1

98.7

2002

99.2

116.9

116.9

100.5

97.8

2003

101.2

119.6

127.7

101.4

102.3

2004

103.9

114.9

126.8

110.6

106.1

2005

101.8

117.6

126.0

108.3

104.9

2006

101.5

115.7

篇5

摘要:在虚拟现实项目制作中,由于种种原因,海量数据处理是一项艰巨而复杂的任务,本文主要论述了海量数据处理困难的原因,并提出了对海量数据进行处理的方法。

Abstract: In the virtual reality project production, due to various reasons, mass data processing is a difficult and complex task. This paper discusses the reasons for massive data processing difficulties, and provides methods for massive data processing.

关键词:虚拟现实 海量数据

Key words: virtual reality;massive data

中图分类号:TP39 文献标识码:A文章编号:1006-4311(2011)19-0158-02

0引言

虚拟现实项目制作过程中,由于虚拟现实包含的内容丰富,需要载入的数据量有时会非常巨大,需要进行处理和查询的内容很多,然后还要以文字和图像的形式进行表示出来,所以经常会遇到海量数据处理的瓶颈,造成这种情况的原因是:

①数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止了。

②软硬件要求高,系统资源占用率高。对海量的数据进行处理,除了好的方法,最重要的就是合理使用工具,合理分配系统资源。一般情况,如果处理的数据过TB级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,不过也必须加大CPU和内存,就象面对着千军万马,光有勇气没有一兵一卒是很难取胜的。

③要求很高的处理方法和技巧。这也是本文的写作目的所在,好的处理方法是一位工程师长期工作经验的积累,也是个人的经验的总结。没有通用的处理方法,但有通用的原理和规则。

在多个虚拟现实项目的基础上,尤其是通过与行内多名专家进行项目经验交流,以下的方法都可以对海量数据在虚拟现实项目中的处理进行改善。

1选用优秀的数据库工具

现在的数据库工具厂家比较多,对海量数据的处理对所使用的数据库工具要求比较高,一般使用Oracle或者DB2,微软公司最近的SQL Server 2005性能也不错。另外在BI领域:数据库,数据仓库,多维数据库,数据挖掘等相关工具也要进行选择,象好的ETL工具和好的OLAP工具都十分必要,例如Informatic,Eassbase等。笔者在实际数据分析项目中,对每天6000万条的日志数据进行处理,使用SQL Server 2000需要花费6小时,而使用SQL Server 2005则只需要花费3小时。

2编写优良的程序代码

处理数据离不开优秀的程序代码,尤其在进行复杂数据处理时,必须使用程序。好的程序代码对数据的处理至关重要,这不仅仅是数据处理准确度的问题,更是数据处理效率的问题。良好的程序代码应该包含好的算法,包含好的处理流程,包含好的效率,包含好的异常处理机制等。

3对海量数据进行分区操作

对海量数据进行分区操作十分必要,例如针对按年份存取的数据,我们可以按年进行分区,不同的数据库有不同的分区方式,不过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O,减小了系统负荷,而且还可以将日志,索引等放于不同的分区下。

4建立广泛的索引

对海量的数据处理,对大表建立索引是必行的,建立索引要考虑到具体情况,例如针对大表的分组、排序等字段,都要建立相应索引,一般还可以建立复合索引,对经常插入的表则建立索引时要小心,笔者在处理数据时,曾经在一个ETL流程中,当插入表时,首先删除索引,然后插入完毕,建立索引,并实施聚合操作,聚合完成后,再次插入前还是删除索引,所以索引要用到好的时机,索引的填充因子和聚集、非聚集索引都要考虑。

5建立缓存机制

当数据量增加时,一般的处理工具都要考虑到缓存问题。缓存大小设置的好差也关系到数据处理的成败,例如,笔者在处理2亿条数据聚合操作时,缓存设置为100000条/Buffer,这对于这个级别的数据量是可行的。

6加大虚拟内存

如果系统资源有限,内存提示不足,则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿条的数据进行处理,内存为1GB,1个P4 2.4G的CPU,对这么大的数据量进行聚合操作是有问题的,提示内存不足,那么采用了加大虚拟内存的方法来解决,在6块磁盘分区上分别建立了6个4096M的磁盘分区,用于虚拟内存,这样虚拟的内存则增加为4096*6+1024=25600M,解决了数据处理中的内存不足问题。

7分批处理

海量数据处理难因为数据量大,那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量数据分批处理,然后处理后的数据再进行合并操作,这样逐个击破,有利于小数据量的处理,不至于面对大数据量带来的问题,不过这种方法也要因时因势进行,如果不允许拆分数据,还需要另想办法。不过一般的数据按天、按月、按年等存储的,都可以采用先分后合的方法,对数据进行分开处理。

8使用临时表和中间表

数据量增加时,处理中要考虑提前汇总。这样做的目的是化整为零,大表变小表,分块处理完成后,再利用一定的规则进行合并,处理过程中的临时表的使用和中间结果的保存都非常重要,如果对于超海量的数据,大表处理不了,只能拆分为多个小表。如果处理过程中需要多步汇总操作,可按汇总步骤一步步来,不要一条语句完成,一口气吃掉一个胖子。

9优化查询SQL语句

在对海量数据进行查询处理过程中,查询的SQL语句的性能对查询效率的影响是非常大的,编写高效优良的SQL脚本和存储过程是数据库工作人员的职责,也是检验数据库工作人员水平的一个标准,在对SQL语句的编写过程中,例如减少关联,少用或不用游标,设计好高效的数据库表结构等都十分必要。笔者在工作中试着对1亿行的数据使用游标,运行3个小时没有出结果,这是一定要改用程序处理了。

10使用文本格式进行处理

对一般的数据处理可以使用数据库,如果对复杂的数据处理,必须借助程序,那么在程序操作数据库和程序操作文本之间选择,是一定要选择程序操作文本的,原因为:程序操作文本速度快;对文本进行处理不容易出错;文本的存储不受限制等。例如一般的海量的网络日志都是文本格式或者csv格式(文本格式),对它进行处理牵扯到数据清洗,是要利用程序进行处理的,而不建议导入数据库再做清洗。

11定制强大的清洗规则和出错处理机制

海量数据中存在着不一致性,极有可能出现某处的瑕疵。例如,同样的数据中的时间字段,有的可能为非标准的时间,出现的原因可能为应用程序的错误,系统的错误等,这是在进行数据处理时,必须制定强大的数据清洗规则和出错处理机制。

12建立视图或者物化视图

视图中的数据来源于基表,对海量数据的处理,可以将数据按一定的规则分散到各个基表中,查询或处理过程中可以基于视图进行,这样分散了磁盘I/O,正如10根绳子吊着一根柱子和一根吊着一根柱子的区别。

13避免使用32位机子

目前的计算机很多都是32位的,那么编写的程序对内存的需要便受限制,而很多的海量数据处理是必须大量消耗内存的,这便要求更好性能的机子,其中对位数的限制也十分重要。

14考虑操作系统问题

海量数据处理过程中,除了对数据库,处理程序等要求比较高以外,对操作系统的要求也放到了重要的位置,一般是必须使用服务器的,而且对系统的安全性和稳定性等要求也比较高。尤其对操作系统自身的缓存机制,临时空间的处理等问题都需要综合考虑。

15使用数据仓库和多维数据库存储

数据量加大是一定要考虑OLAP的,传统的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等。

16使用采样数据,进行数据挖掘

基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样的误差不会很高,大大提高了处理效率和处理的成功率。一般采样时要注意数据的完整性和,防止过大的偏差。笔者曾经对1亿2千万行的表数据进行采样,抽取出400万行,经测试软件测试处理的误差为千分之五,客户可以接受。

还有一些方法,需要在不同的情况和场合下运用,例如使用键等操作,这样的好处是加快了聚合时间,因为对数值型的聚合比对字符型的聚合快得多。类似的情况需要针对不同的需求进行处理。

海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。

参考文献:

篇6

一、云模型的介绍

云模型主要是定性和定量转换的模型。在模糊数学和随机数学的基础上采用云模型来统一描画出语言值中存在的大量随机性、模糊性和二者间的关联性。用云模型来表示自然语言中的基元即语言值,用云的数字特征即期望、熵以及超熵来表示语言值的数学性质。它既体现了代表定性概念值的样本中的随机性,又体现了隶属程度的不确定性,从而展示了随机性和模糊性之间的关联。目前,云模型被广泛的应用到信任评估、图像分割和时间序列挖掘等领域上。

二、大数据典型相关分析的现状

人们在工程实践项目和科研工作中收集到的大量数据大部分都具备大数据的特性,但是把大数据作为一个独立的科学来研究是比较新鲜的。其主要相关的研究领域有:生物信息领域,一部分学者研究了生理电大数据的压缩和存储等方面问题,将生物学研究中的搜集到的数据可以看做大数据;数据挖掘领域,一些科学家研究了大数据挖掘中存在的在线特征的选择问题;大数据程序开发以及存储方面,一些科学家研究了大数据和云计算现状等。在现阶段,大数据研究过程中,还存在诸多不成熟的地方,需要对其进行进一步的完善。虽然一些学者探讨了在云计算平台下的大数据存储方法,但是并没有对大数据典型相关分析进行研究,也没有提出云模型下的大数据典型相关分析方法,使得这一类的研究比较缺乏,因此,就需要加强对大数据典型相关分析的研究,提出切实可行的方法,从而完善大数据典型相关分析,来满足大数据研究的需求。

三、基于云模型下的大数据典型相关分析方法

1、执行大数据典型相关分析的流程。大数据典型相关分析的流程包括:首先,在各个云端上依据当前云端中的数据,运用逆向云发生器形成云数字特征;其次,把各个端点云传送到中心云端,采用多维云进行合并,最终在中心云端中生成中心云;再者,依据中心云,采取正向云发生器生成中心云滴;最后,在中心云滴上实行典型相关分析。2、端点云的生成方法。利用逆向云发生器,在云端中的数据中生成云,就是端点云的生成过程。本文主要采用的是多维的逆向正态云发生器。为了提高在大数据中多维逆向正态云发生器生成云的效率,可以在随机采样的方法下,采取启发式的策略生成云。3、多维云的合并方法。在进行多维云合并时,每次只能进行一对云的加法计算。当采用反复调用方式使,每合并一次云,其新生云需要加入合并的操作中,使云的总体数量只能减少一个,大大降低了合并的效率。在大数据的背景下,由于受到数据存储或者收集方法的影响,就会使不同云端产生的数据也不尽相同,因此,在合并各个云端传递到中心云端的云时,要充分地考虑各云端数据的差异。

四、影响大数据典型相关分析方法的因素

1、中心云滴群的大小。随着云滴群的规模不断的扩大,典型相关分析的系数误差也逐渐下降,当达到一定程度时,其下降的速度趋向平缓的状态。这就显示出适当的增大云滴群的规模,可以有效地降低典型相关系数误差,通过少量的云滴可以体现了大数据中包含的相关性。2、云端数量。不同云端数量对典型相关系数的误差有着不同的差异性,当云端数量不断增多时,其运行的速度也相对提高。3、数据容量。随着数据容量的不断增大,其对应的典型相关系数的误差也随之上升。在大数据环境下,典型相关分析系数的误差有一定的波动性,同时期上升的幅度比较小。

五、总结

基于云模型的大数据典型相关分析方法主要是在小容量的中心云滴群中进行典型相关分析操作,从而提高在大数据环境下执行典型相关分析的效率。为了能够快速生成中心云滴,改进了多为逆向正态发生器,进而提高了大数据下云的生成效率。同时也总结了多维云合并计算的方法,提升了云合并的速度和质量。为之后类型的研究工作提供了可靠的理论依据,进一步完善了云模型的大数据典型相关方法。

参 考 文 献

篇7

一、短距离跑中的“摆动”技术

1.从摆与蹬占用时间上分析

有关资料表明:优秀短跑运动员一侧腿的支撑时间仅占一个复步时间的22.1%,即蹬地时间,而摆动时间则占到77.9%,两者之比为1∶3.5。所以,实际上不到1/4的时间是着地和蹬伸阶段,而另3/4以上的时间都在摆,因此,从时间上看“摆”要比“蹬”重要得多。

2.从摆的技术动作上分析

在运动中摆的动作,是支撑到下次支撑中间的转折环节,扒地也好,着地也好,一系列动作都是靠摆动正确与否来完成的。摆动不好,直接影响到下一个动作的完成质量。如果着地动作不好,势必造成前支撑阻力大,又可能造成步幅短等。跑动中重视摆动技术,注重摆蹬结合,以摆促蹬,有效地提高后蹬效果,从而提高跑的经济性和实效性。

3.从跑的技术本身分析

近几年通过对世界优秀短跑选手的技术分析研究发现:“快摆”技术发挥着重大的作用,“快速摆动”已替代了“充分的后蹬”。现代短跑的先进技术,可以认为,快速蹬地,大幅度向前上方送髋抬腿,积极而有力的扒地是现代短跑技术的发展趋势,而其中又以快速大幅度的摆动腿为关键性的技术。

二、短距离跑中的“屈蹬”技术

由于塑胶跑道的运用,特别是高质塑胶的出现和过去所使用煤渣道相比,胶道的弹性大大增加了。这就使我们过去传统的“后蹬型”技术即所谓的髋、膝、踝三关节充分蹬直的技术已不再适应其变化的要求,取而代之的则是“屈蹬”技术。

1.从“屈蹬”技术的实效性分析

支撑腿后支撑时膝角变化小,蹬伸动作转换自然、连贯、迅速,有利于提高步频。小腿倾角后蹬角小,利于增大向前水平速度,减小重心波动,提高跑的实效性,协调步幅与步频的关系,达到节省体力的目的。强调向前上方快速高抬摆动腿时适当减小后支撑腿髋、膝、踝三关节充分蹬直的幅度,以加大向前的实效性。

2.从“屈蹬”技术的前摆速度分析

“屈蹬”技术有利于减小大小腿折叠角度(即摆动时膝角最小值)缩短折叠时间,提高摆动腿的前摆速度和幅度,因为折叠角度越小,前摆阻力臂越小,而前摆时的角速度就越大,那么大腿带动小腿前摆的速度也就加快。

三、短距离高速跑中的放松技能

近年来,随着训练和比赛条件的改善,塑胶跑道的普及以及训练水平的科学化,训练手段呈现多样化,而放松跑技术在短跑中则成为一项重要的技术因素。所谓的高速跑中的放松技术是运动员在短跑运动过程中,生理、心理、运动负荷都能相互适应。在短距离跑中放松技术是快速摆动技术的发挥和利用,技术的好坏可以说直接影响着运动成绩。

1.运动中的放松技术可以增强髋的运动能力

现代短跑技术中髋是人体水平加速的关键环节,以髋为轴的高速摆动――平动运动是短跑运动和短跑技术的本质特征。现代短跑技术注重在高速运动中整体运动环节的协调配合和高速跑动中肌肉的放松协调,在短跑中放松可以使肌肉协调用力、增强关节的灵活性和柔韧性,增大运动幅度。

2.高速跑中的放松可以增强摆动力量的发挥

如果短跑运动员下肢力量发展不均衡,腿的前群肌肉发达,后群力量较弱,则前摆大后摆小,就会形成“坐着跑”。而后群较前群发达,则前摆小后摆大,就易形成后撩小腿的毛病。如果髂腰肌力量不足,不利于大腿高抬,使大腿前摆不到位,大腿得不到放松,易疲劳、紧张。腰部肌群也如此,如果腹肌强背肌差,上体就会出现前倾,不利于腿部动作的完成。可以看出,高速跑中的放松技术就是摆动技术和摆动力量的发挥和利用,它是高水平短跑运动员提高运动成绩不可忽视的因素,是短跑技术的核心,而这恰恰与现代短跑技术发展所呈现的新特点――“快速摆动”技术相

吻合。

篇8

【Key words】Civil aviation meteorological database system; Oracle; Down; inactive; LOCAL=NO

0 引言

民航气象数据库系统利用数据库技术和商用数据库管理系统,对各类气象资料进行有效的组织与管理,采用统一的数据模型和用户界面,从而实现对气象资料的有效存储和快速检索,并具有分布调用、高度共享和安全可靠等性能,为航空气象服务、气象业务与科研培训提供有力的支持。航空气象情报及气象资料的及时、准确、标准化获取是保障民航安全运行的重要基础。本文介B了一起由数据库进程数达到最大导致民航气象数据库进程频繁宕机故障,并给出了故障问题处理方法。

1 民航数据库系统结构简介

民航气象数据库系统是具有飞行气象情报及气象资料的制作、交换、备供、存储等功能的信息系统,包括通信分系统、数据库分系统、预报平台及服务平台四部分[1],如图1所示。

1.1 通信分系统

通信分系统是民航气象数据库系统的基础系统,它主要实现各类气象资料的接收、检查、处理,并根据一定的规则向其它系统及地区中心进行资料分发,同时实现气象中心、地区中心与航站之间的数据交换。通信分系统将获取的各种气象数据发送给数据库分系统,数据库分系统将这些数据进行分类、解析和处理后存储在数据库中。

1.2 数据库分系统

数据库分系统采根据存储数据的用途及时间划分为实时库、历史库及临时库,分别满足不同的业务与服务的要求。数据库分系统又分为资料处理子系统和数据库管理子系统。

(1)资料处理子系统对服务器data目录下接收到的气象信息进行分析分解,质量控制后入库;

(2)数据库管理子系统采用C/S模式,对资料处理、数据库等进行实时监控与管理,预报平台与服务平台则通过获取Oracle数据库中的气象资料,以不同的形式展现给用户。数据库管理子系统主要侧重于对数据库中气象资料的管理。提供的主要功能有:系统登录、资料处理、数据库管理、数据库恢复、日志和统计、告警、用户管理、进程管理、系统配置、窗口、帮助等。

1.3 预报平台

预报平台(民航气象信息综合处理系统)利用气象实时数据库资料,通过对数据库中的气象资料进行检索、分析、处理,制作成文本、图形等形式的气象产品,为航空气象预报人员提供服务。

1.4 服务平台

气象信息服务平台从数据库中提取相关产品,以WEB形式展示向航空气象用户提供航空气象产品及服务。

2 故障现象

民航气象数据库系统数据库子系统运行环境:硬件环境为IBM服务器;操作系统为AIX5.2;数据库系统为oracle 10g。

数据库运行一段时间后,资料处理子系统相关进程自动停止运行,导致621客户端及相关协议单位无法检索到最新资料,且重新启动后再次停止运行或直接无法重新启动。

3 故障分析

通过查看数据库相应进程诊断文件方法检查故障原因,数据库诊断文件是获取有关数据库活动信息的一种方法,用于解决数据库出现的一些问题,主要包含有关数据库中出现的重要事件的一些信息,这些文件能更好的对数据库进行日常的管理。

5 结束语

本文介绍了一起民航气象数据库常见故障,即达到进程最大连接数后导致相关用户进程频繁down机问题,造成用户无法获取最新报文和自观数据,一般较为普遍的处理方法为采用修改系统最大进程连接数后重新启动数据库,但是民航气象数据库对系统停机重启要求较高,重启数据库将导致用户无法及时获取数据,具有一定的安全风险。本文主要利用Oracle数据库中远程连接进程的共同特点,都含有关键字“LOCAL=NO”,然后经根据关键字“LOCAL=NO”筛选出inactive进程使用“kill -9”强行杀掉[4],此方法可以实现在不重启数据库情况下解决ORA-0020问题。

【参考文献】

[1]太极计算机股份有限公司,民航气象卫星传真广播系统用户手册[M].1-60.

篇9

在经济全球化的趋势下,随着我国经济的发展和人民币升值的预期,外资正以各种方式不断进入房地产市场,以追逐利润获取丰厚收益,从而使得房地产业已经成为继通讯设备、计算机及其他电子设备制造业之后的外商投资第二大行业。与此同时,伴随着蓬勃发展的房地产市场和热度空前的房地产开发投资,房地产价格正在节节攀升,使得高房价已经成为与上学贵、看病难并称的新三大民生问题之一,引起了社会各界的普遍关注。那么,不断流入房地产市场的外资是否对持续攀升的房价产生了推波助澜的作用呢,是否是房价上涨的又一重要影响因素呢?为了正确认识外资进入房地产市场将导致房地产价格泡沫的风险,我们有必要研究作为外资流入重要途径的外商直接投资对我国房地产价格的影响。

二.文献综述

针对FDI对我国房地产价格的影响问题,我国学者进行了一些理论探索和实证分析。刘洪玉(2002)从房地产市场与资本市场的关系、房地产金融与投资开发的发展趋势等角度,探讨了国际资本投资中国房地产市场的可能趋势以及国际资本进入对中国房地产市场的影响。郑航滨(2006)利用利率平价理论、购买力平价理论、预期理论作为解释境外资本流入房地产市场的依据,研究了境外资本的进入对我国房价的影响效应。梁立俊,操陈敏(2007)通过采用VAR 模型对我国八年的商品房价格与房地产开发中FDI的投入额月度数据进行分析。证明FDI增长是商品房价格上涨的一个因素,同时FDI的冲击对商品房价格的增长是持续性的。范东君,单良(2009) 基于1999―2006年省际面板数据,研究房地产开发利用FDI以及其他因素对我国房地产价格的影响,并计算出各个要素对房地产价格上涨的贡献程度,研究结果发现FDI对我国房地产价格的上升具有正向作用。黄书权(2010)运用灰色关联理论对我国FDI与房地产业发展、房地产价格之间的关系进行实证研究。研究结果表明:FDI对我国房地产业的发展有正向的推动作用。

总之,多数学者是通过运用时间序列分析方法从不同角度分析了FDI对我国房地产价格的影响,这些研究具有着重要的理论和现实意义。但与此同时亦忽略了我国各省份间FDI水平和房地产发展状况的差异。

三.理论模型

为了研究FDI对房地产价格的影响,我们将各省房地产价格作为因变量,而自变量中,供给方面可设变量FDI、国内投资额,需求方面设置变量居民人均可支配收入,并加入CPI以剔除价格水平对房地产价格的影响。

由于本文是基于全国31个省的数据进行实证检验,故该计量检验涉及对面板数据的处理。本论文是对31个省分别进行估计,需要考虑各个省的差异,故采用固定效应变截距模型来说明FDI对房地产价格的影响。此外,考虑到截面个数较多而时间序列个数较少,采用了截面加权回归的方式进行检验。因此我们可以构建如下固定效应变截距模型方程来反映FDI对房地产价格的影响:

式中,下标i、t分别代表省份和时间,P为房地产销售价格,ID为房地产业国内投资,IF为房地产业外商直接投资,Y代表人均居民可支配收入,CP表示居民消费价格指数, 表示与各地区相关的、时间上恒定的因素,为随机扰动项。在自变量中,考虑到供给因素对房地产价格影响的滞后,我们采用其各省份前一年的指标,使得分析更加合理。此外,为了消除解释变量间的异方差和自相关性,可以对解释变量和被解释变量取自然对数进行模型改进。

四.实证分析

1.变量选取及数据处理

本文根据中国1999―2007年31个省(市、区)的面板数据,运用上述模型对FDI对我国房地产价格的影响进行实证分析。数据来自于中国统计年鉴(2000―2008),中国房地产统计年鉴(1999―2008),并经综合整理所得。其中,对数据的描述性统计见表1:

2.实证过程与结果

本文选用固定效应的面板模型分析FDI对房地产价格的影响,根据整理的数据,利用eviews6.0软件对模型进行估计,得到如下计量结果,其中全国31个省(市、自治区)固定影响变截距模型估计结果为下式,反映各省(市、自治区)差异的的估计结果为表2。

从上式可以看出,国内投资、FDI、居民可支配收入及居民消费价格指数四个变量大约解释了房屋销售价格变动的95%;其中, FDI的流入对房地产价格的影响为正,回归系数为0.008831,且在5%的水平下显著。由于各变量均取自然对数,这就意味着FDI流入房地产每增加一个百分点,房地产价格就会上升0.008831个百分点。此外,表2说明了我国31个省之间由于地域的差异所导致的房屋销售价格的显著差异。

从上述计量结果中可以看出,FDI对我国房地产的价格上涨有正向的推动作用,但其影响有限,产生此种现象的原因在于:一方面,为谋求丰厚的投资回报,FDI利用我国房地产市场尚未形成有效的市场定价机制,趁机通过操纵市场来推高房价,并导致境内民间资金的跟风入市,从而进一步炒高房价,使得房地产价格与真实价值脱离。因此,FDI对我国房地产价格上涨具有明显的正效应;另一方面,由于流入我国的FDI主要集中于制造业,其占FDI总量超过60%,而房地产业作为FDI流入的第二大行业,仅占FDI总量的10%左右。因此,实际进入房地产业的FDI相对于我国庞大的房地产业资金总量来说是相对较小的,对房地产业的影响有限。

五.研究结论

对于上述实证结果,我们必须清楚的认识到,FDI是置于房地产市场中的一把“双刃剑”,其在改善房地产市场资本结构,发挥外资企业在房地产开发中的技术、管理优势的同时,也将由于资本的逐利性和投机性使FDI短期内刺激房地产需求的增加,在供给变化不大的情况下,直接引发房地产价格的迅速上升。而当房价上涨到一定程度后,外资的大量流出将会对房地产市场产生很大冲击,从而引发房地产泡沫的破裂。我们需要充分利用各种金融、法律手段和政策法规在宏观层面进行监管和调控,通过对房地产领域的境外资金进行合理引导,规避其不利影响,使之对我国房地产行业健康发展起到较好的推动作用。对此可提出如下政策建议:

首先,要完善政策制度,引导FDI合理流向房地产业。从上述实证分析的结果可以看出,现阶段外资流入对我国房地产业的影响是相当有限的。为使外资对我国房地产业的发展发挥更大的积极作用,政府应当出台相应的有利于外商投资的政策,同时完善房地产市场监管制度,避免利用FDI进行投机活动。针对我国地区发展程度的差异,政府应积极引导FDI投向需要资金支持,有利于当地房地产业健康稳定发展的区域。通过引进民间资本、加快资产重组的方式增强自己的综合实力,使得我国的房地产企业的发展真正能够实现多元化、市场化、国际化,进而更好的推进我国房地产市场的健康发展。

参考文献:

[1] 黄书权.我国FDI与房地产业关系的灰色关联分析.四川经济管理学院学报,2010(02)

[2] 范东君,单良.FDI对我国房地产价格影响的实证研究―基于省际面板数据分析.云南财经大学学报,2009(02)

篇10

一、气象资料压缩技术的概述

现阶段,我国的图像、音频以及视频等多媒体技术领域的数据压缩技术获得了长足的进步,对与气象数据资料压缩有关的压缩没有太多的研究。一般情况下,在气象界中多是使用格点资料编码的方式对气象资料进行压缩,但是也所都过于简单,没有根据气象资料的实际特征进行,因此压缩效果没有达到预期的效果。

从气象资料压缩的方法来看的话,气象资料压缩所使用的技术可以分为三种,无损、近无损以及有损。无损的压缩技术可以将气象数据信息中的信息全部保留出来,但是压缩效率还有待提高;无损压缩具备很高的压缩效率,但是气象数据资料中较为重要的信息很可能被丢失;近无损的压缩方法则是对上面两种方法的一种有机结合,不仅大大提高了气象数据资料压缩的效率,而且还能有效控制信息的丢失量。

二、熵和信息的冗余度

信息中存在的被评判的信息量就被称之为熵,在一个事件的集合中,例如xi(i=1,2……,N)中,它的概率是pi,并且所有概率的之和是1。

在概率空间中,事件中的概率不相等,从而造成了平均的不肯定度或者是平均的信息量就被称为熵H:

(1)

在气象事件中,概率的分布函数在分布的过程中越均匀的话,熵就会越大,信息量也就会越大;而概率分布越集中的话,熵就会越小,信息量也就会越小。熵在应用的过程中,代表的是平均的信息能量。

三、神经网络中的二次预测模型

1.二维线性的预测。通过多年的实践证明,在对气象数据资料进行压缩时,最主要的是要减少数据中存在的熵,也就是尽最大努力的将相邻格点之间存在的相关性消除。在余弦进行变换的过程中,与正交变换的相差不大,能够最大限度的消除冗余,但是它的变换系数是浮点数,有截断误差的存在,无法实现实际意义上的无损压缩。因此为了实现气象资料的无损压缩的目的,就必须寻求一种方法不仅能够去除冗余的相关性,又能实现无损压缩的方法,预测可以实现二者的要求。预测的原理是:在一个数列中,通过前面的m个点,来对第n个点的数值进行估算,如果估算的结果较为准确的话,那么预测结果的误差所对应的绝对值与方差也会越小,误差就被严格控制在0左右,相邻格网之间的相关性也被消除的所剩无几,这时,只需要工作人员对预测的误差开始编码的工作即可,有效降低了编码工作需要的平均码长。

2.人工神经网络.对人类大脑的结构与思维进行模拟作为人工网络发展的基础。目前在我国气象中使用较为广泛且起到明显效果的就是向后传播的神经网络,而在气象格网资料最常见的就是3层向后传播的神经网络,数据模型可以使用下列的公式进行表示:

(2)

(3)

在公式中,X―输入层;

Y―隐含层;

Z―输出层矢量;

―输入层和隐含层之间存在的连接权与阈值;

―隐含层和输出层之间存在的连接值与阈值。

而网络输出层可以使用下列的函数进行表示:

(4)

(5)

不断的对节点间存在的连接权与阈值进行调节,从而可以得出气象资料在进行输入输出工作时所存在的规律。将能量函数引入到BPNN中:

(6)

在公式中, Z0―理想中的期望输出矢量。

BP神经网络具备较强的学习能力,能够对非线性进行来良好的拟合,因此可以在之前的气象资料压缩技术的基础上,使用BP神经网络,能够提高预测的准确度,将冗余信息进行剔除,从而实现无损压缩。

综上所述,在我国气象的格点资料在压缩过程中,不仅具备较好的线性关系,而且还具备着非线性的信息,要最大程度的消除相邻格网之间存在的相关性,以保证气象格点资料实现无损压缩的目的。二维线性预测的方法就具备良好的压缩效率,且进行编码的速度也较快,但是压缩效果不好。因此BP神经网络的使用,实现了在气象网格资料的无损压缩,为传输技术中提供了一种有效的尝试。

参考文献:

[1]罗坚,赵苏璇,姜勇强.气象格点资料的准无损压缩方法[J].数据采集与处理.2011(03).

[2]顾洪,李昀英.NC格式气象数据无损压缩研究[J].计算机工程与应用.2012(09).

篇11

〔中图分类号〕G201 〔文献标识码〕A 〔文章编号〕1008-0821(2016)02-0167-04

〔Abstract〕This paper systematically studied relevant research outputs and compared respective research status on open research data policy home and abroad.In order to provide references for promoting relevant research,this paper discussed the characteristics of relevant research home and abroad,pointed out the shortages of current research in China,and finally evaluated the future research trends on open research data policy in China.

〔Key words〕research data;open data policy;research status;research trend

科学数据(Scientific Data),也称科研数据(Research Data),与科学论文一样也被视为重要的科研产出,也是一种具有潜在经济价值的战略资源。开放科学数据对数据驱动科学研究起到了关键作用,越来越多的研究是建立在对已有科学数据重用的基础之上的。因此,完整保存并开放获取先前研究的科学数据,对于顺利开展后续研究、推动科学进步具有重要意义。开放科学数据在国家科技创新中的战略地位不断提升,目前在开放规模和开放程度上均达到了前所未有的水平。通过开放科学数据改善社会生活受到众多投资者、出版商、科学家和其他利益相关者的高度关注,欧洲、美国以及众多国际组织与研究机构都积极建立开放科学数据的政策保障与管理机制。如美国已经形成了以“完全与开放”为基本国策的科学数据开放共享法规体系;经济合作与发展组织(OECD)颁布了《公共资金资助的科学数据获取原则与指南》,以指导成员国制定与完善科学数据开放共享政策;欧盟“地平线2020计划”将科学数据新增为开放存取的对象并要求逐步达到开放性可获取,并启动了旨在促进科学数据获取和再利用的“科学数据开放先导性计划”[1]。

我国早在2002年就已正式启动科学数据共享工程,并先后在六大领域共计24个部门开展了科学数据共享工作。2006年以来,中国科学院国家科学图书馆提出并开展了科学数据与科技文献跨界集成服务、数据融合技术的研究和开发。目前,我国在科学数据开放政策的制定和完善方面,与美国、英国、澳大利亚、日本、韩国、台湾等国家和地区相比仍显滞后。本文针对国内外科学数据开放政策的研究现状进行了比较分析,在此基础上探讨了国内外相关研究的特点以及我国现有研究的不足,并对我国科学数据开放政策的未来研究动向进行了评判。

1 国内研究现状分析

对从CNKI和万方数据两大中文数据库检索到的相关文献进行阅读和梳理发现,我国针对科学数据开放政策的相关研究可以概括为以下5个方面:

1.1 建立开放科学数据政策保障机制的理论性研究

目前已有较多成果是针对建立和完善科学数据开放共享政策法规的顶层设计展开论证,如刘细文(2009)指出,美国、英国以及众多国际组织与研究机构都就科学数据开放获取问题,积极建立政策保障与管理机制并广泛推行相关服务与实践,其政策举措主要围绕科学数据交流渠道各环节,集中体现在数据开放资助、数据质量控制、数据合法保护、数据保存以及数据共享利用五大方面[2]。王晴(2014)指出:国内外20余个组织相继制定或实施了30余条旨在促进科学数据开放共享的政策法规,根据制定主体和效力范围可以分为宏观、中观和微观3个层面,共同形成了一个较为完备并在不断完善的制度体系[3]。

1.2 针对国内外各类科学数据开放共享政策的调查研究 目前已有部分成果针对多种政策主体(如高等院校、科研资助机构、信息服务机构等)的有关开放科学数据的声明、指南以及政策法规等各类政策文本展开了调查分析,如司莉等(2013)考察了美国、英国、澳大利亚3个国家的科研管理机构、高校制定的数据管理政策以及政府制定的数据公开政策,并指出:发达国家的政府部门都制定了科学数据开放共享政策,对科学数据的保存与管理等均作了明确具体的规定。我国政府也应制定完善的科学数据开放共享政策,从政策层面对科学数据的开放共享进行指导和规范[4]。司莉等(2014)针对英美10所高校的科学数据开放共享政策,从一般政策、数据标准、数据访问与保存、数据共享、数据安全与保护以及数据产权6个方面进行了调查与比较,揭示了英美两国大学科学数据开放共享政策的特点与差异,指出通过借鉴国外大学科学数据开放共享政策的良好实践,推动我国大学相关政策法规的制定和[5]。唐源等(2015)针对国外典型医学相关机构的科学数据开放共享政策从科学数据开放资助、科学数据汇交、科学数据保存、数据共享利用4个方面的政策内容进行文献调研和网站调研,指出国外政策制定者从政府到机构自身以及期刊等具有多重身份,政策内容集中于数据汇交和共享计划。

1.3 科学数据开放政策利益主体的开放共享行为研究 由于开放科学数据的利益主体一般要受到相关政策法规的制约,因此也可视为科学数据开放政策的利益主体。国内的相关研究成果主要包括:①单一利益主体的开放共享行为的共享意愿及影响因素分析,如张晋朝(2013)通过问卷调查方法和结构方程模型,分析了我国高校科研人员科学数据共享意愿的影响因素,指出科学数据开放共享工作的顺利开展不仅要关注技术维度,还要关注社会环境因素、内在激励、人际信任等人文维度[7]。②针对单一利益主体的开放共享行为的演化博弈分析,如庄倩等(2015)建立了参与科学数据开放共享的科研人员之间的演化博弈模型,揭示了科学数据开放共享博弈中存在的"公共品困境"及其原因,指出为促进我国科学数据开放共享健康有序发展,不能仅从国家层面制定和完善相关的战略规划,还要从政策法规层面建立相应的激励机制[8]。

1.4 制定开放科学数据相关知识产权政策法律问题的研究 虽然目前科学数据具有著作权已经成为共识,但其使用存在著作权界定不清及其利益分配不当等问题,尤其是科学数据二次研发过程中的著作权分配问题。司莉等(2015)从科学数据开放共享中的授权方式、数据出版及引用、技术措施、制度与法规、科学数据二次利用5个方面分别探讨了科学数据著作权保护存在的问题及对策,指出我国应结合知识产权保护法、著作权法、专利法和中华人民共和国政府信息公开条例等已有法规条例,尽快建立完善的科学数据著作权保护体系[9]。

1.5 基于政策文本分析的科学数据开放政策实证研究 目前国内的相关研究成果非常有限,主要是通过内容分析法进行政策文本分析,如裴雷(2013)通过内容分析法构建了基于政策文本的上下位政策概念一致性的测算框架,并对我国12个领域的科学数据开放共享政策文本进行内容编码和实证分析,探讨了当前我国科学数据开放共享政策在吸收、扩散和创新过程中的政策文本质量[10]。

2 国外研究现状分析

对从Springer、Emerald和Elsevier三大外文数据库检索到的相关文献进行阅读和梳理,可以发现国外科学数据开放政策研究所涉及的研究主题更为广泛,可以大致概括为以下5个方面:

2.1 制定科学数据开放政策的理论探讨与实践研究

国外学者针对这一研究主题的研究成果也比较丰富,如Childs S等(2014)探讨了作为实现开放科学数据的机制――科研数据管理(RDM)的作用以及它带给记录管理者的机遇,并指出开放科学数据议程的前提是尽可能公开可用的数据,在开放科学数据的背景下仍然存在方法、伦理、政策和实践等层面的问题[11]。Higman R等(2015)借鉴行动者网络理论(Actor Network Theory)并结合政策分析过程和案例研究方法,考察了在英国高等教育机构中建立科学数据管理(RDM)政策与实践的驱动因素,以及科学数据开放共享在科学数据管理过程中的关键作用[12]。

2.2 科学数据开放政策利益主体的开放共享行为研究 国外学者针对科研人员的开放共享行为的共享意愿及其影响因素展开了较为系统的实证研究,如Wicherts J M等(2011)对心理学期刊中的统计结果显著与数据共享意愿的相关性进行了实证研究,发现科研人员不愿意共享数据的主要原因在于:统计结果不构成充分的证据以及更有可能存在明显的错误,并强调了建立科学数据的强制性归档政策的重要性[13]。Sayogo D S等(2013)指出科学数据开放共享存在多重障碍与挑战:①技术上的障碍;②社会、组织和经济上的障碍;③法律和政策上的障碍,并通过问卷调查得出影响科研人员开放共享意愿的几个关键因素:数据管理技能、组织参与、法律与政策需求、向数据集提供者致谢[14]。

2.3 面向科学数据开放政策利益主体的开放共享服务研究 国外学者针对高校图书馆、研究型图书馆、信息服务机构的科学数据开放共享服务实践展开了广泛的研究,国内的相关研究主要是对国外科学数据服务实践的案例研究及调查分析,如Nielsen H J等(2014)认为科学数据管理(RDM)是图书馆员和信息专业人员的潜在职责,研究型图书馆是选择、保护、组织与利用科学数据的最佳场所,并应积极参与到其所在学科领域的特定领域的分析研究[15]。Tenopir C等(2014)指出数据密集型科学的出现和数据管理规范的制定,驱动高校图书馆为其教师和学生开展数据管理服务(RDS),并通过调查研究建立了图书馆员、图书馆、信息服务机构参与数据管理服务的评价基准[16]。

2.4 针对专业领域科学数据开放政策的政策分析研究 国外学者针对天文、气象、地球、生物、医学等自然科学以及心理学、伦理学等社会科学专业领域的科学数据开放共享政策进行了政策分析研究,如Harris R等(2015)考察了参与开放地球观测数据的八国集团、欧盟和国际组织的21个政策文本和法律文书――八国集团(G8)开放数据、全球综合地球观测系统(GEOSS)数据共享原则、经济合作与发展组织(OECD)科学数据原则与指南、欧洲环境信息指令等,指出地球观测领域开放数据政策应更加明确、完整地说明开放获取的条件,以期充分实现开放地球观测数据的潜在利益[17]。

2.5 基于政策文本分析的科学数据开放政策实证研究 国外学者进行政策文本分析时除了运用常规的内容分析法以外,还创新性地引入了语义网分析、社会网络分析等研究方法,如Jung K等(2015)对韩国《开放公共数据指令》(OPDD)的政策文本进行了语义网分析,并指出:利用语义网的概念模型及分析过程有助于确定各类公共政策针对的主要问题及解决视角的一致性[18]。

3 国内外研究现状的比较分析

对国内外科学数据开放政策的相关研究进行对比,可以发现具有以下几个特点:①总体来看,我国学者针对科学数据开放政策各研究主题的相关研究,目前大多处于对国外先进政策实践的案例研究与调查分析阶段。②国内外针对科学数据开放政策的相关研究目前主要以英美两国的政策实践为主,原因在于英美两国已经建立起相对完善的科学数据开放政策法规体系,如经济合作与发展组织(OECD)于2007年颁布了《公共资助科学数据开放获取的原则和指南》,提倡所有的获公共资金支持得到的科学数据都应能被公众获取、共享。美国、英国等一些重要基金机构也提出了科学数据开放政策指南,如美国国家科学基金会(NSF)、美国国立卫生研究院(NIH)、美国国家航空航天局(NASA)、英国研究理事会(RCUK)等,要求所有获得资助的项目提交科学数据的开放共享计划。美国科技政策办公室(OSTP)于2013年签署了关于“提高联邦政府资助的科学研究结果的访问”的备忘录,要求由联邦资金资助所产生的非保密的科学数据,应该存储并为公众提供免费的最大化访问[19]。③国内外对于具体专业领域的科学数据开放政策的研究相对较多,但对于国家统一综合层面的科学数据开放政策研究十分有限。

对比国内外开放数据政策研究的现状不难看出,国内相关研究主要存在以下不足:①目前的研究成果主要是针对国外高等院校、信息服务机构和科研资助机构的科学数据开放共享政策的调查研究与比较分析,但从整体来看这类研究成果的研究内容比较分散、系统性不强;②已有研究针对参与科学数据开放的单一利益主体(如研究人员)的开放共享行为进行了演化博弈分析,尚未发现针对参与科学数据开放的多个利益主体之间的演化博弈分析的相关研究;③针对科学数据开放政策的政策文本分析目前主要采用内容分析法,尚未展开借鉴多学科理论与方法的政策文本分析方法的探索性研究;④尚未展开针对科学数据开放政策群的政策协同研究,已有学者针对政府数据的开放数据政策与数据安全政策的协同关系展开研究[20],如黄道丽等(2015)分析了美国政府的开放数据政策与网络安全政策之间的冲突与协调[21],但尚未发现有针对科学数据展开的类似研究;⑤尚未从政策科学的研究视角展开系统性的科学数据开放政策评估研究。

4 我国未来研究动向评判

通过以上的比较分析,笔者认为,我国图书情报及相关学科领域研究者应展开协作研究,并从以下5个方面强化和拓展这一重要的跨学科研究领域。

4.1 各类科学数据开放政策的调查与比较分析

针对主要发达国家的政府部门、高等院校与科研机构以及各类国际组织的有关开放科学数据的声明、指南以及政策法规等各类政策文本展开广泛的调查分析,比较和分析各类政策文本中有关一般政策、数据标准、数据共享、数据保存、数据安全和数据产权等方面内容的特点与差异,合理借鉴发达国家在政策的系统性、一致性、完善性方面的经验,为推进我国科学数据开放政策的制定与完善提供必要的参考借鉴。

4.2 科学数据开放政策多个利益主体的博弈分析

现有的研究成果主要是针对参与科学数据开放的单一利益主体(如研究人员)的博弈分析,在后续研究中可针对参与科学数据开放的多个利益主体(研究人员、科研机构、数据中心、资助者、出版者、第三方用户等)之间的利益诉求关系展开研究,建立参与科学数据开放的多个利益主体之间的演化博弈模型,探索促进多个利益主体开放科学数据的激励机制,为从微观层面制定和完善科学数据开放政策提供演化博弈的理论框架。

4.3 基于多学科方法的科学数据开放政策文本分析

值得关注的研究方向包括:①借鉴多学科理论与方法对政策文本进行内容分析,如借鉴扎根理论的“信息提取-归纳-概念化-重组”思想,对各类科学数据开放政策文本进行解构、分类和比较,提取科学数据开放政策的区分要素,确定政策文本结构化编码体系和分类标准,将政策文本转化为半结构化数据,建立类定量化的政策文本分析框架。②基于知识单元的政策文本分析方法的探索性研究,如借助于语义网分析和社会网络分析方法,探索政策文本的词汇分析单元之间的语义关联关系,并可通过软件工具进行网络结构分析及可视化展示。

4.4 各类科学数据开放政策的政策协同研究

值得关注的研究方向包括:①科学数据开放政策群内部的政策协同研究。通过内容分析法对各类科学数据开放政策进行政策文本分析,从政策连续性、政策互补性、政策交叉性、政策缺失性及政策矛盾性等多个维度考察科学数据开放政策群内部的政策协同。②科学数据开放政策群与数据安全政策群的政策协同研究。借鉴协同论思想和政策协同理论及工具,设计科学数据开放政策群与《中华人民共和国保守国家秘密法》、《中华人民共和国科学技术保密规定》以及其他相关部门颁布的保密规定等数据安全政策群的政策协同机制,制定科学数据开放政策群与数据安全政策群的政策协同策略。

4.5 科学数据开放政策的政策分析与评估研究

将侧重于定性分析的政策分析研究与侧重于定量分析的政策评估研究相结合,针对科学数据开放政策,从政策科学的学科视角进行多角度的政策分析与评估研究,如针对科学数据开放政策完整的生命周期中的每一环节――政策提案、政策制定、政策实施、政策反馈和政策调整,综合运用多种政策科学相关理论、方法与工具进行系统性的政策评估研究;运用层次分析法、模糊综合评判法、数据包络分析法和灰色关联度法等政策评估方法,建立科学数据开放政策评估指标体系并进行指标权重分析,采用数学模型及软件工具构建科学数据开放政策评估模型并进行模拟实验。

5 结 论

通过CNKI和万方数据两大中文数据库以及Springer、Emerald和Elsevier三大外文数据库,笔者对国内外现有的科学数据开放政策的相关研究成果进行了比较研究,并在此基础上探讨了国内外相关研究的特点:目前国内的相关研究基本处于对国外先进政策实践的案例研究与调查分析阶段,国内外针对科学数据开放政策的相关研究目前主要以英美两国的政策实践为主。结合科学数据开放政策相关领域的学术研究与实践进展,我国在这一跨学科研究领域未来可能出现五大研究动向:①各类科学数据开放政策的调查与比较分析;②科学数据开放政策多个利益主体的博弈分析;③基于多学科方法的科学数据开放政策文本分析;④各类科学数据开放政策的政策协同研究;⑤科学数据开放政策的政策分析与评估研究。从而推动我国开放科学数据的政策保障与管理机制的建立。

参考文献

[1]韩缨.欧盟“地平线2020计划”相关知识产权规则与开放获取政策研究[J].知识产权,2015,(3):92-96.

[2]刘细文,熊瑞.国外科学数据开放获取政策特点分析[J].情报理论与实践,2009,32(9):5-9.

[3]王晴.论科学数据开放共享的运行模式、保障机制及优化策略[J].国家图书馆学刊,2014,(1):3-9.

[4]司莉,邢文明.国外科学数据管理与共享政策调查及对我国的启示[J].情报资料工作,2013,(1):61-66.

[5]司莉,辛娟娟.英美高校科学数据管理与共享政策的调查分析[J].图书馆论坛,2014,(9):80-85,65.

[6]唐源,吴丹.国外医学科学数据共享政策调查及对我国的启示[J].图书情报工作,2015,59(18):6-13.

[7]张晋朝.我国高校科研人员科学数据共享意愿研究[J].情报理论与实践,2013,36(10):25-30.

[8]庄倩,何琳.科学数据共享中科研人员共享行为的演化博弈分析[J].情报杂志,2015,34(8):152-157.

[9]司莉,贾欢,邢文明.科学数据著作权保护问题与对策研究[J].图书与情报,2015,(4):118-122.

[10]裴雷.我国科学数据共享政策概念一致性与政策质量评估[J].情报理论与实践,2013,36(9):28-31.

[11]Childs S,McLeod J,Lomas E,et al.Opening research data:issues and opportunities[J].Records Management Journal,2014,24(2):142-162.

[12]Higman R,Pinfield S.Research data management and openness:The role of data sharing in developing institutional policies and practices[J].Program:Electronic library and information systems,2015,49(4):364-381.

[13]Wicherts J M,Bakker M,Molenaar D.Willingness to share research data is related to the strength of the evidence and the quality of reporting of statistical results[J].PLoS ONE,2011,6(11):1-7.

[14]Sayogo D S,Pardo T A.Exploring the determinants of scientific data sharing:Understanding the motivation to publish research data[J].Government Information Quarterly,2013,30(S1):19-31.

[15]Nielsen H J,Hjrland B.Curating research data:the potential roles of libraries and information professionals[J].Journal of Documentation,2014,70(2):221-240.

[16]Tenopir C,Sandusky R J,Allard S,et al.Research data management services in academic research libraries and perceptions of librarians[J].Library & Information Science Research,2014,36:84-90.

[17]Harris R,Baumann I.Open data policies and satellite Earth observation[J].Space Policy,2015,32:44-53.

[18]Jung K,Park H W.A semantic(TRIZ)network analysis of South Koreas“Open Public Data”policy[J].Government Information Quarterly,2015,32(3):353-358.

篇12

Analysis of Relevant Factors of Prevention of Antimicrobial Prophylaxis in in-Patients in Plastic Hospital

LI Ge-hong,SUN Bao-yan,LI Shao-ying,HUANG Jin-jing

(Plastic Surgery Hospital, PUMC,Beijing 100041,China)

Abstract:ObjectiveTo analyze the rationality in antimicrobial prophylaxis in patients during perioperative time in plastic hospital.MethodsFrom 1989 to 2003,48 958 records were at random reviewed,26575 cases male,22383 female. The average time in hospital was 12.32 days. Analysisand research was performed to the rationality in antimicrobial prophylaxis in patients during perioperative time in plastic hospital. ResultsAntimicrobial prophylaxis was applied to 46 611 in the in-patient accounting for 95.21% in total in-patient. The main medicine include cephalosporins, penicillin, aminoglycoside and 2-Methyl-5-nitroimidazole-1-ethanol. Combination drug was used in 6 352 patients accounting for 13.62%. Nosocomial infection happened in 359 cases accounting for 4.79%. Prevention of antimicrobial prophylaxis postoperation was used in 39 982 cases accounting 85.78%. ConclusionTherapeutic guidelines on antimicrobial prophylaxis in perioperative time shoud be made to guide the Reasonable use of antibiotics in clinic. Computer management testing system of antimicrobial prophylaxis should be made to increase the strength of management supervision which can make the management ofantimicrobial prophylaxis into rule and system.

Key words: plastic surgery; perioerative trentment; prevent diseases; antibiotic

在整形外科领域,抗生素的使用范围比较宽泛,围手术期预防性应用抗生素是预防术后感染、增加手术安全性、提高治愈率的有力措施。然而,若不能合理的使用抗生素,不仅造成经济上浪费,还会带来许多不良反应,如造成医院内耐药菌株积聚、细菌或真菌的二重感染、药物毒性或过敏反应等,而增加患者发生医院感染的危险性。为此,笔者对我院1989~2003年住院患者围手术期预防性抗生素的使用情况进行调查,对使用的抗生素种类、使用方法和各科抗生素使用规律进行分析,拟找出适合整形领域中抗生素合理使用的方案,使抗生素的应用更能有效的发挥作用。

1材料和方法

1.1研究对象:随机抽取本院1989~2003年期间在整形外科医院住院手术且已出院的病例共48958 例,男 26 575例,女22 383例,平均住院时间12.32 天。

1.2方法:根据有关规定制定整形外科围手术预防性抗生素应用合理性评价标准,根据标准对住院病例围手术期预防性抗生素使用情况进行分析,并进行合理性评价。其中手术切口按《临床外科学》分类法进行分类;医院感染诊断按《医院感染诊断标准(试行)》全国统一诊断标准;预防性抗生素合理性应用评价参考抗感染药物使用管理及指导原则,结合本院实际制定的使用抗生素管理制度以及预防性抗生素的应用范围等制定《整形外科围手术预防性抗生素应用合理性评价标准》(见表1)。用药适应征:I类切口手术不主张使用抗生素,但下列情况除外:①应用人工血管或其他移植物;②远处有感染灶;③有易患感染的伴随疾病、营养不良、接受激素治疗或全身情况差者;④估计分离组织广泛,手术时间长,局部组织血供不良。II类切口的手术有两种情形也应使用抗生素:①属上述清洁手术需用抗生素的范围;②胃癌手术、大肠或末端回肠手术、小肠手术有肠管供血不良以及有胆管阻塞的胆道手术等。污染与污秽的手术也称为第Ⅲ、Ⅳ类切口应全部预防性应用抗生素,此时预防与治疗没有太大区别,但考虑到抗生素的应用可预防感染的远处播散、预防切口和组织分离面的感染,仍将其列入预防性抗生素使用范畴。

2结果

2.1一般情况:全组有46 611例预防性应用抗生素,占住院患者总人数的95.21%。主要的药物种类为头孢菌素类氨基糖苷类、甲硝唑等。联合用药占6 352人次,占抗生素使用总人数的13.62%。发生医院感染的359人次,占住院总数的4.79%。术后预防性使用抗生素的有39 982人,占预防性应用抗生素总人数的 85.78%。根据表1所示标准可知,我院预防性应用抗生素多属于经验性用药。用药指征基本合理,使用剂量、给药方法合理。但在给药时机、用药时间、合理选择药物和联合用药的选择上,存在不合理性。没有把握住用药时机,在术前和术中使用人数比例低;术后平均用药时间过长;联合用药存在选药不当,标本送检和药敏监测未受重视。

2.2 预防性抗生素使用指征过宽,半数以上的Ⅰ类手术都使用了抗生素,而所有的II类手术也都无一例外的使用了抗生素;而且不同类型切口手术均存在着预防性抗生素使用时机不当的现象,各类手术绝大多数是在术毕回病房后才使用,违背了预防性抗生素的使用原则;在术后使用时间上过长,I类、II类手术的抗生素使用情况与规范相比差距较大。(见表2)

2.3调查II类切口手术术后预防性抗生素使用情况显示,联合用药指征过宽,有的甚至超过4种,从药物配伍禁忌和药代动力学方面考虑更显示为滥用。

2.4医院感染情况:48 958例病例中,共发生医院感染359 例次,其中,I类切口手术92例次,感染率为 25.63%,Ⅲ类切口手术感染267例次,感染率74.37%。在359例次感染中,标本送检率11.92%。

3讨论

预防性抗生素要合理选择。理想的围手术期抗生素应具有高效杀菌能力、抗菌谱广、高度的组织渗透力、有效浓度时间长、副作用少及恰当的价格等特点。所以选用高血清蛋白结合力、高组织渗透力、低机体总清除率、半衰期长的抗生素作为长时间手术的预防性用药,可以在一次给药后无需追加,血液与组织中仍有足够的药浓度,这样种类的抗生素是一个不错的选择。半衰期长的预防性用药还有减少副作用发生率的优点,因而对一些预期时间长,术后感染率高的手术应提倡使用。

预防性抗生素的给药一般采用静脉途径。我院几乎都采用头孢拉定术前肌注,术后加入9%生理盐水中静滴的方式。目前有观点认为:静脉推注优于静脉滴注。理由是虽然两种方式到达切口的纯净药量相等,当单剂量推注后药物在切口组织中出现的速度快得多,峰浓度要高得多。静脉推注后,切口组织中抗生素浓度即与血液中相等,在以后数小时内,切口组织中浓度比血液中高,并将维持到再给一次剂量时。而静脉滴注抗生素,切口中浓度将在一段时间后才与血液中相等,且以后数小时内始终低于血液中的水平。

预防性抗生素使用要把握使用时机,及时术中追加。在临床上,由于各种原因导致手术开始时间无法确定,影响了临床医生正确掌握预防性应用预防性抗生素的使用时机,使其成为预防性抗生素的合理使用中一个较突出的问题。因而有人建议由麻醉医师负责预防性抗生素的给药和术中追加,这也不失为一种好的办法。

篇13

Analyzing Effects of Calving Seasons on Dairy Milk Yield with Non-parametric

Statistical Method Based on DHI Data

CHEN Hong-bo1,TANG Zhou2,LIU Xiao-hua3,WU Wei-che2,WANG Ding-fa3,LING Ming-hu3,

HU Xiu-zhong3, CHENG Lei3

(1. Hubei Key Laboratory of Animal Nutrition and Feed Science, Wuhan Polytechnic University, Wuhan 430023, China;

2. Key Lab of Animal Genetics, Breeding, and Reproduction of Ministry of Education, Huazhong Agriculture University, Wuhan 430070, China; 3. Institute of Animal Science and Veterinary Medicine, Wuhan Academy of Agricultural Science, Wuhan 430208, China )

Abstract: Calving season is an important factor affecting the dairy milk yields. With the popularization of the DHI, it becomes an effective tool to improve the levels of farm management and the milk quality. Based on DHI data of several years in a diary farm, effects of the calving season on the diary milk yield were analyzed with non-parametric statistical method. The results showed that the milk production in spring and autumn were obviously high. It will provide a reference for making plans of mating and calving and fully using DHI data.

Key words: DHI; non-parametric statistics; calving season; milk production traits

奶牛的产奶性状易受到各方面因素的影响,其中产犊季节是非常重要的影响因素之一。对于产犊季节对奶牛产奶性状影响的研究报道不多, 研究结果也不尽一致[1-4]。在研究不同产犊季节对奶牛产奶性状的影响时,大多采用的是方差分析方法[2-6],数据进行方差分析前需满足3个基本条件:正态性、方差齐性和可加性。而在实际应用中,要获得能同时满足这3个条件的数据并不容易。在不知道样本数据分布的情况下,主观的假设中总体的分布可能会造成错误。而非参数统计并不涉及总体参数的比较,因此采用非参数统计的方法可能更合理。近年来,随着奶牛生产性能测定(Dairy herd improvement,DHI)技术的推广,DHI已经成为提高奶牛场管理水平和牛奶质量的有效工具[7-9]。虽然从每个月的DHI检测报告中可以看出奶牛场整体牛群和个体奶牛的生产情况,但是如何从奶牛场历年来积累的丰富的DHI数据中挖掘更多有价值的信息是人们很感兴趣的。本研究以武汉某奶牛场近3年的DHI数据为研究对象,利用非参数统计的方法分析产犊季节对奶牛产奶性状的影响,以期为奶牛场科学饲养管理以及综合开发利用DHI数据提供参考。

1 材料与方法

1.1 试验牛群

选择武汉市某奶牛场3~11岁1~9胎的泌乳奶牛,按照奶牛饲养标准采用TMR技术饲喂奶牛。

1.2 试验方法

2010年1月至2012年12月,采样前对乳区进行清洗并消毒,弃掉头3把乳汁,按DHI采样方法收集奶样,早晚分别取24 mL和16 mL乳汁并混合均匀,送至武汉市奶业办公室DHI检测实验室进行检测。

1.3 数据整理

武汉属于北亚热带季风性湿润气候,四季分明。一年中1月平均气温最低;7月和8月平均气温最高。春季和秋季时间短,夏季和冬季时间长。根据武汉当地气象资料,以平均温度为划分指标,将3月15日至5月15日划分为春天;5月16日至9月25日划分为夏天;9月26日至11月20日划分为秋天;11月21日至次年3月14日划分为冬天。

根据季节的划分,对该场牛群连续3年的检测指标包括产犊间隔、泌乳天数、乳脂率、乳蛋白率、脂蛋比、体细胞、体细胞分数、高峰奶、高峰日和总奶量进行了整理,共有4 574条有效数据。数据进行分析前首先进行标准化,以达到统一量纲的目的。

1.4 统计分析

在删除一些高于或低于平均数3倍标准差的极端值之后,用Wilcoxon秩和检验法进行多重比较,所有统计分析在R(Version 3.0.2)上完成。为了更加直观地显示分析结果,利用ECXEL2007对研究结果进行了整理并作图。

2 结果与分析

非参数统计的结果显示不同产犊季节对乳脂率、乳蛋白率、脂蛋比、体细胞分数、泌乳天数、高峰奶和总奶量的影响显著。

从图1中可以看出,春季产犊,牛奶中的乳脂率最高;秋季产犊,牛奶中的乳脂率最低。夏季产犊,牛奶中的乳蛋白率最高;冬季产犊,牛奶中的乳蛋白率最低。夏季产犊,脂蛋比最小;冬季产犊,脂蛋比最高。春季和秋季产犊的奶牛,牛奶中体细胞分数显著低于夏季和冬季。春季产犊,奶牛的泌乳天数最长;秋冬产犊,奶牛的泌乳天数最短(图2)。秋季产犊,高峰奶奶量最高;春季产犊,高峰奶奶量最低(图3)。其中秋季产犊的奶牛,总奶量显著高于冬季和春季产犊的奶牛(图4)。

3 讨论

从本研究结果可以看出,春季产犊的奶牛,牛奶中乳脂率最高,同时乳蛋白率也高于秋季和冬季,体细胞分数最低,从牛奶品质上来讲,春季产犊奶牛的乳品质是最好的。而夏季产犊的奶牛,乳蛋白率虽然高于春季产犊的奶牛,但是两者差异不显著;另外,夏季产犊的奶牛其牛奶中体细胞分数也显著高于其他季节。有报道指出,产犊月份在6、7月时,奶牛隐型炎的发病率最高,产犊月份在4、5月时,奶牛隐型炎的发病率最低[10]。由此可以看出,夏季奶牛隐形炎的发生几率更大。而奶牛感染炎后,乳腺上皮细胞的通透性被破坏。血乳渗透性增加,来源于血液的免疫球蛋白、乳铁蛋白、血清白蛋白等流入乳汁中,使乳蛋白率升高[11]。因此,奶牛隐性炎所导致的乳蛋白含量升高并不是有益的,可以认为夏季牛奶的高蛋白率水平同时伴随体细胞含量显著上升的现象意味着牛奶总的营养水平是下降的。这也从另一方面说明了对于夏季产犊母牛护理的重要性。

秋季产犊的奶牛,乳脂率最低,但是乳蛋白率和体细胞分数与春季产犊的奶牛差异均不显著;同时该季节产犊的奶牛高峰奶和总奶量最高,其总奶量比春季产犊的奶牛高出7%左右。关于产犊季节对产奶量的影响,前人的研究结果不尽一致。吴红岳等[12]在对西宁地区的荷斯坦奶牛研究发现秋季产犊的荷斯坦奶牛的产奶量最高,刘姗等[1]认为夏秋两季产犊奶牛的305 d产奶量高。而冯登侦等[13]的研究结果表明宁夏平吉堡奶牛场荷斯坦奶牛4月份产犊奶牛的305 d产奶量最高,段向阳等[4]和张慧林等[2]的研究认为12月份产犊奶牛的的产奶量最高,其次是春秋两季。这可能与试验牛群所处的具体气候条件有关,因为奶牛产后3~8周是产奶的高峰期,同时也是产奶的黄金时间,只有产奶的黄金阶段在温度适宜的季节中度过,避免高温造成的炎以及热应激,才能不影响奶牛整个泌乳期的产奶量。

综合考虑产奶量和牛奶品质后认为,本试验牛群最佳的产犊季节为春季和秋季。实际工作中一方面要加强春秋季节产犊奶牛的饲养管理,尽量充分发挥其产奶性能;另一方面对夏季产犊的奶牛要做好防暑降温工作,同时可以采取产后提前配种的方式调整其下一个产犊季节,对于冬季产犊的奶牛也可以采取同样的方式将其产犊季节逐步调整至秋季。另外,也可以通过同期处理来统一牛群的产犊季节。

4 结论

本研究通过使用非参数统计的方法,分析产犊季节对奶牛的影响,得出春秋季节产犊时奶牛产奶性能更高。由于非参数统计可以在不知道数据分布的情况下使用,不涉及总体参数的比较,因此在实际应用中比方差分析方法更实用。本研究为科学指导奶牛的实际生产管理和充分挖掘、利用DHI数据提供了重要参考。对实际生产给出的建议是,需要人为对母牛的繁殖周期进行干预和调整,以及做好妊娠期母牛的护理工作,使母牛的产犊尽可能集中在当地比较凉爽的季节,以提高奶牛的产奶性能,提高牛场效益。

参考文献:

[1] 刘 姗,刘念锐,陈佩琪,等.产犊季节和胎次对测定奶牛日泌乳性能的影响[J].中国牛业科学,2013,39(2):27-30.

[2] 张慧林,刘小林,朱建华,等.产犊月份对荷斯坦牛产奶量的影响[J].西北农业学报,2012,21(3):17-21.

[3] 祖里甫努尔・尼亚孜,张 琴,郑宝亮,等.产犊月份对荷斯坦奶牛305天产奶量的影响[J].新疆畜牧业,2009(2):30-31.

[4] 段向阳,郑拉弟,黄 铭,等.产犊月份对新疆北疆地区西门塔尔牛产奶量的影响[J].家畜生态学报,2009(6):76-79.

[5] 廖想想,张美荣,许兆君,等.产犊季节对荷斯坦牛第一胎泌乳性能的影响[J].中国牛业科学,2012,38(1):10-13.

[6] 高腾云,马雪梅.季节和产犊月份对散养奶牛产奶量的影响[J]. 中国农业气象,1994(1):34-35.

[7] 贾玉珍.DHI体系检测与提高奶牛生产性能的应用研究[D].长春:吉林大学,2005.

[8] 高建斌,昝林森,辛亚平.西北农区奶牛遗传改良与DHI测定分析[J].中国农学通报,2011,27(26):1-6.

[9] 陈 龙,王力强,刘彦莎,等.DHI在规模化奶牛场生产管理中的应用[J].中国奶牛,2013(5):52-55.

[10] 甘宗辉,张亚琴,冀德君,等.产犊月份与奶牛隐型炎的发病及产奶量的关系研究[J]. 中国牛业科学,2013,39(1):25-29.