在线客服

数据分析方法论文

引论:我们为您整理了1篇数据分析方法论文范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。

数据分析方法论文

数据分析方法论文:关于我国电子商务企业的数据分析方法的探讨

为了验证所提炼的因子影响程度及重要程度、检验问卷结构效度和后续回归分析的需要,本文首先对调查数据进行了因子分析,剔除不符合要求的题目,最终得到问卷;然后,使用spss软件对问卷调查数据进行信度、效度、描述性统计、方差和相关分析;,建立回归方程模型对假设进行检验。

1因子分析模型及其统计检验

因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。因子分析的目的即在找出量表潜在的结构,减少题目的数目,使之成为一组数量较少而彼此相关较大的变量。在本文中以主成分因素抽取法抽取共同因素,根据kaiesr(1960)的观点选取特征值大于1.0以上的共同因素,再以较大变异法进行共同因素正交旋转处理,保留共同度大于0.6以及因素负荷量大于0.5以上的题目。因素负荷量为硕士论文因素结构中原始变量与抽取出共同因素相关,负荷量越高表示该题目在该共同因素的重要性越大。共同度和特征值是因子分析的两个重要指标。共同度是每个变量在每个共同因子的负荷量的平方和,也就是个别变量可以被共同因子解释的变异量百分比,是个别变量与共同因子间多元相关的平方。特征值是每个变量在某一共同因子的因子负荷量的平方总和。

因子分析的数学模型及其统计检验描述如下:

彼此之间是独立的,则模型(4.1)称为正交因子模型;相反,如果公共因子彼此之间有一定相关性,则称为斜交因子模型。由于斜交因子模型比较复杂,在本文中只考虑正交因子模型,而且假定各公共因子的均值为0,方差为1。

模型中的矩阵a称为因子载荷矩阵,a称为因子“载荷”,是第i个变量在第j个因子上的负荷。因子载荷阵的求解方法有很多,本文用常用的主成分分析法,求解载荷阵得到仅包含m个因子的因子载荷阵。主要问题就在于如何通过spss统计软件对数据的分析来估计因子载荷矩阵a,负荷量大的指标给予保留,否则剔除。保留下来的指标所构成的体系就是本文最终研究得到的指标体系。关于因子载荷的检验有:模型的标准化,这主要是为了得到抽象的因子含义,即对因子各维度进行命名;变量共同度检验,变量的共同度越高,说明该因子分析模型的解释能力越高;因子的方差贡献检验,用因子的累计方差贡献率来确定公共因子提取的个数,也就是寻找一个使得累计方差贡献率达到较大百分比的自然数,即最终提取方差贡献大于1的因子作为公共因子。

由于本文的论题是电子商务环境下服务业企业绩效评价指标体系构建,本文主要运用平衡计分卡把评价指标体系分为四个方面,18个二级指标作为18个因子,按照因子分析法来选取有效指标,各项指标在选取时,需要遵循两个原则,一是该指标在以前的研究中出现的概率,二是指标与所要研究的问题的潜在相关性。本文在四个方面的指标的选取上,另外考虑了①性,要求所选的指标能反映企业的经营、客户、企业学习与成长、财务方面的状况;②有效性,要求选择那些能够对预测企业的整体状况有指示作用的重要指标;如,若各项指标的双尾t检验的显著性概率小于0.05,则能有效的反映企业的四个方面的状况,反之,则是无效指标,应剔除。③同趋势性,即当各项指标增大时,表示企业的整体状况改善,反之当各项指标减少时,表示企业的整体状况恶化;④可操作性,采用易得到的数据。

2信度、效度、描述性统计、方差和相关分析方法

信度分析是采用一定的方法来衡量回收问卷中各变量的内部一致性,它主要考查的是问卷测量的性,检验每一个因素中各个题目测量相同或相似的特性。本文采用克隆巴赫(cronbach a)一致性系数检验量表的信度和各分量表的信度。效度分析是采用一定的方法对问卷的理论构思效度进行验证。首先,必须对题目的结构、测量的总体安排以及题目见的关系做出说明,然后运用一定的方法从数据中得出基本构思,以此来对测量构思的效度进行分析。用于评价结构效度的主要指标有累积贡献率、共同度和因子负荷。累积贡献率反映公因素对量表或问卷的累积有效程度,共同度反映由公因素解释原变量的有效程度,因子负荷反映原变量与某个公因素的相关度。描述性统计分析是对各维度中的测量题目的均值、标准差、方差等描述性统计量硕士论文进行统计,了解各维度中题目设置的水平。方差分析又称变异数分析或f检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否具有统计学意义。

方差分析对客观事物数量进行依存关系的分析,主要刻画两类变量间线性相关的密切程度,其两个变量全是随机变量,且处于平等地位。两变量之间的相关关系可以通过绘制散点图或计算相关系数来反映。

3回归模型及其统计检验

现实世界中,一个事物的运动变化,总是与其他事物相关联。其中,有的还存在因果关系,这种因果关系有的是线性的,有的是非线性的。当预测对象与其影响因素的关系是线性的,且只有一个影响因素时,就可以用一元线性回归方法建立其一元线性回归预测模型,来表述和分析其因果关系;当有两个或多个影响因素同时作用于一个预测对象时,则用多元线性回归法建立多元线性回归预测模型。

本文就是以多对一的关系,因此,用多元线性回归模型进行统计检验。对于多元线性回归模型及其统计检验描述如下:

当预测对象y同时受到多个解释变量x1,x2,...,xm影响,且各个xj(j=1,2,...,m)与y都近似地表现为线性相关时,则可建立多元线性回归模型来进行预测和分析,模型为:

3)回归方程整体显著性检验

回归模型的显著性检验包括两个方面,即回归方程的显著性检验和回归系数的显著

性检验。

(1)回归方程的显著性检验

回归方程的显著性检验用于检验被解释变量与所有解释变量之间的线性关系是否显著。回归模型总体函数的线性关系是否显著,其实质就是判断回归平方和与残差平方和之比值的大小问题,可以通过方差分析的思想,构造f统计量来进行检验,f检验是用来检验多元线性回归模型的总体效果。

(2)回归系数显著性检验

回归方程总体显著并不意味着每个解释变量对被解释变量的影响都是重要的,还需要对每个回归系数的显著性进行检验。回归系数显著性检验通过构造t统计量来进行,

4)残差正态性检验

残差e是随机扰动项ε的体现。对残差进行分析的目的是检验随机扰动项是否服从经典假设。残差分析的内容包括残差正态性检验、序列相关检验、异方差检验等。本文应用残差的累计概率散点图进行残差正态性检验。

5)异方差检验

异方差常常表现为残差随某个解释变量取值的变化而变化,因此,检验随机扰动项是否存在异方差可以通过绘制被解释变量与解释变量的散点图来简单的判断。如果散点图呈带状分布,则不存在异方差;如果随着解释变量的增大,被解释变量波动逐渐增大或减少,则很可能存在异方差的现象。实践中,常常使用加权最小二乘法消除异方差。

7)多重共线性检验

所谓多重共线性是指各个解释变量之间存在线性关系或接近线性关系的现象。多重共线性常常会导致回归系数方差增大,从而使得t检验难以通过。用spss检验多重共线性共有四种方法:容忍度、方差膨胀因子、条件指数和方差比例。本文选用条件指数和比例方差这两种方法来检验共线性。

(2)方差比例

通过对解释变量协差阵进行矩阵分解,协差阵的每个特征根可以解释各个解释变量方差的一部分。若对于几个不同的解释变量,某个特征根能够解释的方差比例都很高(一般认为都超过50%),则可以认为这几个解释变量之间存在较强的共线性。

需要注意的是,多元线性回归模型的构建中,可能会遇到多重共线性的问题。如果变量相关,则(x tx)?1不存在,最小二乘法失效。应用最小二乘法估计回归系数的一个重要条件就是自变量之间为不的线性相关。如果这种相关程度较低,其影响可以忽略;担任若高度相关时,则回归系数无效或无意义,因而所建模型无效或无意义。这时应该选择其他新的自变量以替代相关的变量或采用其他方法来建立模型。在本文中就是采用其他新的自变量,从模型中剔除不显著的变量,在这里剔除的是意义相对次要的变量。

数据分析方法论文:探讨统计数据分析体系中统计分析方法的选择与比较

探讨统计数据分析体系中统计分析方法的选择与比较

一、数据统计分析的内涵

数据分析是指运用一论文联盟定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。

二、数据统计分析的原则

(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保障其专业性和科学性的同时也不能忽略其现实意义。

三、推论性统计分析方法

(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。

四、多元统计分析方法

(1)相关分析。相关分析是描述两组变量间的相关程度和方向的一种常用的统计方法。值得注意的是,事物之间有相关关系,不一定是因果关系,也可能仅仅是伴随关系;但如果事物之间有因果关系,则两者必然存在相关关系。(2)主成分分析。在大部分数据统计分析中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。所谓的主成分

转贴于论文联盟

分析就是利用降维的思想,把多指标转化为几个综合指标的多元统计分析方法,很显然在一个低维空间识别系统要比在一个高维空间容易的多。(3)因子分析。因子分析的目的是使数据简单化,它是将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子,对变量进行分类。这些因子是不可观测的潜在变量,而原先的变量是可观测的显在变量。(4)聚类分析。在市场调论文联盟研中,市场细分是最常见的营销术语之一,它按照一定的标准将市场分割为不同的族群,并使族群之间具有某种特征的显著差异,而族群内部在这种特征上具有相似性。聚类分析就是实现分类的一种多元统计分析方法,它根据聚类变量将样本分成相对同质的族群。聚类分析的主要优点是,对所研究的对象进行了的综合分析,归类比较客观,有利于分类指导。(5)判别分析。判别分析是判别样品所属类型的一种多元统计方法。若在已知的分类下,遇到新的样本,则可利用此法选定一种判别标准,以判定将该新样品放置于哪个类中。由定义我们可以知道判别分析区别于聚类分析的地方,而在判别分析中,至少要有一个已经明确知道类别的“训练样本”,从而利用这个数据建立判别准则,并通过预测变量来为未知类别的观测值进行判别。与聚类分析相同的地方是,判别分析也是利用距离的远近来把对象归类的。转贴于论文联盟

数据分析方法论文:环境空气检测数据分析及处理方法

摘要:随着社会的快速发展,人们的生活水平越来越高,同时伴随着而来的是环境质量的下降,现在城市空气质量问题屡亮红灯,人们越来越关注环境的质量。现代科技的快速发展,使得在环境空气检测方面人工检测的越来越少,自动检测的越来越多,给人们带来了很多的方便。本文分析环境空气检测的数据,对一些异常数据的检测判断分析,以及对这些异常数据该如何正确的处理。

关键词:环境空气检测;数据分析;处理方法;异常数据

环境空气自动检测系统早已在空气质量检测中运用娴熟,在我国的各个城市的空气质量检测得到广泛的运用。环境空气自动监测系统是基于干法仪器的生产技术,利用定电位电解传感器原理,结合电子技术和网络通讯技术,研制、开发出来的近期科技产品,是开展城市环境空气自动监测的理想仪器。

目前,我国有上百个城市都运用了此系统来进行城市空气质量的检测。但是,这个系统也并不是百利无一害的,因为检测中会面临一些气候异常现象、还有设备的维修、断电现象,诸如此类的现象会导致环境空气自动检测系统出现一些异常数据,这就需要工作人员对这些异常数据进行分析探讨,促进环境空气质量检测数据的标准化。

1环境空气自动检测系统的组成部分

环境空气自动检测系统可对环境空气质量进行24小时自动连续检测。该系统由检测中心站、检测子站和质量保障实验室组成。其中空气环境检测子站包括采样系统、气体分析仪器、校准装置、气象系统、子站数据采集等。子站检测的数据通过电话线传送至环境检测中心站进行实时控制、数据管理及图表生成。

检测的项目为:so2、no、no2、nox、co、o3、pm10、气象的五个参数(即:风向、风速、温度、相对湿度、大气压力)子站计算机可连续自动采集大气污染监测仪、气象仪、现场校准的数据及状态信息等,并进行预处理和贮存,等待中心计算机轮询或指令。采样集气管由采样头、总管、支路接头、抽气风机、排气口等组成。远程数据通讯设备由调制解调器和公用电话线路组成,有线调传或直接使用无线pc卡(支持gprs)。

2异常数据

环境空气自动检测系统在24小时无人值班的情况下检测中,经常会出现一些异常数据。据统计,我国每年实时检测的上万个检测数据中有0.95%——3.18%的异常数据,这些数据主要表现在一下几个方面:

2.1可预知的异常数据

有的异常数据是因为仪器自身出现的故障、断电等问题产生的,这种可预知的数据一般而言是不需要进行分析的,这种可预知的异常数据被视作为无效数据,不参与均值计算。

2.2数据出现负值

出现负值的数据会有两种情况,及时种是:检测的环境中气体浓度极低,接近于仪器的零点值,这个时候会因为仪器的零点漂移而产生负值的数据。第二种是因为仪器本身的故障导致的负值,这种就作为无效数据,不予分析。

2.3数据在零值附近徘徊

单个检测子站的某项污染物的浓度出现极高值时,就会导致数据在零值附近徘徊5个小时以上。这个时候,要根据周围的环境、气象、风向等来分析判断。

2.4突然产生的异常数据

有的时候,当外界环境发生急剧的变化时就会导致检测的数据突然的发生异常情况,一般情况下只有当发生突然的空气污染问题时才会出现这种情况,也就是空气中某一

或者几种大气污染物的浓度突然的急剧增加。这种情况需要工作人员根据当地的环境和以往的经验进行判断分析数据,对出现的异常数据进行正确的取舍,将无效的数据不参与均值计算。

3处理方法

子站临时停电或断电,则从停电或断电时起,至恢复供电后仪器完成预热为止时段内的任何数据都为无效数据,不参加统计。恢复供电后仪器完成预热一般需要0.5~1 小时。

对于低浓度未检出结果和在监测分析仪器零点漂移技术指标范围内的负值,应该取监测仪器低检出限的1/2 数值,作为检测结果参加均值计算。

有子站自动校准装置的系统,仪器在校准零/跨度期间,发现仪器零点漂移或跨度漂移超出漂移控制限,应从发现超出控制限的时刻算起,到仪器恢复到调节控制限以下这段时间内的检测数据作为无效数据,不参加均值计算,但要对该数据进行标注,作为以后的参考数据保留。

对于手工校准的系统,仪器在校准零/跨度期间,发现仪器零点漂移或跨度漂移超出漂移控制限,应从发现超出控制刻的前24小时算起,到仪器恢复到调节控制限以下这段时间内的监测数据作为无效数据,不参加统计,但对该数据进行标注,作为参考数据保留。

在仪器校准零/跨度期间出现的异常数据作为无效数据,不参加统计,但应对该数据进行标注,作为以后仪器检查的依据予以保留。

结束语

随着社会的发展,环境保护工作受到的关注越来越多,城市规模的不断扩大给城市环境带来了各种各样的问题,人们对环境质量的要求也越来越高。对环境的保护很重要的根据就是环境空气检测的数据,这些数据是做好环境保护工作的依据。而在环境空气检测系统中经常会出现一些异常数据。对这些异常数据,先判断是否是因为仪器自身的故障而产生的数据,排除这些无效的数据之外的异常数据,要根据具体情况进行分析,寻找出出现异常数据的原因,然后找出解决问题的具体方法,保障环境检测系统能够健康安全的运转下去,为环境保护工作贡献自己的一份力量。

数据分析方法论文:信息通信网络告警数据分析方法

【摘要】信息通信网的运行故障时有发生,要确保其运行安全,首先要做好网络维护工作,通过网络告警分析和处理故障。告警数据应采用多维度的分析方法,以构建层次化的网络告警管理体系,提供多维度的,有效的信息通信网安全防护措施。

【关键词】信息通信网;网络告警;告警数据;多维度分析

信息通信网告警是指在网络运行异常时获得网络运行状态,对网络运行进行正确的评估,判断网络故障。告警系统的应用有效的减少了故障发生概率,提高了生产效率。多维度分析方法是告警数据的一大特点,文章将其进行具体的分析如下。

1信息通信网络告警管理的层次体系

构建网络告警管理层次体系,拓展其影响范围并实现管理创新具有必要性。在以往的信息通信网告警管理中,网络设备是其主要实现途径,有效的实现了对网络的监督。随着科技的发展,现阶段网络告警不仅可以应用网络设备,还能够实现级报警,也就是对所得信息进行分级处理,得到一定的网络状态后,从整体上考虑,完成性能级告警、业务感知告警、容量负荷类告警和网络运行异常告警等多层次的告警内容,并可以对不同的告警内容实施不同的管理方案,进一步提高了通信网的告警效率。他是按照性能需求将网络业务设定标准,超出标准后即出现报警。在通信网使用过程中,由于用户量剧增,因此容量负荷是主要故障之一。针对这类故障我们设置了运行负荷进行监测,即在超出负荷后发出预警。总之,信息通信网络的告警是多维度的,多层次的,只有这样才能保障系统的安全运行。

2信息通信网络告警数据的多维度分析方法

2.1故障工单数据的获得

故障数据是提供解决方案的基础,因此信息通信网络告警的分析首要问题就是获得数据源提供的故障数据工单,工单数据不同于告警数据,它主要体现在电子运维系统中。是通过对网络结构的分析而获得的相关数据,用以判断是否存在系统故障。对于故障处理实施在线监控,可以随时发现其中存在的故障。网络管理系统具有多样性,通常是由多个商家提供,但是可以实现对故障的集中处理,具有详细性和性特征。故障分析过程包括了全部字段,如设备告警息息字段、告警派单相关字段、告警标准化字段以及处理过程等。确保电子运维系统的运行安全才能保障信息通信网络的安全。其作用就是反馈信息,并对相关数据进行存储和处理。创建工单序列号,时间以及处理整个流程,进而解决故障问题。

2.2多维度信息通信网络告警数据分析

信息通信网络告警数据具有层次性,因此应根据不同的特征将其进行分类,采用独立分析与结合分析的方式提高数据的处理效率。笔者将信息通信网络告警信息分为总量类、单量类和逻辑类三种,并对其进行相应的分析。分析信息中是否存在三超信息,也就是信息量操长告警、超量告警以及超短告警,利用该方法可以快速定位故障并予以解决。通过维护人员的故障分析方法则可以保障故障工单的反馈有效,积累大量的维护经验,实现资源的共享。随着我国通信业务的发展,不仅业务量增多,业务类型也不断的增多,因此信息数据的种类是复杂的,对其处理应采用科技化的方式,以减少处理过程中的资源浪费,确保系统的运行问题。多维度分析方法分为几个重要的模块,在大量告警系统的分析下,通过小模块逐步分析,并将结果汇总的方式,得到最终的故障位置,这种分析方法符合信息系统运行规律,可以确保信息系统的运行稳定,具有积极意义。

2.3信息通信网络告警多维度分析的应用

信息通信网络告警多维度分析主要应用于电信、工业以及服务等领域,将其应用于设备管理具有高效性,由于传统设备检验过程时间长,检验效果不理想。而对其采用多维度告警分析后,能够及时查找设备故障,并提供必要的解决方案。多维度分析方法能获得网络的运行动态信息,使对网络运行的判断更加,对所有数据进行分析和统计,进而提高了网络运行维护水平,是我国现阶段主要推广应用的信息通信网络故障处理方式。在告警数据的分析和处理下,网络异常现象得到了解决,并且对网络运行具有监督作用,一旦出现异常,就会立刻报警。当然,多维度分析方法的预警也是的,不会出现误报警现象。因此为及时的发现通信系统故障提供了基础。未来,这一技术将进一步发展,并从根本上解决信息通信系统的故障问题,提高网络运行质量。

3总结

文章主要分析了信息通信网络的告警系统,致力于实现告警的多维度分析方法。我国信息通信的增多,对其质量要求也就更高。通过多维度分析方法可以建立完善的预警设备,对数据进行收集、整理和处理,实现对网络运行状态的实时监控,一旦出现故障,会及时告警,从而保障了设备维修,促进了设备的运行稳定。同时,多维度分析方法的实施还需要专业维修人员的配合,不断的提高我国网络运行维护水平和服务水平,提供更加品质的服务,才能促进其可持续发展。

作者:杨润智 单位:广东海格怡创科技有限公司

数据分析方法论文:供电企业信息安全大数据分析方法

摘要:本文将针对供电企业中的信息安全大数据进行探讨,并针对大数据的分析方法进行研究。

关键词:供电企业;信息安全;大数据;分析方法;思路;探讨

前言

智能化的电网正在地实施建设。随着以大数据为中心的IT技术的不断融入,当前我国的供电企业展开了大数据分析的研究,以便更好地使得大数据应用到整个配网的规划当中。此外,还要根据电网的实际数据情况,把数据应用到智能变电站的建立、智能电网的调度及供电信息的采集等各个方面。进而有效地提高我国供电企业的管理水平及处理业务的能力。然而,信息化新技术在应用的过程中也具有一定的风险因素,所以需要建立大数据的安全分析结构,进而对数据进行相应的处理并把安全分析方法应用到整个供电企业的信息系统中去,进而更好地为供电企业的数据安全提供保障。

1供电企业的信息风险分析

大数据作为供电企业的管理工具是一把双刃剑,给供电企业管理提供了便利,提高供电企业的管理水平和管理能力的同时,也给供电企业带来了一定的挑战和风险因素。使得企业数据处理、收集及传输的风险等级提高。若企业内部的数据出现问题,则会使得数据在进行传输的过程中被盗取和窃听,这给企业的管理带来了很大的风险。除此之外,企业在进行数据中进行一定的储存和利用的过程中,也会由于大数据系统的内部维护不到位而带了很大的风险。若企业的数据被长时间地窃听,就会使得不法分子有机可乘,采用各种方法来对数据后台进行攻击和试探,并寻找系统的薄弱之处。实行致命的攻击,并造成系统的瘫痪。所以,大数据给在方便企业的信息管理的同时,也带来了一定的信息安全挑战。

2供电企业信息安全大数据所面临的数据安全的需要

传统的电力信息系统逐渐地走向了信息化处理的进程,智能化的电网模式带给了供电企业信息系统数据安全更大的要求。每次进行数据的访问时,都需要确定数据的访问权限,并核实访问者的身份,并查看是否被授权。供电企业的数据信息需要被完整地保护,并保障其不被删除或者恶意的篡改。一旦供电企业发生一定的突发事件,需要大数据平台对数据进行自动的备份,并使数据得到安全的保护。④要采取一定的措施来保障供电企业的数据在运行过程中的安全性不被破坏。⑤要切实保障整个供电企业的信息系统的网络安全,控制供电企业信息系统的基础安全信息网络和供电企业内部比较重要的业务系统的安全。

3供电企业的信息安全大数据分析思路

当前供电企业内容的安全信息系统逐渐地向着对抗型的信息安全系统方式转变,并使得电力系统的大数据网络可以积极地应对外界的攻击。并对潜在的敌人进行分析和识别,并归纳总结当前的供电企业的信息安全大数据的风险类型,从而采取相应的对策,并先发制人,提高安全大数据系统的防御能力。这就是当前供电企业的信息安全大数据的分析思路。大数据的分析和挖掘技术需要不断地融入到大数据的安全分析中去,下图是大数据的安全结构分析思路。供电企业的信息安全大数据分析思路是基于技术的安全分析和理念,是至今为止比较完善的大数据安全分析办法,是供电企业大数据的核心环节,是对相对分散的信息进行采集并实现存储,并对其进行一定的分析,把其分析结果进行分发,把所有的安全分析体系结合在一起,并实现安全技术的互动。

4供电企业信息安全大数据安全分析结构的数据处理

供电企业的信息安全大数据的结构具体根据业务的不同分为不同的数据库进行处理。关系数据库是当前最丰富的数据库,是进行供电企业信息安全处理的主要形式。而数据仓库属于一种多维的数据结构,可以允许用户进行汇总级别的计算,并对数据进行观察。事务数据库中记录了每一个事务,并同时附带了一些相互关联的附加表。文本数据库是对图象进行描述的数据库,文本数据库与图书馆数据库类似。而多媒体数据库则是对图像以及音频和视频的存储,并用于存放内容的检索。供电企业的信息安全大数据的存储往往需要先确定好处理的目标,并对数据进行量化的处理,对数据进行一定的评估,进行结果的展示。将大量的数据进行集中化的处理可以切实地反映出安全数据的指标,并根据指标对安全数据进行相应的评估。

5供电企业信息安全大数据安全分析方法

当前,进行供电企业信息安全大数据安全分析的方法有很多,随着大数据的技术体系逐渐成熟,目前对安全数据的分析算法也变得多样化,很多分析方法比如分类技术方法、序列分析方法等等对大量的数据的分析具有很好的效果。而对于不同的数据库可以采用不同的分析算法进行分析。比如,当利用关系数据库和事务数据库时,就可以利用序列分析的办法进行数据的挖掘和统计;而数据仓库除了需要进行联机处理以外,还需要进行数据的挖掘;文本数据库则是利用模式匹配以及关联分析等方法相互结合来进行数据的挖掘分析。

6结论

针对供电企业的信息安全的大数据分析有很多的途径,在进行供电企业信息安全的大数据分析时,需要对供电企业的安全数据信息进行预测,并利用多种分析办法综合处理。随着当前大数据网络技术的不断发展,根据大数据的分析特点进行安全分析的办法也在不断地完善。基于信息安全的大数据分析方法和思路具有很大的发展前景,安全大数据技术的不断革新,使得供电企业的防护网络更加地发达,并逐渐实现了供电企业的大数据信息安全的评估系统的完善,使得供电企业的信息安全大数据发展更为迅速。

作者:李迪 冷金敏 冯涛 单位:国网山东省电力公司聊城供电公司

数据分析方法论文:提高环境监测数据分析质量的方法

一、环境监测数据分析的方法

环境监测数据可以反映出某一区域内的环境质量状况、污染物的排放情况以及环境受污染的程度。各项数据的不断汇总并分析为各级环保主管部门以及相关机构做决策提供了技术依据。因此,采用健全的质量保障体系以及方法来保障数据的分析质量很有必要。首先,我们先来了解监测数据分析的方法。

(一)统计规律分析

就是采用数理统计方法、模糊数学方法以及适用于小同环境要素的数学和物理方程等方法,对所得的监测数据进行深度剖析,做出详细的分析评价。这种数据分析方法主要适用于环境调查、环境规划和环评等工作。

(二)合理性分析

实际的环境监测中,影响环境要素变化的因素错综复杂,而有效的能用于综合分析的监测数据十分有限,所以我们需要考虑到各种环境要素之间的相互影响,以及监测项目之间的关系,理论结合实际分析数据的合理性,这样才可能得到的、合理的监测数据分析结果。

二、提高环境监测数据分析质量的方法

为了促进环境执法工作的严肃和公正,在科学化环境管理政策中,提高环境数据分析质量很有必要。在前人的研究工作基础之上,我们提出了以下几种方法来提高数据分析质量。

(一)加强审核

加强各项审核是提高环境监测数据分析质量的重要方法,它主要是指加强对现有数据的综合审核。在进行例行监测或是年度监测计划时,我们的工作一般都是连续性的展开的,一年或是好几年,因此,我们可以建立一个动态的分析数据库,录入每次的监测数据,包括每个污染源的详细信息(污染点的地理位置和排放口的排污状况等),在以后的审核中,我们可以迅速地在数据审核中对于同一采样点、同一分析项目进行新旧数据的分析对比。当数据分析结果出现异常时,可以及时的发现并找到原因,这可以对污染应急事故的发生起到提前警示的作用。另外,在数据审核中,也要密切注意到同一水样、不同的分析项目之间的相关性,比如:同一水体中氟化物和总硬度、色度和pH的关系、氨氮和总氮之间的相关性等,这样也能及时发现数据分析中出现的误差。

(二)加强监督机制

通过调研我们发现,目前在传统的监测数据质量控制系统中依旧存在许多不足,我们可以通过引入反馈和交流机制,加强监督机制来有效提高数据分析的质量。首先,通过强化平面控制,在系统内部优化管理的模式,提高工作人员的分析技术水平,尽可能的减少或消除数据误差,以此来提高监测分析的性;其次,我们应该主动接受来自外界的监督,对于外界有异议的监测数据要进行反复的检测;再次,我们也应该多举办技术交流会,让技术人员可以与各级环境监测部门的人员沟通,学习他们的先进技术和方法,同时进行数据分析结果对比,找到自身的不足,发现问题并能及时更正。

(三)加强采样及实验室测量质量的控制

1.采样控制

工作人员在每次采样前,都应该根据实际环境情况来制定采样技术细则,做好采样控制,比如:需要校准仪器并确保仪器可以正常运转;使用的采样管和滤膜要正确安装,采样器干净整洁没有受到污染源的污染,其放置的位置也能满足采样要求等。采集好的样品,要妥善存放避免污染。如果样品不能及时进行检测,考虑到样品的稳定性,好将样品密封并存放在于冰箱中。

2.实验室测量控制

在实验室进行样品测试之前,首先应该对所要用到的玻璃量器及分析测试仪器进行校验。日常工作中,也应该根据各种仪器保养规定,对仪器定期进行维护和校验,确保仪器可以正常运转工作。其次,需要调配各种溶液,特别是标准溶液,配置时要使用合格的实验用蒸馏水。测试数据时,先要测定标准样品并绘制标准曲线。测定样品时要检查相关系数和计算回归方程,并对实验系统误差进行测验,每一步都不能少。

三、结束语

总得来说,提高环境监测数据分析质量是环境问题防治的基础和前提,为了保障环境工作质量和监测数据分析结果的,我们首先要注意审核及采样质量的控制,同时将各种数据分析方法结合起来,综合使用,以此来有效提高环境监测数据分析的质量,为环境保护提供科学的决策性依据。

作者:黄琼 单位:黔东南苗族侗族自治州环境监测中心站

数据分析方法论文:基于数据分析方法的属性简约算法的实现

摘要:属性约简是粗集理论中的研究热点之一。 文章通过数据分析方法讨论了属性约简问题,该算法直观,易于理解,能计算出所有的约简,克服了启发式算法的不完备性,以及基于区分矩阵的属性约简算法中出现时间和空间浪费的问题。实例表明,该法是行之有效的。

关键词:粗糙集理论;数据分析方法;信息系统;决策表;属性约简

1 引言

粗糙集(Rough Set)理论[1]是波兰数学家Z.Pawlak于1982年提出的,它建立在完善的数学基础之上,是一种新的处理含糊性和不确定性问题的数学工具。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则[2]。由于粗糙集理论不需要任何预备或额外的有关数据信息,使得粗糙集理论成为研究热点之一,被广泛应用与知识发现、机器学习、决策分析、模式识别、专家系统和数据挖掘等领域。

属性约简是粗糙集理论中核心研究内容之一[3]。在众多的属性约简算法中,大致可以分为两类:一类是基于信息熵的启发式算法[4],这类算法往往不能得到系统的所有约简.另一类是基于区分矩阵和区分函数构造的算法[5],这种算法直观,易于理解,能够计算出所有约简。但在区分矩阵中会出现大量的重复元素,造成时间和空间的浪费,从而降低了属性约简算法的效率。

本文基于数据分析方法[6]的属性简约算法是在保持分类能力不变的前提下,逐个约去冗余的属性,直到不再有冗余的属性,此时得到的属性集是最小属性集,即为约简。该算法简单,能够求出所有约简,不会出现区分矩阵中大

量的重复元素,从而提高了属性约简的效率。

2 粗糙集概念

定义2.1设U为所讨论对象的非空有限集合,称为论域;R为建立在U上的一个等价关系族,称二元有序组S=(U,R)为近似空间。

定义2.2令R为等价关系族,设P?哿R,且P≠?I,则P中所有等价关系的交集称为P上的不可分辨关系,记作IND(P),即有:[x] IND(P)= ∩ [x]R,显然IND(P)也是等价关系。

定义2.3称4元有序组K=(U,A,V,f)为信息系统,其中U为所考虑对象的非空有限集合,称为论域;A为属性的非空有限集合;V=∪Va,Va为属性a的值域;f:U×AV是一个信息函数,?坌x∈U,a∈A,f(x,a)∈Va。对于给定对象x,f(x,a)赋予对象x在属性a下的属性值。信息系统也可简记为K=(U,A)。若A=C∪D且C∩D=?I,则S称,为决策表,其中C为条件属性集,D为决策属性集。

显然,信息系统中的属性与近似空间中的等价关系相对应。

定义2.4设K=(U,A,V,f)为信息系统,P?哿A且P≠?I,定义由属性子集P导出的二元关系如下:

IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}

则IND(P)也是等价关系,称其为由属性集P导出的不可分辨关系。

定义2.5称决策表是一致的当且仅当D依赖于C,即IND(C)?哿IND(D),否则决策表是不一致的。一致决策表说明:在不同个体的条件属性值相同时,他们的决策属性值也相同。

定义2.6设K=(U,A)为一个信息系统。若P?哿A是满足IND(P)=IND(A)的极小属性子集,则称P为A的一个约简,或称为信息系统的一个约简。

定义2.7设K=(U,CUD)为一个决策表,其中C为条件属性集,D为决策属性,若P?哿C为满足POSC(D)=POSP(D)的极小属性子集,则称P为决策表K的一个约简。其中POSC(D)表示决策D关于属性集C的正域。

定义2.8数据分析方法对于信息系统K=(U,A),逐个移去A中的属性,每移去一个属性即刻检查新得到的属性子集的不可分辨关系,如果等于IND(A),则该属性可被约去,否则该属性不可被约去;对于决策表K=(U,CUD),逐个移去C中的属性,每移去一个属性即刻检其决策表,如果不出现新的不一致,则该属性可被约去,否则该属性不可被约去。

3 基于数据分析方法的属性简约算法

3.1 算法思路

利用函数的递归调用,逐个判定信息系K=(U,A)中属性a(a∈A),若IND(A)=ND(A-{a}),则a可以约去,A‘=A-{a},否则a不可以约去,继续检查A‘中的每个属性是否能被约去,此过程一直进行下去,直到出现某一属性子集中的每个属性都不可约去为止,此时该属性子集即为所求的属性简约。对于决策表,每次检查是否增加了不一致的决策规则,作为是否约去属性的依据。

以上给出的函数是求解信息系统的属性约简算法;对于决策表,只要将Match(A’)函数中的if语句的条件换成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是条件属性个数,ag是决策属性。Reduce (A)函数中|R|换成|C|即可。该算法适用于一致决策表,对非一致决策表,算法类似,也就是逐个移去属性并检查决策表是否出现新的不一致,作为约去此属性的依据。

数据分析方法论文:基因调控网络的研究内容及其数据分析方法

摘要:基因调控网络以系统的观点从基因之间相互作用的角度揭示复杂的生命现象,是功能基因组学研究的重要内容,本文着重研究基因调控网络的研究内容、数据分析研究方法。

关键词:基因调控网络;自组织图聚类;机器学习

基因调控网络是计算机科学、数学、信息学向分子生物学渗透形成的交叉点,是运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段研究复杂的基因网络关系。作为一种系统的、定量的研究方法建立在包括分子生物学,非线性数学和程序算法设计等知识等基础上,运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段,整合已有的实验数据和知识,构建生物基因调控网络,从整体的层次,了解细胞的功能;从整体的角度,阐述基因参与的生物调控过程,在全基因组水平上以系统的、全局的观点研究生命现象及其本质,是后基因组时代研究的重要内容。

1 基因调控网络概念

基因调控网络本质上是一个连续而复杂的动态系统,即复杂的动力系统网络。

1.1 基因调控网络的定义

生物体任何细胞的遗传信息、基因都是同样的,但同一个基因在不同组织、不同细胞中的表现并不一样。一个基因的表达既影响其它的基因,又受其它基因的影响,基因之间相互促进、相互抑制,在特定的细胞内和时间下综合环境等因素这样的大环境中呈现活化状态,构成一个复杂的基因调控网络。

1.2 基因调控网络的特性:

基因调控网络是连续的多层次动力系统模型,具有稳定姓、层次性、复杂性、动态性等。

1.2.1 复杂性

生物具有大量的基因,诸多基因组成各个模块,不同的基因网络模块可以在不同层次上发生相互作用,同一个基因可能参与各种不同的分子机理,使得基因网络有着高度的复杂性。

1.2.2 层次性

基因调控网络具有一定层次结构,按照调控元件、motif、模块和整个网络的四层结构,将各个节点有规律的来接在一起。调控元件分为顺式(cis-)和反式(trans-)两种类型, 分别表示受调控基因的结合位点DNA 序列和结合在该序列上对基因起激活或者抑制作用的转录因子。Motif 和模块都是由基因集合构成的调控模式, 是分析网络局部特征和网络构成以及研究调控机理的重要结构。

1.2.3 动态性

生物过程是动态的,用来理解生物过程意义的基因调控网络自然就动态存在。基因调控网络是随着生物过程的动态发生而具有动态的特性,不同条件、不同时间的基因调控网络是不同的。

1.2.4 稳定性

基因调控网络的稳定性体现在生物体缓解突变的影响方面,功能上无关基因之间的相互作用可以抵抗系统突变;一个基因在突变中丧失的功能,有另外一个或更多具有相似功能的基因所补偿,以减弱该突变对表型造成的影响,保持生物进化中的稳定性。

1.2.5 功能模块性

基因调控相关的生物功能主要是通过网络模块来实现的,有适当尺度下的动力学特征和生物学功能解释的模块是由多个motif 构成的,实现相同功能的基因或蛋白质存在拓扑结构上是相关的。

1.3 基因调控网络研究的目的

通过对基因调控网络的研究,识别和推断基因网络的结构、特性和调控关系,认识复杂的分子调控过程,理解支配基因表达和功能的基本规则,揭示基因表达过程中的信息传输规律,清楚整体的框架下研究基因的功能。

2 基因调控网络研究内容

基因调控网络的研究是假设两个基因列谱相似,则这两个基因协作调控,并可能功能相近,有同样表达模式的基因可能有同样的表达过程。基因调控网络主要在三个水平上进行:DNA水平、转录水平、翻译水平。DNA水平主要是研究基因在空间上的关系影响基因的表达;转录水平主要研究代谢或者是信号转导过程决定转录因子浓度的调控过程;翻译水平主要研究蛋白质翻译后修饰,从而影响基因产物的活性和种类的过程。基因转录调控信息隐藏在基因组序列中,基因表达数据代表基因转录调控的结果,是转录调控信息的实际体现。

基因调控网络试图从DNA微阵列等海量数据中推断基因之间的调控关系,对某一物种或组织中全部基因的表达关系进行整体性研究。采用带有反馈回路的基因网络,首先是按照同步或反同步表达,以及表达强度的变化,系统地识别各基因的特点,再用聚类的方法将各基因归类,在此基础上构建基因调控网络,分析相关控制参数.利用其本身或调节位点或拓扑结构进行不同的研究。

3 基因调控网络研究数据分析方法

基因相互作用形成的网络可以利用计算机语言来描述,并进行计算机模拟,计算机仿真语言以及一些数学处理工具如Matlab等对基因网络进行分析;利用拓扑学方法、模糊数学方法、图论和各种可视化技术等数学技术辅助建模、设计并改进算法;利用统计语言学方法,建立DNA序列的多层次信息结构模型,发展真核基因预测的新算法;利用语言学的方法进行调控序列分析,寻找转录因子结合位点的新算法;利用基因表达谱数据,结合启动子及其结合位点,利用Bayes网络及因果分析等统计方法,重构基因转录网络,认识基因的调控规律并进行基因协作功能的分析。

研究基因调控网络的方法目前主要有(1)聚类分析建立模型;(2)微扰分析重构模型口 ;(3)逆向工程推断网络;(4)基于表达谱和ChIP―chip的分析方法,(5)基于表达谱和启动子序列的分析方法,(6)机器学习(machine learning)的方法等几大类。

数据分析方法论文:大数据分析方法及应用初探①

摘 要:大数据在很多的行业和企业得到了应用,对大数据的研究和分析也受到了很多的学者的青睐。大量非结构化流式数据已成为大数据时代的主要数据形态,这给传统的数据处理系统架构带来非常大的挑战,必将使大数据处理系统渐渐由流程设计转变为数据设计。为此,该文主要从大数据分析的方法理论入手,对现今各行各业即将运用的大数据处理方法进行研究,总结出一种较适用的大数据分析方法及其应用,以供行业和企业在未来的业务活动中作参考。

关键词:预测分析 大数据处理 大数据应用 数据挖掘

随着云计算、大数据、物联网和移动互联网等新一代信息技术的发展,传统企业级IT架构正在朝基于互联网的分布式新架构转型。大数据作为新一代信息技术的核心,正在使各个领域变得越来越可感知,并走向智能化。大数据将会发挥自身独特的优势,带给我们更多的方便和便捷。大数据分析的方法理论有哪些、在行业、企业的活动中有哪些应用。

1 大数据分析的五个基本要素

1.1 大数据预测性分析

大数据技术的主要应用是预测性分析,如在线教学资源网站通过数据分析用户会对推荐的教学模是否感兴趣,保险公司通过数据预测被保险人是否会违规,地震监测部门通过对大数据的分析,预测某地点发生地震的大致时间,气象部门利用数据预测天气变化等。预测是人类本能的一部分,通过大数据预测人类才可以获得有意义的、智能的信息。许许多多的行业应用都会涉及到大数据,大数据的丰富特征表述了快速增长的存储数据的复杂性。大数据预测分析打破了数据预测一直是象牙塔里数据科学家和统计学家的工作,伴随着大数据的出现,并融合到现有的MIS、MRPII、DSS 、CIMS和其他核心业务系统,大数据预测分析将起到越来越重要的作用。

1.2 数据管理和数据质量

大数据分析跟数据质量和数据管理紧密相关,而质量高的数据和有效的数据管理可以使分析结果有价值、真实并得到有力的保障。

1.3 可视化分析

普通用户和大数据分析专家是大数据分析的直接使用者,因此他们对大数据分析的基本要求就是要可视化,因为他们想通过可视化分析获得可观的大数据特征,让用户直观看到结果。

提高解释信息的能力可以通过数据的可视化展示来实现,而可视化展示主要由图形和图表来呈现。要从大量的数据和信息中找寻相关性非常的不容易,而图形或图表能够在短时间内展示数据之间的相关信息,并为用户提供所需的信息。

1.4 语义引擎

语义引擎是把现有的数据标注语义,其实可以把它理解为结构化或者非结构化的数据集上的一个语义叠迭层。它是数据分析及语义技术最直接的应用,好的语义引擎能够使大数据分析用户快而准地获得比较的数据。

数据分析的新挑战及困难主要表现在非结构化数据与异构数据等的多样性,必须配合大量的工具去分析、解析、提取数据。语义引擎的设计可以达到能够从文档中自动提取有用信息,使语义引擎能挖掘出大数据的特征,在此基础上科学建模和输入新的数据,来预测未来的可用数据。

1.5 数据挖掘算法

大数据分析的理论核心就是数据挖掘。各种数据的算法基于不同的数据类型和格式,能更加科学地呈现出数据本身的特点,能更快速地处理大数据。如果采用一个算法需要花好几年才能得出结论,那大数据价值也就无从f起了。可视化是给人看的,数据挖掘是给机器看的。集群、分割、孤立点分析还有其他的算法可以使我们深入挖掘数据内部的价值,并且这些算法能够处理大数据的数据量,也可以满足处理大数据的效率要求。

2 大数据处理方法

大数据处理技术在社会的发展中占有重要的地位,现在有很多的研究者对大数据处理技术进行研究,将大数据处理技术与交互设计结合,让交叉科学得到发展,计算机技术的进步,让交叉技术被广泛应用,并引起了很多人的重视,例如:计算机技术可以在艺术中被应用,进行色彩搭配,还可以将计算机技术应用到垃圾分类里,这些都是研究人员对计算机和交叉设计的结合。这种结合让设计学与计算机技术紧急的结合在一起,将传统的调研方式和测试方式应用到交叉科学领域,这种方法的研究可以为用户调研和测试方法提供依据,能够减少人工的成本。大数据处理方法其实有很多,笔者根据长时间的实践,总结了几种基本的大数据处理方法,如非结构数据处理法、自然语言处理法等,该文主要介绍非结构数据处理流程涉及到的主要方法和技术。非结构化数据处理流程主要以网页处理为例来阐述,包括3个阶段,分别是信息采集、网页预处理和网页分类。

2.1 信息采集

信息采集主要是根据相关主题由固定的专业人士来完成,其采集的数据只能用于所针对的主题和相关的模块,出于对效率和成本的考虑不必对整个互联网进行遍历,因此,模块信息采集时往往需要研究以哪种方式预测链接指向的页面与主题的关联性,并测算其是否值得访问;然后研究以哪种相关策略访问Web,以在采集到主题相关页面的同时,尽可能地减少采集到主题无关的页面。

预先设定好种子链接是信息采集的基本方法,充分使用HTTP协议下载被访问的页面,运用分析算法对页面与主题的相关性进行分析,然后确定待访问的相关链接,预测可能指向主题相关页面的链接,循环迭代地运用不同的相关策略访问网页。

2.2 网页预处理

网页预处理最主要涉及到网页去重处理,网页去重可以归为两类:一类是基于URL的对比去重,它适用哈希算法;另一类是基于内容的对比去重,它适用基于信息指纹的文本相似度算法。

网页去重是先抽取文档对象的特征,再对文档内容进行分解,将文档的特征集合表示出来,然后有目的针对特征集合的压缩编码,通过将哈希编码等文本转为数字串映射方式,为后续的特征存储以及特征比较提供方便,这样可以起到减少存储空间,提高比较速度的作用,就是计算文档的相似度,此步需要根据文档特征重复比例来确定文档内容是否重复。一般是提取网页的某一个信息特征,通常是一组关键词,或者是关键词加权重的组合,调用相应的算法,转换为一组关键代码,也被称为指纹,若两个页面有大数量的相似指纹,那么可以预测这两个页面内容具有很高的重复性。

2.3 网页分类

网络时代,人类所面临的一个非常重要且具有普遍意义的问题就是网页分类。将网络信息正确分类,方便人们更好地使用网络资源,使杂乱无章的网络环境变得有条理。而网页分类一般是先对网页中的文本素材进行分类,通常采用文本分类来完成。文本分类主要应用于电子邮件分类、信息过滤、文献翻译、数据检索等任务,文本分类的一个关键问题是特征词的选择问题及其权重分配。

在搜索引擎中,文本分类主要有以下用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面,下载调度时会做不同的调度策略;在做页面信息抽取的时候,会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候,会根据用户所点击的URL所属的类别来推断检索串的类别等。

网页分类方法有SVM分方法和朴素贝叶斯方法,其中比较推荐的是支持向量机分类方法(SVM),该算法主要基于统计学理论及线性分类器准则之上,从线性可分入手,再扩展到线性不可分的情况。甚至有时会扩展到使用非线性函数中去,这种分类器统称为支持向量机。近年来,支持向量机分类方法越来越多的受到网页分类技术人员的青睐。

3 大数据分析在行业活动中的应用

非结构数据处理和数据挖掘的应用范围较广,它可能应用于运营商、银行、传统企业和电商,挑选几个具有代表性的案例与大家分享。

3.1 电信行业

某城市电信运营商的上网日志分析系统,该系统通过收集用户上网日志历史记录数据,分析出每个用户的偏好。首先该系统通过并行统计出每个人有效历史上网日志URL;然后从日志URL中抓取网页内容,提取正文,并通过文本分类算法计算分类;通过统计出每个用户上网关注类别总数,分析出每个用户的偏好。

3.2 地产行业

某房地产企业的社会化品牌实时营销系统,该系统通过社交媒体数据,进行网络口碑监测,负面情绪被及时地发现并制止;通过与客户进行互动,争取客户忠诚度;通过监控同行及竞争对手的各方面资讯,量化评估竞争态势;快速提升品牌知晓度和美誉度,将媒体影响力转换为客户量,缩短人气聚集周期。

3.3 证券行业

某证券商战略信息监测通过历史回顾与信息摘要,提供题目、摘要、原文URL,今日舆情焦点,今日舆论,展示抓取的所有期货产品相关信息的缩略,并提供全文链接。通过热点事件列表可以看到历史相似事件对趋势的影响,通过天气指数与趋势对应曲线可以看到历史相似天气与历史趋势的对照。

3.4 金融行业

某大型股份制商业银行供应商风险评估系统,该系统通过抓取供应商内部数据,如企业年报、公司变动、领导情况、财务状况等数据,分析公司运营指数;通过计算各供应商社交数据,对其社会影响力做评估;通过同行之间的数据分析对比,对供应商进行实力评估,这些数据指数可以有效协助商业银行进行供应商风险评估。

4 结语

大数据处理数据的基本理念是用全体代替抽样,用效率代替,用相关代替因果。证券、微商、地产等行业每天都会产生巨大的数据量,大数据分析与处理已成为大数据技术的最重要的应用,通过大数据技术从海量数据中提取、挖掘对业务发展有价值的、潜在的信息,找出产品或服务未来发展趋势,为决策者提供有力依据,有益于推动企业内部的科学化、信息化管理。

数据分析方法论文:浅谈小学科学实验数据分析方法

在小学科学探究活动中,经常要涉及实验数据。实验数据是客观事实的反映,但实验数据并不等于实验结论,只有在实验的基础上进行科学分析处理,才能得出正确的结论。探究活动中学生经历提出问题、猜想假设、设计方案、进行实验、收集数据等环节后, 就要引导学生分析实验数据,找出规律。分析数据有时要花很长时间,有的需要一定的方法,但有的老师为了完成教学任务,将数据分析过程草率处理,或者直接给出结论。这种对实验数据的态度,严重违背了课程标准对情感、态度、价值观的要求, 更不用说像科学家一样来探究问题。本文结合笔者的教学实际,谈谈科学探究活动中处理实验数据的几种方法。

一、定量计算法

在探究中我们会收集到很多数据,我们可以把收集到的数据运用数学运算方法,得出各数量之间的关系。例如六上《杠杆的科学》一课中,学生通过实验得到了以下数据:

杠杆的科学

阻力点情况 用力点情况

教师引导学生分别比较阻力点与用力点的钩码数和格子数,发现杠杆平衡时每组数据都是用力点的钩码数与格子数的积等于阻力点的钩码数与距离的积,教师利用数据之间的等量关系,帮助学生很好掌握了杠杆平衡的规律。

二、对比分析法

对比是常用的思维方法。在探究活动中,教师可以通过有意识控制一定的条件,让学生观察数据在不同情况的表现,找到它们之间的不同点和共同点,从而揭示事物的本质和现象。如在五下《摆的研究》一课中,针对摆的快慢与哪些因素有关这一问题,让学生利用三个钩码和三根长度不同的摆绳进行实验并采集了以下数据:

15秒摆动次数记录表

引导学生比较数据,可以得出这样的结论:在摆绳长度相同时,摆的快慢与摆重无关;在摆的重量相同时,摆线越长,摆的速度越慢。学生在数据的比较中,发现了摆的特点。

三、示意图分析法

示意图分析法是指利用简单的图和形,把实验采集的数据,绘制成简明的图形,用来说明所研究对象量与量之间关系的一种方法。如六上《下沉的物体会受到水的浮力吗》一课,学生采集了以下数据(见下表):

下教师让学生用示意图,将重力和浮力之间的关系,用图示方法(见上图)画出,并附上简单的文字说明,然后利用示意图解释石块在水下沉的原因。在这里,教师用示意图搭建数据与概念之间的桥梁,把抽象的力之间的关系用直观的手段表现出来,帮助学生理解石块下沉的原因,突破了学生学习上的难点。

示意图直观,形象和简捷,通过示意图来分析数据,既有利于学生对知识的理解和记忆,又可以提高学生的学习兴趣,提升学生的学习能力及情感、态度和价值观等方面的素养。

四、图表图像法

图表图像法是结合数据与图形之间的密切关系,形象地表达数据趋势和规律的一种方法。在六上《抵抗弯曲》一课中,探究 “纸的抗弯曲能力和什么有关” 这个问题时,学生通过实验来获得纸在不同宽度和不同厚度时承受压力(垫圈个数)的数据。(见下表)

教师利用“折线统计图” 将上面的数据用统计图表示如下:

在完成图表和图像后,让学生结合表格中的数据观察折线图,在图上清晰看到了纸的宽度和厚度的抗弯曲能力,同时对纸的厚度更能影响纸的抗弯曲能力有了更直观的认识。在这里,教师利用统计图,引导学生比较纸的宽度和厚度的抗弯曲能力,方法巧妙,目标清晰,学生对概念的印象也深刻。

五、推理分析法

数据推理方法是运用数学思想,通过推导、分析一组已知数据,来判断、推测与它对应数值的一种分析方法。如五上《我们的小缆车》中,一小组在2、4、6个垫圈拉力时,测得小车运行时间分别为2.5秒、1.8秒和1.2秒,教师引导提问:“推测一下,你们的小缆车在8个垫圈的时候,速度大概是多少?并说说理由。”学生:“我们认为8个垫圈应该在0.6秒左右。”教师:“说说理由。”学生:“因为我们组2个垫圈是2.5秒,4个垫圈是1.8秒,6个垫圈是1.2秒,增加2个垫圈,时间减少0.6秒左右,所以我们估计8个垫圈在0.6秒左右。”教师:“那你们能不能利用刚才的实验装置来验证一下你们的猜测?”学生:“可以。”

……

在上述案例中,学生根据自己的实验数据,通过对相邻数据的连续观察,发现其中的一些科学规律,经过分析、推敲,得出一个可能的稻荨T谡飧龉程中,教师引导学生运用推理方法分析数据,不仅加深了学生对力与运动的进一步认识,而且提高了儿童的思维能力和探究能力。

上面所说的是一些科学探究活动中常用的数据分析方法。事实上,对科学探究中的实验数据进行分析、处理的方法很多。只有根据具体的实际情况,引导学生选择恰当的方法对实验数据进行合理处理,才能快速发现规律,得出科学的结论,形成科学概念。科学探究的过程是曲折的,在科学探究的路上,从一堆数据中找出规律来,有的要花费科学家毕生的精力,甚至需要一代又一代的不懈努力。我们在引导学生进行探究活动时, 不能只为完成教学任务,急功近利,应多在引导学生分析数据上下功夫,真正让学生体会到科学探究的艰辛和乐趣。

数据分析方法论文:几种功率谱估计方法在飞行试验数据分析中的研究

摘 要:在飞行试验数据处理中为了频域分析的需要,针对输入数据进行功率谱估计,文章使用经典功率谱估计中的周期图法、Welch法以及现代功率谱估计中的Burg法、MTM法对飞机输入激励信号进行谱估计,从而得到各种方法对该信号的功率谱图并分析其频域特性,然后比较得出Welch法的结果更适用于该类信号的频域分析,得到的结果能够较好地应用于飞行品质频域准则的评估。

关键词:经典功率谱估计;现代功率谱估计;飞行试验

1 概述

当飞机在闭环补偿跟踪任务中飞行时,飞机飞行品质的一种量度是它的稳定裕度,因而将在不危及稳定性的情况下可以进行闭环跟踪的较大频率定义为频宽。频宽是衡量较大频率的一个指标,它对高增益飞机特别有用,不论是对驾驶员操纵力和操纵位移的俯仰姿态响应还是根据航向角或者横向航迹角对座舱直接力空中输入的开环频率响应,它都可以在这个频率条件下实现闭环跟踪而不需要驾驶员提供有利的动态补偿且不对稳定性构成恶化[5]。因此,在飞行试验的数据分析中,获取精准的飞机响应的频域特性尤为重要,这就需要首先对操纵输入信号进行功率谱估计,本文列出4种功率谱估计方法,并用这些方法对飞机的输入激励信号进行谱估计,以便得到适用于飞行品质频域准则评估的频域特性。功率谱估计可分为经典谱估计和现代谱估计。

2 经典谱估计

功率谱密度是一种概论统计方法,是对随机变量均方值的量度。平稳信号的自相关函数的傅立叶变换称为功率谱密度。实际中采用有限长的数据来估计随机过程的功率谱密度[2、3]。

2.1 周期图法

周期图法是信号功率谱的一个有偏估计,它对观测到的有限长序列x(n)求其N点离散傅立叶变换XN(ej?棕),再取其模值的平方除以N,得到计算公式:

周期图法是基本的功率谱估计方法,计算简便,计算效率高,但是当数据长度N过大时,功率谱曲线起伏加剧,当N过小,谱分辨率较差。

2.2 加权交叠平均法(Welch法)

Welch法是对随机序列分段处理,使每一段部分重叠,然后对每一段数据用一个合适的窗函数进行平滑处理,对各段谱求平均。这样可以得到序列x(n)的功率谱估计:

(n)是窗函数[1],由于各段数据的交叠,数据段数L增大,从而减小了方差,另外,通过选择合适的窗函数,也可使遗漏的频谱减少,改进了分辨率。因此这是一种把加窗处理和平均处理结合起来的方法,它能够满足谱估计对分辨率和方差的要求,但是如果信号数据过短,也会无法进行观测。

3 现代功率谱估计

现代功率谱估计分为参数模型法和非参数模型法。

3.1 参数模型法(AR模型的Burg法)

参数模型法是将数据建模成一个由白噪声驱动的线性系统输出,并估计该系统的参数。最常用的线性系统模型是全极点模型,也就是一个滤波器,这样的滤波器输入白噪声后的输出是一个自回归(设AR模型的冲击响应在方差?滓2的白噪声序列作用下产生输出,再由初值定理得到:

这就是AR模型的Yule-Walker方程。本文采用的是该方程的Burg法,即先估计反射系数,然后利用Levinson递推算法,用反射系数求AR参数。Burg法在信号长度较短时能够获得较高的分辨率,并且计算高效。

3.2 非参数模型法(多窗口法)

多窗口法也叫做Thompson Multitaper Method,MTM法,它使用一组滤波器计算估计值,这些FIR滤波器是由一组离散扁平类球体序列(DPSS)得到的,除此之外,MTM法提供了一个时间-带宽参数,它能在估计方差和分辨率之间进行平衡。因此,MTM法具有更大的自由度,在估计精度和估计波动方面均有较好的效果,其增加的窗口也会使序列两端丢失的信息大幅减少[7]。

4 实例分析

本文采用Matlab计算,输入信号使用飞行试验中常用的扫频和倍脉冲信号。通过Matlab中的谱估计函数方法[4、6],编写程序对给定的输入信号分别进行周期图法、Welch法、Burg法和MTM法的谱估计并分析。估计结果如图1、图2所示:

从图1、图2可以看出:

(1)周期图法得到的扫频功率谱曲线起伏大,倍脉冲信号的频谱分辨率低;(2)Welch法明显改善了周期图法的不足,方差性能得到很大的改善,只要窗函数选取适当,可减少频谱泄露。图中可见Welch法的谱估计曲线比较光滑,在飞行品质关注的频段频谱分辨率高;(3)Burg法的曲线平滑性好,频谱分辨率高,但是其谱峰窄而尖,在飞行品质关注的低频段频谱并不理想,也就是不能在所需的频段内产生足够的能量;(4)MTM法得到的结果介于周期图法和Welch法之间,但是对于时间序列较长的信号,MTM法的功率谱曲线起伏较大,分辨率变低。

5 结束语

通过4种功率谱估计方法对飞机输入激励信号的谱估计分析,采用Welch法得到了更有效的输入信号的谱估计,得到的频域特性能够更好地进行飞行品质频域准则的评估,这对飞行品质的等级界定提供了有效的依据。

数据分析方法论文:运用数据分析方法 把握概念的内涵与外延

摘 要:文章以弱酸的电离平衡常数Ka为例,简述如何运用数据分析方法,把握化学概念的内涵与外延,帮助学生理解概念本质,提升学生的科学素养,提高学生综合应用概念的水平,提高学生计算能力,体现化学基本概念对元素化合物性质学习的指导作用。

关键词:数据分析方法; 概念的内涵与外延 ;弱酸电离平衡常数Ka

概念的内涵就是反映在概念中的事物的本质属性,这是概念的内容。概念的外延就是具有概念所反映的本质属性的对象,这是概念的适用范围。学生对于概念的掌握程度可以通过各种判断题、选择题的综合检测得到体现,概念的正确掌握能从根本上解决计算题、实验题及综合题等。只有学好的基本概念,深刻理解概念的内涵和外延,把握概念的本质属性,才能扎实地掌握相关的知识内容,正确而有效地学好化学知识。

一、运用数据分析,把握化学概念的内涵

高中化学选修四《化学反应原理》一书中的一些化学基本概念比较抽象,教师应在教学中依据教材提供的数据材料或通过实验所得数据及推理演算,引导学生在探索中得出相关概念,并进一步理解概念的本质。通过数据分析的教学,让学生自己收集数据,应用数据分析,从而感受数据分析的实际价值,深刻理解概念的内涵。

例如,弱电解质电离平衡常数用Ki表示。弱电解质通常为弱酸或弱碱,所以在化学上,可以用Ka、Kb分别表示弱酸和弱碱的电离平衡常数。用HA表示弱酸,则其电离方程式为HA H++A-,则电离常数Ka=[H]*[A]/[HA],电离平衡常数描述了一定温度下弱电解质的电离能力。在相同温度和浓度时,电离度的大小也可以表示弱电解质的相对强弱。用电离度比较几种电解质的相对强弱时,应当注意所给条件,即浓度和温度,如不注明温度通常指25℃。

在教学过程中,我们发现这些概念抽象难以用启发式教学法让学生去学习,因为学生对于课本上弱酸的电离平衡常数的理解总是基于表面,没能真正理解化学概念的内涵。

教师在教学中应充分利用课本中的数据,分析Ka与电离度α的关系,比较Ka与电离度α的相同点与不同点。电离常数K与电离度α的关系可近似地表示为K=cα2,其中c为弱电解质溶液的浓度。教师通过设计一组具体数据,让学生从电离常数可以算出不同浓度、不同温度时弱电解质的电离度,比较电离常数与电离度的区别,可看出Ka是常数而α不是常数。Ka随温度而变化,α随Ka而变化,因此α也随温度而变化,Ka不因浓度改变而变化,但α却随浓度而变化,Ka不因溶液中其他电解质的存在而变化,但α却因溶液中其他电解质离子的存在而变化。

例如,在醋酸溶液中加入醋酸钠(CH3COONa),则因同离子效应而使平衡向左移动,α将减小。在室内温度下,醋酸的电离常数是1.8×10-5,学生对这一数据并没有什么印象,但通过计算可以得出它的电离度α=1.3%,学生得出每1000个醋酸分子室温条件下只有13个醋酸分子发生电离,987个醋酸分子的形式存在溶液中。通过数据的分析转换,学生容易理解弱电解质的电离程度的大小,有利于把握化学概念的内涵。

二、运用数据分析,化学概念的外延

化学课本中有许多数据,教学中并不要求具体记忆这些数值,但对这些数据的统计分析,既能帮助学生理解概念本质,形成学科观念,又有利于培养学生严谨的科学态度,提升科学素养。对这些数据的统计分析,有利于学生建立的数据观念,可以发展学生的数据意识,学生从中提取相关信息,从而充分体现化学基本概念对元素化合物性质学习的指导作用。例如,关于Ka概念外延的教学,我们应该清楚该概念的适用范围。

(1)根据Ka判断弱酸的酸性强弱。通过Ka的学习达到指导元素化合物性质的学习。相同条件下,Ka越大,酸性越强。通过比较Ka,我们可以得出常见弱酸的酸性:CH3COOH>H2CO3>

H2SiO3;H2CO3>HClO;H2CO3>Al(OH)3。这样,学生就很容易理解醋酸溶液与碳酸钙的反应,还有漂白粉放置在空气中失效、水玻璃溶液中通入二氧化碳气体、偏铝酸钠溶液中通入二氧化碳气体等一系列反应,这些反应都是高一化学课本中的重要反应,都符合“酸性强的制取酸性弱”的基本原理。

(2)以Ka来判断盐类物质的水解相对大小。根据盐类水解规律“越弱越水解”,我们可以判断出相同条件下醋酸铵溶液、氯化铵溶液、次氯酸铵溶液水解的相对大小,从而判断出溶液的酸碱性。分析利用醋酸Ka和氨水Kb数据的特殊性可知:醋酸铵溶液接近中性,进而可以探究Mg(OH)2沉淀溶于浓铵盐的反应原理。

(3)根据Ka1、Ka2判断酸式盐溶液的酸碱性。在25℃时,碳酸的电离平衡常数分别为:碳酸Ka1=4.30×10-7,Ka2=5.61×10-11;亚硫酸的电离平衡常数Ka1=1.54×10-2 ,Ka2=1.02×10-7。对于酸式盐NaHA的水溶液, NaHA 中 HA-既可电离:HA- H++A2-,也可水解:HA-+ H2O H2A + OH-。酸式盐溶液由于NaHCO3溶液的Ka1Kh1而显酸性。

(4)根据Ka1、Ka2的相对大小判断物|的性质、理解离子反应的实质。碳酸Ka1=4.30×10-7 ,Ka2=5.61×10-11 ;苯酚C6H5OH ,Ka=1.0×10-10; 氢氧化铝的酸式电离Ka= 6.3×10-13 。通过对这些数据的分析,我们容易得出酸性:H2CO3>HCO3->Al(OH)3-;H2CO3>

C6H5OH>HCO3-。这样就容易理解以下四个反应:

A.往苯酚钠水溶液中通入少量或足量CO2 : C6H5O-+H2O+CO2 C6H5OH+

HCO3-

B.往偏铝酸钠水溶液中通入少量CO2 :AlO2-+H2O+CO2Al(OH)3+CO32-

C.往偏铝酸钠水溶液中通入足量CO2:AlO2-+H2O+CO2Al(OH)3+

HCO3-

D. 偏铝酸钠水溶液与碳酸氢钠水溶液混合: AlO2-+HCO3-+H2O

Al(OH)3+CO32-

三、运用数据分析,拓展提高学生综合应用概念的水平

化学计算是中学化学教学的重要内容,也是中学生必须掌握的一个基本技能,学会数据分析是提高计算能力的关键。化学计算题中,往往题目数据多、综合性强,但学生们因综合分析能力差,不善于对知识迁移,因而觉得十分棘手。分析化学过程、融会贯通理解化学概念的内涵是正确解决化学计算题的基础。

在学习《溶液中的离子反应》专题后,许多教师会引导学生对化学平衡常数K、酸碱电离平衡常数Ka、Kb、水的离子积Kw、难溶电解质的溶度积Ksp等一些概念进行比较归纳,分析他们的异同,但是若能进一步拓展到酸电离平衡常数Ka与盐的水解常数Kh、与难溶电解质的溶度积Ksp、配合物的稳定系数Kw之间的联系,就能进一步提高学生的综合能力。

例如,在25℃下,于0.010mol・L-1

FeSO4溶液中通入H2S(g), 使其成为饱和溶液 (C(H2S)= 0.10mol・L-1) 。

用HCl调节pH值,使C(HCl)= 0.30mol・L-1 ,试判断能否有FeS生成。这样一道计算题融合了Ksp与Ka的计算,体现了概念的外延,拓展了学生综合应用概念的水平,既能帮助学生理解概念本质,形成学科观念,又有利于培养学生的计算能力、解题能力,提升学生的科学素养。

总之,运用数据分析方法,把握化学概念的内涵与外延,有利于促进学生化学综合素养的提升。本文仅从以上三个方面予以论述,以供参考。

(作者单位:福建省永春及时中学)

数据分析方法论文:一种大数据智能分析平台的数据分析方法及实现技术

摘要:文章介绍了一种用于大数据智能分析平台的数据分析方法及实现技术,介绍了这种方法的需求和意义;和该方法的总体架构,以及在数据传输、数据清洗和数据分析的实现;概述了这种技术高并发、大数据量的优化措施和跨平台的实现。

关键词:大数据;数据分析;数据挖掘

1 综述

1.1 简介

在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。

1.2 需求和意义

从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。

但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。

2 功能设计

2.1 总体架构

本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如图1所示。

2.2 在线数据

在线数据在线通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:在线数据、或归档数据。本平台中采用:Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。

2.3 归档数据

归档数据是在线存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。

2.4 非结构化数据

通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。

针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。

2.5 结构化数据

结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。

本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。

结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。

2.6 准实时数据

通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。

2.7 非实时数据

非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、图计算、数值拟合等。

非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。

2.8 范式化模型

范式化模型主要是针对关系型数据库设计范式,通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。

2.9 基于维度模型

维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。

3 应用效果

本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。

4 结语

本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。