引论:我们为您整理了13篇数据分析的方法范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。
篇1
· 数据分析的一般过程是怎样的?
· 有哪些数据分析方法?
· 在服务性行业里,数据分析方法有哪些需要特别注意的地方?
· 在国内最容易犯哪些数据分析的错误?
因笔者能力和精力有限,文章中存在错误或没有详尽之处,还望各位读者见谅并恳请及时指正,大家相互学习。
(一)数据分析的核心作用
根据国际标准的定义,“数据分析是有组织、有目的地收集并分析数据,通过将数据信息化、可视化,使之成为信息的过程,其目的在于把隐藏在看似杂乱无章的数据背后的信息集中和提炼出来,从而总结研究对象的内在规律。”在实际工作中,数据分析能够帮助管理者进行判断和决策,以便采取适当策略与行动。
这里需引起关注的是任何没有目的或结果的分析报告都是“忽悠”,都仅仅是没有灵魂的躯壳!我们经常看到国内的同事们忙于各种所谓的“数据分析报告”,堆砌了大量的图表和文字,显得“专业”、“美观”,但认真研读后却发现缺乏最关键的“分析”过程,更别说什么分析结果了。显然大家只是把对事实的原始描述当成了数据分析,而实际上描述原始事实只是数据分析过程的一项内容而非全部。数据分析不能仅有报表没有分析,因为“有报表不等于有分析,有分析不代表有效执行”,报表只是数据的展现形式;数据分析也不能仅有分析没有结论,没有结论的分析无疑“差了一口气”,对实际业务工作无法产生价值,唯有通过分析得出结论并提出解决方案才能体现数据分析协助管理者辅助决策的核心作用。因此数据分析来源于业务,也必须反馈到业务中去,没有前者就不存在数据分析的基础,没有后者也就没有数据分析的价值了。
(二)数据分析的分类
最常见也是最标准的数据分析可分为三大类:描述性数据分析、探索性数据分析以及验证性数据分析。
所谓描述性分析是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体特征。这种分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形,比如上个月的平均通话时长是多少,员工离职率是多少等等。
探索性数据分析是指对已有数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,侧重于在数据之中发现新的特征,比如呼叫中心的一次解决率和哪些因素相关?他们背后的驱动因素又有哪些?哪些因素是“因”、哪些又是“果”等等。
而验证性分析是依据一定的理论对潜在变量与观察变量间关系做出合理的假设,并对这种假设进行统计检验的现代统计方法,侧重于验证已有假设的真伪性。验证性分析是在对研究问题有所了解的基础上进行的,这种了解可建立在理论研究、实验研究或两者结合的基础上,比如从调研的结果来看本月的客户满意度比上个月高出2%,是否真是如此;男性客户的满意度是否高于女性客户等等。
(三)数据分析的一般过程
通常来讲完整的数据分析过程可分为以下几步:明确数据分析的目的、采集并处理数据、分析及展现数据、撰写分析报告。
现实情况中人们往往在做数据分析时陷入一大堆杂乱无章的数据中而忘记了分析数据的目的,数据分析第一步就是要明确数据分析的目的,然后根据目的选择需要分析的数据,明确数据分析的产出物,做到有的放矢、一击即中!
其次,在做数据分析时要根据特定需求采集数据,有目的地采集数据是确保数据分析过程有效的基础,采集后的数据(包括数值的和非数值的)要对其进行整理、分析、计算、编辑等一系列的加工和处理,即数据处理,数据处理的目的是从大量的、可能是难以理解的数据中抽取并推导出对于某些特定人群来说是有价值、有意义的数据。
接着是对处理完毕的数据进行分析和展现,分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,数据展现的方式有两类:列表方式、图形方式。
最后,整个数据分析过程要以“分析报告”的形式呈现出来,分析报告应充分展现数据分析的起因、过程、结果及相关建议,需要有分析框架、明确的结论以及解决方案。数据分析报告一定要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为整个数据分析过程就是为寻找或者求证一个结论才进行的。最后,分析报告要有建议或解决方案,以供管理者在决策时作参考。
(四)客户中心常用的数据分析工具及简介1 Excel
Excel是微软办公套装软件的一个重要组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。Excel提供了强大的数据分析处理功能,利用它们可以实现对数据的排序、分类汇总、筛选及数据透视等操作。
2 SPC
SPC(Statistical Process Control)即统计过程控制,是一种借助数理统计方法的过程控制工具。实施SPC的过程一般分为两大步骤:首先用SPC工具对过程进行分析,如绘制分析用控制图等;根据分析结果采取必要措施:可能需要消除过程中的系统性因素,也可能需要管理层的介入来减小过程的随机波动以满足过程能力的需求。第二步则是用控制图对过程进行监控。
3 SAS
SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,时至今日,统计分析功能仍是它的重要组成部分和核心功能。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,SAS提供多个统计过程,用户可以通过对数据集的一连串加工实现更为复杂的统计分析,此外 SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。
4 JMP
JMP是SAS(全球最大的统计学软件公司)推出的一种交互式可视化统计发现软件系列,包括JMP,JMP Pro,JMP Clinical,JMP Genomics,SAS Simulation Studio for JMP等强大的产品线,主要用于实现统计分析。其算法源于SAS,特别强调以统计方法的实际应用为导向,交互性、可视化能力强,使用方便。JMP的应用非常广泛,业务领域包括探索性数据分析、六西格玛及持续改善(可视化六西格玛、质量管理、流程优化)、试验设计、统计分析与建模、交互式数据挖掘、分析程序开发等。 SPSS(Statistical Product and Service Solutions)“统计产品与服务解决方案”软件,是世界上最早的统计分析软件,基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数,SPSS也有专门的绘图系统,可以根据数据绘制各种图形。
6 Minitab
篇2
文献标识码:A
文章编号:1002―2848―2007(01)-0108―06
一、前 言
在经济数据的传统定量分析中,所分析的数据对象具有这样的特征,即数据要么是时间序列数据,要么是横截面数据。而实际中获得的许多经济数据,往往是在时间序列上取多个截面,再在这些截面上同时选取样本观测值所构成的样本数据。计量经济学中称这样的数据为“平行数据”(Panel Da―ta),也被翻译成“面板数据”,或“纵向数据”(longitudinal data)。20多年来,许多学者研究分析了面板数据。事实上,关于面板数据的研究是计量经济学理论方法的重要发展之一,它在解决数据样本容量不足、估计难以度量的因素对经济指标的影响,以及区分经济变量的作用等方面,具有突出优点。但是,研究面板数据的计量模型,以线性结构描述变量之间的因果关系,且模型太过于依赖诸多的假设条件,使得方法的应用具有一定的局限性。为了弥补面板数据的计量模型分析方法及其它统计分析方法的缺陷,本文基于经济数据的函数性特征,介绍一种从函数视角对经济数据进行分析的全新方法一函数性数据分析(Functional Data Analysis,FDA)。
函数性数据分析的概念,始见于加拿大统计学家J.O.Ramsay和C.J.Dalzell于1991年发表的论文《函数性数据分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)将对函数性数据进行统计分析的已有理论和方法,总结在《函数性数据分析》一书中。但这本书偏重方法的理论介绍和数学推导,不利于统计基础薄弱者使用。经过5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函数性数据案例,并将其具体的分析过程编入他们于2002年出版的专著中。虽然国外在这方面已经做了许多研究,也取得了许多有价值的结果,但是有关函数性数据的研究依然处于起步阶段,还有很多问题需要研究或进一步完善。另外,从方法应用的具体领域来看,很少涉及对经济函数性数据的分析。就目前研究文献来看,我国在此方面的研究尚是一片空白。
为填补我国在这方面研究的空白,本文从思想、方法等方面,对函数性数据分析进行系统介绍,并通过编写计算机程序,率先利用该方法分析实际的经济函数性数据。本文共分六部分,以下内容的安排为:数据的函数性特征及经济函数性数据实例、从数据的函数性视角研究数据的意义、函数性数据分析的目标和步骤、函数性数据分析方法的经济应用,最后一部分是本文的结论。
二、数据的函数性特征及经济函数性数据实例
一般地说,多元数据分析(Multivariate Data A-nalysis,MDA)处理的对象,是刻画所研究问题的多个统计指标(变量)在多次观察中呈现出的数据,样本数据具有离散且有限的特征。但是,现代的数据收集技术所收集的信息,不但包括传统统计方法所处理的数据,还包括具有函数形式的过程所产生的数据,例如,数据自动收集系统等,称具有这种特征的数据为函数性数据。
函数性数据的表现形式多种多样,但就其本质来说,它们由函数构成。这些函数的几何图形可能是光滑的曲线(如人体在成年前的身体高度变化等),也可能是不光滑的曲线(如股票综合指数等)。许多研究领域的样本资料往往表现为函数形式,如考古学家挖掘的骨块的形状、按时间记录的经济数据、手写时笔尖的运动轨迹、温度的变化等。函数性数据分析(Functional Data Analysis,FDA)的基本原理是把观测到的数据函数看作一个整体,而不仅仅是一串数字。函数指的是数据的内在结构,而不是它们直观的外在表现形式。
实际中,之所以要从函数的视角对数据进行分析,是因为:(1)实际中,获得数据的方式和技术日新月异、多种多样,例如,越来越多的研究者可以通过数据的自动收集系统获得大量的数据信息。更重要的是,原本用于工程技术分析的修匀(smoothing)和插值(interpolation)技术,可以由有限组的观测数据产生出相应的函数表示。(2)尽管只有有限次的观测数据可供利用,但有一些建模问题,将其纳入到函数版本下进行考虑,会使分析更加全面、深刻。(3)在有些情况下,如果想利用有限组的数据估计函数或其导数,则分析从本质上来看就具有函数性的特征。(4)将平滑性引入到一个函数过程所产生的多元数据的处理中,对分析具有重要的意义。
在经济分析中,融合时间序列和横截面两者的数据很常见,例如,多个国家、地区、行业或企业的多年的年度经济总量、多家商业银行历年的资本结构、能源(如电力、煤炭、石油等)多年按月的消耗量、不同时间上多个省市的失业数据等。这些经济数据往往呈现函数性特征,即每个个体对应着一个函数或曲线。在对经济函数性数据进行分析时,将观测到的数据(函数)看作一个整体,而不是个体观测值的顺序排列,这是函数性数据分析不同于传统统计分析之根本所在。例如,表1是工商银行、农业银行、中国银行、建设银行1995年到2004年期间的资产收益率(ROA)数据。
利用基于MATLAB编写的程序,对数据进行平滑处理(smoothing),并绘出四家国有银行的资产收益率(ROA)的修匀曲线(见图1)。由曲线图可以看出,每个个体(银行)对应着一条曲线(其数学表达式为函数),这是将多家银行的历年ROA数据记录看作函数的根本理由,也是函数性数据分析的出发点。
三、从数据的函数性视角研究数据的意义
从函数的视角,对具有函数特征的经济数据进行研究,会挖掘出更多的信息。例如,对函数性数据的平滑曲线展示,不但能够诊断出拟合数据的可能数学模型,还能够通过对光滑曲线求一阶、或更高阶的导数,来进一步探索数据的个体(横截面)差异和动态变化规律。
图2是四家银行资产收益率的速度(一阶导数)曲线,观察发现:在1995年至2004年期间,农业
银行、中国银行及建设银行的资产收益率的变化率,呈现出较强的周期性,其中尤以建设银行的表现最为突出。加速度曲线图显示,四家银行资产收益率的变化率的波动状况不相同,转折变化的时间差异也较大。这些情况一定程度表明,各家银行的内部管理与经营机制,对市场信息的反应快慢程度各不相同。
四、函数性数据分析的目标和步骤
函数性数据分析的目标与传统统计学分析的目标基本一样,具体情况如下:
(一)以对进一步分析有利的方法来描述数据;
(二)为突出不同特征而对数据进行展示;
(三)研究数据类型的重要来源和数据之间的变化;
(四)利用输入(自变量信息)来解释输出(因变量)的变化情况;
(五)对两组或更多的某种类型的变量数据进行比较分析。
典型的FDA主要包括以下步骤:
第一步,原始数据的收集、整理和组织。假设我们考虑的自变量是一维的,记为t,一个的函数仅在离散抽样值 处被观测,而且这些ti可能等间隔分布,也可能不是。在函数性数据分析中,将这些离散的观测值看作一个整体。
第二步,将离散数据转换为函数形式。这是利用各次观察的原始数据定义出一个函数x(t),它在某一区间上所有t处的值都被估算了出来。解决这个问题的基本方法是选定一组基函数 (t),k=O,…,K,并用基函数的线性组合给出函数x(t)的估计
第三步,多种形式的初步展示与概括统计量。概括统计量包括均值和方差函数、协方差与相关函数、交叉协方差(cross―covafiance)与交叉相关(cross―correlation)函数等。
第四步,为了使每一条曲线的显著特征都在大体相同的自变量处(如月份、年份等)显现出来,可能需要对函数进行排齐(regigtration),其目的是能够区别对待垂直方向的振幅变化与水平方向的相变化。
第五步,对排齐后的函数数据进行探索性分析,如函数性主成份分析(FPCA)、函数性典型相关份析(FCCA)等。
第六步,建立模型。建立的模型可能是函数性线性模型,也可能是微分方程。
第七步,模型估计。
五、函数性数据分析方法的经济应用
为了说明函数性数据分析方法的具体应用,同时出于使所绘图形简单明了,本文再次利用四家国有银行的数据,对资产收益率进行更深入的分析。虽然此实例中个体数少,但并不妨碍对方法应用的系统描述与理解。
在对实际问题的经济数据进行分析时,通常需要依照研究的目标编写计算机程序。就目前的研究现状来看,基于MATLAB或SPLUS等编写的程序,如绘图或综合计算函数等,完全可以满足分析的需要。本文首先基于MATLAB编写程序,然后对四家国有银行的资产收益率数据进行分析。
关于四家银行资产收益率数据的函数(曲线)展示与初步分析,本文在前面已进行了描述,具体结果见图1和图2。概括资产收益率特征的统计量(均值函数和标准差函数)的曲线见图3。
为了进一步探讨典型函数所呈现的特征,本文利用函数性主成份分析,对四家银行的资产收益率数据进行分析。一般来说,在函数性数据分析中,与多元统计中的某个主成份的权向量相对应的是主成份权函数(principal component weight function),记为 ,其中t在一个区间 中变化。第i个样品(个体) 的主成份得分值为 ,第一主成份就是在 的约束条件下,寻求使主成份得分 的方差达到最大的权函数 ,即它是下面数学模型的最优解: 类似地,可以求得第j个主成份,其权函数毛(t)是下面数学模型的解:
为了得到光滑的主成份,一种方法是对由上述方法求出的主成份进行修匀,另一种方法是将修匀处理过程,融入到主成份的求解过程中。具体作法是将描述主成份曲线波动程度的粗糙因子纳入到约柬条件中,形成带惩罚的约束条件。利用粗糙惩罚法求第j个主成份的数学模型是其中 称为修匀参数,用它可对粗糙惩罚项进行调整。
利用上述方法和基于MATLAB编写的程序,对四家银行进行函数性主成份分析(FPCA)。具体结果见图4。第一个主成份(PCI)的解释能力为85.5%,第二个主成份(Pc2)的解释能力为13.1%,前两个主成份的综合解释能力为98.6%。
为了清晰地显示主成份,并进行有意义的解释,在同一图中绘出三条曲线,一条是整体均值曲线,另两条是对均值曲线分别加上和减去主成份的一个适当倍数而形成的曲线,具体结果见图5(本文所选的倍数是0.12)。以上所述的三条曲线分别对应着图5中的实心曲线、‘+’曲线和‘*’曲线。第一个主成份反映了资产收益率(ROA)的一般变化,尤其反映了资产收益率的“两头”变化情况(1999年以前和2003年以后)。第二个主成份反映了资产收益率(ROA)的中段变化。
六、结论
在经济实践中,越来越多的领域所得到的样本观察资料是曲线或图像,即函数性数据。因此,对这种类型的经济数据进行统计分析和描述,具有重要的现实意义。因篇幅所限,还有一些函数性数据的分析方法未予以介绍,如函数性方差分析、函数线性模型、函数性典型相关分析以及描述动态性的微分方程等。由于本文的主要目的,是通过对函数性数据分析方法和具体应用的介绍,传述对数据进行分析的新思想,而不只是方法技术本身。因此,缺少的方法并不影响对思想的阐述。
篇3
网站优化数据分析方法二:关键词分析
网站关键词分析也是网站优化的重要工作之一!分析现在网站关键词的布局,分析网站有流量的关键词,分析网站还没有覆盖的与网站业务相关的关键词,分析出网站主关键词的排名情况,分析关键词的设计是否合理。分析顶级关键词是否占据了搜索引擎首页的排名,分析搜索关键词的质量高不高,与网站业务的相关度如何?!分析关键词转化率如何等等。
篇4
一、运用数据分析,把握化学概念的内涵
高中化学选修四《化学反应原理》一书中的一些化学基本概念比较抽象,教师应在教学中依据教材提供的数据材料或通过实验所得数据及推理演算,引导学生在探索中得出相关概念,并进一步理解概念的本质。通过数据分析的教学,让学生自己收集数据,应用数据分析,从而感受数据分析的实际价值,深刻理解概念的内涵。
例如,弱电解质电离平衡常数用Ki表示。弱电解质通常为弱酸或弱碱,所以在化学上,可以用Ka、Kb分别表示弱酸和弱碱的电离平衡常数。用HA表示弱酸,则其电离方程式为HA H++A-,则电离常数Ka=[H]*[A]/[HA],电离平衡常数描述了一定温度下弱电解质的电离能力。在相同温度和浓度时,电离度的大小也可以表示弱电解质的相对强弱。用电离度比较几种电解质的相对强弱时,应当注意所给条件,即浓度和温度,如不注明温度通常指25℃。
在教学过程中,我们发现这些概念抽象难以用启发式教学法让学生去学习,因为学生对于课本上弱酸的电离平衡常数的理解总是基于表面,没能真正理解化学概念的内涵。
教师在教学中应充分利用课本中的数据,分析Ka与电离度α的关系,比较Ka与电离度α的相同点与不同点。电离常数K与电离度α的关系可近似地表示为K=cα2,其中c为弱电解质溶液的浓度。教师通过设计一组具体数据,让学生从电离常数可以算出不同浓度、不同温度时弱电解质的电离度,比较电离常数与电离度的区别,可看出Ka是常数而α不是常数。Ka随温度而变化,α随Ka而变化,因此α也随温度而变化,Ka不因浓度改变而变化,但α却随浓度而变化,Ka不因溶液中其他电解质的存在而变化,但α却因溶液中其他电解质离子的存在而变化。
例如,在醋酸溶液中加入醋酸钠(CH3COONa),则因同离子效应而使平衡向左移动,α将减小。在室内温度下,醋酸的电离常数是1.8×10-5,学生对这一数据并没有什么印象,但通过计算可以得出它的电离度α=1.3%,学生得出每1000个醋酸分子室温条件下只有13个醋酸分子发生电离,987个醋酸分子的形式存在溶液中。通过数据的分析转换,学生容易理解弱电解质的电离程度的大小,有利于把握化学概念的内涵。
二、运用数据分析,准确化学概念的外延
化学课本中有许多数据,教学中并不要求具体记忆这些数值,但对这些数据的统计分析,既能帮助学生理解概念本质,形成学科观念,又有利于培养学生严谨的科学态度,全面提升科学素养。对这些数据的统计分析,有利于学生建立准确的数据观念,可以发展学生的数据意识,学生从中提取相关信息,从而充分体现化学基本概念对元素化合物性质学习的指导作用。例如,关于Ka概念外延的教学,我们应该清楚该概念的适用范围。
(1)根据Ka判断弱酸的酸性强弱。通过Ka的学习达到指导元素化合物性质的学习。相同条件下,Ka越大,酸性越强。通过比较Ka,我们可以得出常见弱酸的酸性:CH3COOH>H2CO3>
H2SiO3;H2CO3>HClO;H2CO3>Al(OH)3。这样,学生就很容易理解醋酸溶液与碳酸钙的反应,还有漂白粉放置在空气中失效、水玻璃溶液中通入二氧化碳气体、偏铝酸钠溶液中通入二氧化碳气体等一系列反应,这些反应都是高一化学课本中的重要反应,都符合“酸性强的制取酸性弱”的基本原理。
(2)以Ka来判断盐类物质的水解相对大小。根据盐类水解规律“越弱越水解”,我们可以判断出相同条件下醋酸铵溶液、氯化铵溶液、次氯酸铵溶液水解的相对大小,从而判断出溶液的酸碱性。分析利用醋酸Ka和氨水Kb数据的特殊性可知:醋酸铵溶液接近中性,进而可以探究Mg(OH)2沉淀溶于浓铵盐的反应原理。
(3)根据Ka1、Ka2判断酸式盐溶液的酸碱性。在25℃时,碳酸的电离平衡常数分别为:碳酸Ka1=4.30×10-7,Ka2=5.61×10-11;亚硫酸的电离平衡常数Ka1=1.54×10-2 ,Ka2=1.02×10-7。对于酸式盐NaHA的水溶液, NaHA 中 HA-既可电离:HA- H++A2-,也可水解:HA-+ H2O H2A + OH-。酸式盐溶液由于NaHCO3溶液的Ka1Kh1而显酸性。
(4)根据Ka1、Ka2的相对大小判断物|的性质、理解离子反应的实质。碳酸Ka1=4.30×10-7 ,Ka2=5.61×10-11 ;苯酚C6H5OH ,Ka=1.0×10-10; 氢氧化铝的酸式电离Ka= 6.3×10-13 。通过对这些数据的分析,我们容易得出酸性:H2CO3>HCO3->Al(OH)3-;H2CO3>
C6H5OH>HCO3-。这样就容易理解以下四个反应:
A.往苯酚钠水溶液中通入少量或足量CO2 : C6H5O-+H2O+CO2 C6H5OH+
HCO3-
B.往偏铝酸钠水溶液中通入少量CO2 :AlO2-+H2O+CO2Al(OH)3+CO32-
C.往偏铝酸钠水溶液中通入足量CO2:AlO2-+H2O+CO2Al(OH)3+
HCO3-
D. 偏铝酸钠水溶液与碳酸氢钠水溶液混合: AlO2-+HCO3-+H2O
Al(OH)3+CO32-
三、运用数据分析,拓展提高学生综合应用概念的水平
化学计算是中学化学教学的重要内容,也是中学生必须掌握的一个基本技能,学会数据分析是提高计算能力的关键。化学计算题中,往往题目数据多、综合性强,但学生们因综合分析能力差,不善于对知识准确迁移,因而觉得十分棘手。分析化学过程、融会贯通理解化学概念的内涵是正确解决化学计算题的基础。
在学习《溶液中的离子反应》专题后,许多教师会引导学生对化学平衡常数K、酸碱电离平衡常数Ka、Kb、水的离子积Kw、难溶电解质的溶度积Ksp等一些概念进行比较归纳,分析他们的异同,但是若能进一步拓展到酸电离平衡常数Ka与盐的水解常数Kh、与难溶电解质的溶度积Ksp、配合物的稳定系数Kw之间的联系,就能进一步提高学生的综合能力。
例如,在25℃下,于0.010mol・L-1
FeSO4溶液中通入H2S(g), 使其成为饱和溶液 (C(H2S)= 0.10mol・L-1) 。
篇5
使用一些工具来帮助大家更好的理解数据分析在挖掘数据价值方面的重要性,是十分有必要的。其中的一个工具,叫做四维分析法。
简单地来说,分析可被划分为4种关键方法。
下面会详细介绍这四种方法。
1.描述型分析:发生了什么?
这是最常见的分析方法。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。
例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据。了解客户的地理信息,就是“描述型分析”方法之一。利用可视化工具,能够有效的增强描述型分析所提供的信息。
2.诊断型分析:为什么会发生?
描述性数据分析的下一步就是诊断型数据分析。通过评估描述型数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心。
良好设计的BI dashboard能够整合:按照时间序列进行数据读入、特征过滤和钻取数据等功能,以便更好的分析数据。
3.预测型分析:可能发生什么?
预测型分析主要用于进行预测。事件未来发生的可能性、预测一个可量化的值,或者是预估事情发生的时间点,这些都可以通过预测模型来完成。
预测模型通常会使用各种可变数据来实现预测。数据成员的多样化与预测结果密切相关。
在充满不确定性的环境下,预测能够帮助做出更好的决定。预测模型也是很多领域正在使用的重要方法。
4.指令型分析:需要做什么?
数据价值和复杂度分析的下一步就是指令型分析。指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,来帮助用户决定应该采取什么措施。通常情况下,指令型分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。
篇6
数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。
二、数据统计分析的原则
(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。
三、推论性统计分析方法
(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。
四、多元统计分析方法
(1)相关分析。相关分析是描述两组变量间的相关程度和方向的一种常用的统计方法。值得注意的是,事物之间有相关关系,不一定是因果关系,也可能仅仅是伴随关系;但如果事物之间有因果关系,则两者必然存在相关关系。(2)主成分分析。在大部分数据统计分析中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。所谓的主成分分析就是利用降维的思想,把多指标转化为几个综合指标的多元统计分析方法,很显然在一个低维空间识别系统要比在一个高维空间容易的多。(3)因子分析。因子分析的目的是使数据简单化,它是将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子,对变量进行分类。这些因子是不可观测的潜在变量,而原先的变量是可观测的显在变量。(4)聚类分析。在市场调研中,市场细分是最常见的营销术语之一,它按照一定的标准将市场分割为不同的族群,并使族群之间具有某种特征的显著差异,而族群内部在这种特征上具有相似性。聚类分析就是实现分类的一种多元统计分析方法,它根据聚类变量将样本分成相对同质的族群。聚类分析的主要优点是,对所研究的对象进行了全面的综合分析,归类比较客观,有利于分类指导。(5)判别分析。判别分析是判别样品所属类型的一种多元统计方法。若在已知的分类下,遇到新的样本,则可利用此法选定一种判别标准,以判定将该新样品放置于哪个类中。由定义我们可以知道判别分析区别于聚类分析的地方,而在判别分析中,至少要有一个已经明确知道类别的“训练样本”,从而利用这个数据建立判别准则,并通过预测变量来为未知类别的观测值进行判别。与聚类分析相同的地方是,判别分析也是利用距离的远近来把对象归类的。
参考文献
篇7
随着医药制造业在我国整个制造业中的地位逐步提高,如何有效提升企业管理决策水平是我国医药制造业企业正面临的关键问题。目前,众多信息融合、数据分析和决策分析方法正为企业现代化发展做出重要贡献。文提出一种医药制造企业的数据分析和决策支持设计方案,实现多维数据仓库基础上的高效分析,继而进行分级决策支持。数据分析和决策支持系统主要是对存储于数据仓库中的各级粒度数据进行处理,并返回用户所需的分析和决策信息。系统主要任务是定制固定和自由统计报表、多维数据分析以及决策支持。
1.医药制造企业数据分析方法
系统多维数据分析的主要关键技术包括如下。
(1)多维数据分析的核心是将一条或多条多维查询指令输入进平台接口中;接口调用查询解析器对多维查询指令进行解析和分解;接着查询优化器接收经过解析后的多维查询指令,并对指令进行一系列的优化;最后查询处理器执行优化后的多维查询指令,获取数据、加工数据以及返回查询结果,为了能够提高多维数据分析的效率,文需要对以下内容进行考虑。
①对于新出现的一些多维数据分析应用,系统将这些多维数据分析作为一个特殊的关系操作符(称为多维操作符),考虑它与传统关系操作符间执行顺序变换的等价规则。从而,基于这些等价变换规则和附加条件,通过改变多维操作符与传统关系操作符之间的执行顺序来有效提高数据分析的效率。同时,给出充分的理论证明以及代价模型来论证所给等价变换规则的正确性和有效性。
②当用户提出的多维数据分析应用在查询优化器中没有对应的操作函数表示时,系统采用如下方案:确定多维数据分析的精确代价模型;基于代价的方式扩展传统的查询优化树(主要是扩展注释连接树);将这些多维数据分析作为一个特殊的关系操作符(称为多维操作符),考虑它与基本关系操作,聚集操作以及rank操作之间组合的等价关系的约束条件和正确性判定;在扩展的查询优化树上使用等价规则,通过操作的上移,下移,增加操作符,变换操作符等机制生成代价最小的查询操作执行序列;多维操作符的物理层面上的实施;将多维操作符集成进传统的查询优化器之后将如何影响执行计划的搜索空间;扩展传统查询优化器的搜索执行计划的算法,权衡执行计划的有效性和生成执行计划的时间开销。
③当存在多个数据分析应用时,采用的技术是:从祖先数据立方体获取子孙数据立方体的代价模型;根据多维数据分析的自身特点,有效选择近似最优数据立方体的方法;根据代价模型,考察逻辑上如何将所有给出的多个多维数据分析分组,每个组由一个相同的祖先数据立方体来回答;根据多维数据分析的底层实现机制,将每个组中的多个多维数据分析通过物理上的共享机制进行有效的同步进行,节省不必要的物理上的时间开销。
2.决策支持方案
医药制造企业决策支持模块应用的考虑主要包含三个部分,即决策模型库的构造、决策分析的实施以及多环节协作决策的实施,为了能够有效且正确地让各级管理者和用户进行决策,需要对以下内容进行考虑。
(1)医药制造业决策模型库建立。决策模型库主要用于存放进行企业用户决策分析的模型。针对医药生产过程中的材料采购、库存管理、产品生产、市场营销、财务管理与人力资源管理等方面的数据,构建进行决策的模型。决策模型可以通过一定程度的授权,获得访问数据的权限。在此前提下,根据数据仓库中获取的数据,进行由用户指定目标的决策支持。系统对现有模型组成元素及其组成结构的知识进行描述,并且获取模型构造过程中的各类推理算法。对于由人机交互接口实现机器理解的决策问题,平台通过模型概念词及其属性等相关知识,获取适合新决策问题的匹配模型结构等信息。然后再根据模型构建推理算法自动用新问题的属性值填充匹配模型的框架,最终构造出决策问题模型。
(2)医药制造业决策分析实施。决策分析的实施就是决策模型进行求解的过程。模型的求解主要是通过对决策问题的理解,获取用户所需要决策的目标,意图等方面信息,进而通过合适的决策模型将可获得的数据进行分析,利用一定的规则和模型的求解算法得出有效的决策意见,并提交给用户。本系统通过对每个模型所包含求解算法进行规范的描述,对于具有通用求解算法的模型,通过调用模型中所包含的求解算法很容易对问题进行求解。而对于求解算法不存在或者不确定应采用哪种算法实施求解时,平台将从以往成功的决策案例中,选择与需要求解的问题相似的范例,通过范例求解的方法对问题进行求解。对于取得较好决策效果的案例,平台会进行相关的记录,同时存放在数据层的公用数据库中,方便在决策分析时调用相似范例进行求解。
篇8
Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies
Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.
Key words big data; big data analytics; intelligence studies; adaptability
大数据分析(Big Data Analytics,BDA)是以“深度的发现分析、引领行动”作为目标的工作[1-2],它包括由多个任务组成的高度重复执行的步骤[3-4]。BDA通常要集成多种分析技术与软件工具,以便让海量数据的处理及分析变得更加容易,从数据中提取有用信息并形成结论,用来验证、指导及规范组织或个人的决策行动;BDA的执行过程一般包括问题需求及假设提出、数据获取及记录、信息抽取及清洗、数据整合及表示、选择建模及分析方法、结果诠释、评测结果有效性及监控等几个阶段。从以上BDA的定义及过程来看,BDA与情报学领域中的情报研究(也称情报分析)在本质上是一致的,两者至少在方法与技术(以下简称方法)上可以相互借鉴或补充。本文基于情报学的视角,关注哪些BDA方法可以为情报研究提供借鉴,并解决情报研究的相关问题。因此,本文首先概略总结BDA的方法体系,然后探讨BDA方法在情报研究中的适用性。
1 大数据分析的方法分类
到目前为止,尚没有公认的BDA方法的分类体系,甚至对BDA包括哪些方法,也有不同的认识。本文首先综述现有的相关研究,并以此为基础提出我们的分类体系。
1.1 相关研究
不同学者对BDA方法的看法各有差异,概括起来,主要有三种分类体系,分别是面向数据视角的分类、面向流程视角的分类以及面向信息技术视角的分类。
(1)面向数据视角的BDA方法分类。这类研究主要是以BDA处理的对象“数据”作为分类依据,从数据的类型、数据量、数据能够解决的问题、处理数据的方式等角度对BDA方法进行分类。
Power[5]依据分析需求将数值型数据的分析方法划分为三类:①若是模式理解及对未来做出推论,可采取历史数据及定量工具进行“回顾性数据分析”;②若要进行前瞻及预测分析,可采取历史数据及仿真模型进行“预测性数据分析”;③若要触发事件,可采取实时数据及定量工具进行“规范性数据分析”。美国国家研究委员会在2013年公布的《海量数据分析前沿》研究报告中提出了七种基本统计数据分析方法[6],包括:①基本统计(如一般统计及多维数分析等);②N体问题(N-body Problems)(如最邻近算法、Kernel算法、PCA算法等);③图论算法(Graph-Theoretic Algorithm);④线性代数计算(Linear Algebraic Computations);⑤优化算法(Optimizations);⑥功能整合(如贝叶斯推理模型、Markov Chain Monte Carlo方法等);⑦数据匹配(如隐马尔可夫模型等)。
针对非纯粹的数值型数据,Li、Han[7]梳理了面向“时空数据”(Spatiotemporal Data)的BDA方法,通过对动态数据挖掘出主体的预测性,如运用物理工程领域的傅立叶变换(Fourier Transform)及自相关匹配(Autocorrelation)侦查某一时间区段的信号、发生的事件或生物基因中的周期性节律,也可运用时间序列方法预测地点位置的变化;魏顺平[8]以教育领域为例,梳理了面向学生与学习环境的“学习分析方法”(Learning Analytics),此方法集成了内容分析、话语分析、社会网络分析、统计分析、数据挖掘等多种方法,从中挖掘学习的各种语义关系,并回答“谁在学、学什么、怎么学、学的结果如何”等问题,为教学与优化学习提供参考。
Mohanty等人[3]从数据获取(Data Ingestion)角度,依照处理的数据量从小至大的顺序,区分出八种分析方法:①流分析(Streaming Analytics),以预定模式及时处理数据流;②高速的数据采集(High Velocity Data Ingestion),不转换任何格式,可稍晚处理; ③链结分析(Linkage Analysis),构建不同数据源的关系与链接;④罕见事件侦查(Rare-Event Detection),从庞大数据集中寻找特定模式;⑤数据聚合(Data Mash-Ups),需要对数据属性发展故事线或链接关系进行分析;⑥文本分析(Text Analytics),如观点挖掘或社会网络分析等;⑦时间序列分析(Time-Series Analysis),通过模式侦测及事件发生概率来处理时空数据;⑧数据辩论(Data Forensic),用于数据科学家探索大规模数据集。
Chen等人[9]认为,在商业智能分析发展的过程中,商业智能分析经历了从处理结构化程度较高的数据、到处理网络上半结构化数据、再到处理移动数据的发展,涵盖了五类核心的分析方法:①数据分析,涉及数据仓储、ETL、联机分析及数据挖掘等分析技术,可应用在时间序列挖掘、网站挖掘、空间数据挖掘等;②文本分析,涉及信息检索、查询处理、相关反馈等分析技术,可应用在QA系统、观点挖掘、多语义分析、可视化分析等;③网站分析,涉及信息检索、网络爬虫、日志分析等分析技术,可应用在云计算、社会网络分析、网站可视化等;④网络分析,涉及信息计量、引用网络、数学网络模式等分析技术,可应用在链结分析、社区发现、社会影响力及扩散模式等;⑤移动分析,可应用在移动通讯服务、个性化分析、游戏营销分析等。
(2)面向流程视角的BDA方法分类。这类研究主要是依据BDA的步骤和阶段对BDA方法进行分类。
美国计算社区协会出版的《大数据的机会与挑战》白皮书指出BDA是一个多阶段任务循环执行过程[4],从整体看,其分析的过程包括了五个阶段,每一个阶段都包含该阶段需要使用的方法:①数据获取及记录,从各种感知工具中获取的数据通常与空间时空相关,需要及时分析技术处理数据并过滤无用数据;②信息抽取及清洗,从异构数据源抽取有用信息,并转换为结构化的格式;③数据整合及表示,将数据结构与语义关系转换为机器可读取、自动解析的格式;④数据建模及分析,从数据中挖掘出潜在规律及知识,涉及可扩展的挖掘算法或知识发现等方法;⑤诠释,为了让用户容易解读分析结果,可视化分析技术变得十分重要。此外,严霄凤、张德馨[10]依照搜集、分析到可视化的流程,梳理了适用于大数据的关键技术,包括:遗传算法、神经网络、数据挖掘、回归分析、分类、聚类、关联规则、数据融合、机器学习、自然语言处理、情感分析、网络分析、空间分析、时间序列分析等多种方法。
(3)面向信息技术视角的BDA方法分类。这类研究强调大数据技术本身涉及到的新型信息技术,将大数据处理架构、大数据计算模式、大数据系统等作为BDA方法分类的依据。
孟小峰、慈祥[11]着眼于大数据处理框架,梳理了数据抽取与集成、数据分析及数据解释所使用的分析方法,在数据抽取与集成方面,可区分为基于物化(Materialization)或ETL的方法、基于联邦数据库或中间件的方法、基于数据流的方法以及基于搜索引擎的方法等四类;在数据分析方面,传统的数据挖掘、机器学习或统计分析面临数据规模、算法调整等困难,需进一步发展;在数据解释方面,引入可视化技术或交互式的数据分析过程,有助于用户理解分析结果。覃雄派等人[12]认为,非关系数据管理(如MapReduce)扩展了数据分析的多维视角,使数据分析的生态系统从“大量数据的移动”转向“直接对数据进行分析”。
2012~2013年在印度召开了两次BDA国际研讨会[13-14],会上分别就BDA中的机器学习面临数据规模与多维度问题、可扩展的机器学习算法(如随机映射、随机梯度下降等)、机器学习在MapReduce的应用、社交媒体数据挖掘(如话题检测与跟踪、地点推理、语义连接等)、高维数据降维分析(如主成分分析、因子分析、经典相关分析等)、图像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及图像比对分析(如特征提取、Iterative Methods)等进行了探讨。2013年IEEE计算机协会在美国召开大数据国际研讨会,BDA结合MapReduce、Hadoop等模型的分析方法仍是主流,研究的内容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。
1.2 BDA方法的分类――面向层次的BDA方法框架
上述三种视角的BDA分类各有特点,都有一定的道理。从面向数据的视角来看,BDA方法正从统计(Statistics)转向挖掘(Mining),并提升到发现(Discovery)和预测(Prediction)。基于流程的BDA分类则更能反映BDA过程的集成性(Integration),也就是说,在完成一项分析任务时,需要综合使用多种方法。从面向信息技术的BDA分类中可以看出,这种分类方式强调使用新技术对传统数据处理方法进行改进和创新,同时更重视新型系统架构与分析方法的集成,例如,各种数据挖掘算法的MapReduce化,就是这方面的典型实例。
本文认为,如果综合上述三种分类体系中体现的层次性,将可以更准确描述BDA方法。在此,本文提出一个面向层次的BDA分类框架,将BDA方法分为统计、挖掘、发现、预测及集成五个层次,并初步归纳出17种BDA相关方法(见表1)。
2 BDA方法在情报研究中的适用性探讨
如前所述,BDA与情报研究在本质上有共同之处,BDA方法可为情报研究提供借鉴,因此,探讨BDA方法对情报研究的适用性就很有必要性。以下综合考虑方法本身的完善性及可操作性、情报研究的分析对象特征、方法的可移植性[15]等因素,对本文所列举的17种面向层次的BDA方法在情报研究中的适用性进行分析。
2.1 可直接移植的方法
可直接移植方法是指这些方法的原理、流程、算法等可以直接应用于情报研究,用来对情报研究的数据源(如科技文献、网络资源等)进行处理,解决情报研究过程中的一个或几个步骤中要解决的问题。在本文所列举的17种面向层次的BDA方法中,数据挖掘、文本挖掘、知识发现、观点挖掘、话题演化分析、多元统计分析、时间序列分析、海量数据的基本统计方法、高维数据降维分析方法、多源数据融合方法等10种方法均属于可直接移植方法,其中有些方法在情报研究中已经有多年的应用历史。
(1)数据挖掘与文本挖掘。数据挖掘与文本挖掘是不同概念,两种方法分别使用不同的发现技术,文本挖掘属于基于计算机语言学及统计方法的发现技术,用来揭示文本中的词与句法特征;数据挖掘以数据库中的大量结构化的数据挖掘为基础,用来揭示数据中潜在的、可能的数据模式及关联规律[16]。在情报学领域的实践应用中,数据挖掘多应用在图书馆自动化技术与服务方面,例如,馆藏采购决策、个性化服务、信息检索、读者管理、馆藏布局等。文本挖掘在情报研究的价值在于弥补了情报学专门分析方法对科技文献内在知识挖掘不足的缺欠,例如,祝清松、冷伏海[17]为了解决引文分析方法无法揭示论文的研究内容这个问题,提出引文内容分析,先建立基于规则的引文内容抽取来识别引用句,再通过基于C-value多词术语识别算法找出高被引论文主题,相比于引文分析,这种方法较能提供客观的语义信息与文献之间的语义关系。
(2)知识发现。情报研究中所说的知识发现,主要是指基于文献的知识发现,例如,张树良、冷伏海[18]在共词、共引、文本挖掘等方法基础上,提出了“基于文献的知识发现”,包括:基于相关文献、基于非相关文献及基于全文献三种条件下的知识发现,完整揭示文献的知识结构与演化情况。在网络环境下,李楠、张学福[19]认为关联数据的RDF数据模型、数据访问机制、URIs及自描述数据等规范所形成的数据共享环境,为知识发现提供了新的研究潜力,包括知识发现的范围被扩展成全球数据空间、高效率理解及处理数据间的语义关系等。简言之,知识发现从不同数据源之间的复杂关系中获得隐含的知识或规律,甚至可对未来进行预测。
(3)观点挖掘与话题演化分析。观点挖掘与话题演化分析两种方法实际上是数据挖掘及文本挖掘的具体及深化应用。观点挖掘主要有三种挖掘任务:情感分类、基于特征的观点挖掘、比较语句和关系挖掘[20],例如,黄晓斌、赵超[21]通过对网络舆情信息的文本挖掘,找出不同民众对某一社会事件的情绪、态度及观点,再通过关联分析找出网络舆情信息的各种关联性。赵洁、温润[22]认为微博情感分析的关键是观点句识别,并根据文本特征的差异性,提出了基于新词扩充和特征选择的观点句识别方法,即先扩充情感词典来提高分词准确率,再结合微博特征进行句子选取。话题演化分析方法是近年文本挖掘的研究热点,借助不同的话题模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,获取文本中的一组词语,表示为某一话题的集合,再引入时间信息模拟该话题随着时间推移所表现的受关注程度及关注点的变化[23]。又例如,贺亮、李芳[24]利用LDA模型抽取科技文献中的话题(即主题词),再计算话题的强度与内容演化,从而区分热门与冷门话题及其历年特征词的演化趋势。
(4)多元统计分析与时间序列分析。多元统计分析与时间序列分析两种方法也是情报研究常见的定量分析方法[25],前者研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律,后者则是基于随机过程理论和数理统计学方法,研究动态数据序列的规律性。这两种分析方法的一个重要特点在于能基于历史数据的变化,评价事物现状或预测事物未来的发展。
(5)海量数据的基本统计分析方法。海量数据的七种基本统计分析方法适用于情报研究的原因是,专家们普遍认为,在现有硬件技术条件下要开发一个海量数据分析系统的难度过高,且高性能计算领域也面临许多困难,因而转向寻找共通的基础性计算方法来帮助运算[6],同时这些统计方法也经常应用于数据挖掘或文本挖掘。对情报研究来说,处理的数据量不及高性能计算领域的海量数据,因此可以容易地应用这些基本统计分析方法。尽管如此,随着情报研究处理的文本量增加,包括文献计量或信息计量方法在内的定量分析方法,仍然要经常借鉴基础性的计算方法,并进行公式改进。
(6)高维数据降维分析方法。高维数据降维分析方法反映了海量的数值型数据在数据缩减的重要性,常见的降维(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相关分析、独立成分分析、投影寻踪等[26]。高维数据经常存在大量的弱相关内容或噪音,通过线性(如主成分分析、典型相关分析等)或非线性(如投影寻踪、核方法等)映射可以将数据样本从高维空间映射到低维空间,从而提高机器学习的效率[27-28]。情报研究在处理文本语料时,广泛使用基于向量空间模型来表示文本,形成的高维特征集会对文本分类或机器学习的效果产生很大影响,通过特征选择(如特征频率、互信息等)进行特征抽取(如PCA、LSI、NMF等),转换成一个低维的特征集来提高训练效果,是非常必要的[29]。
(7)多源数据融合方法。多源数据融合方法是解决大数据环境下异构数据整合而提出的方法,例如,为了解决不同研究阶段产生的各类科学数据集成问题,白如江、冷伏海[30]认为解决关键在于中间件构建,例如,通过基于XML模型将异构数据源的元数据映射到全局视图,解决了不同数据源的关系描述问题,并提供用户可灵活订制查询规则;但基于XML模型只能提供语法层次的整合,为了提供数据在语义层次的整合,可通过基于语义模型对XML的对象进行分类,在对象模型的基础上生成逻辑规则,揭示隐含在科学数据中的语义信息。此外,也可以通过基于物化或ETL方法、基于数据流方法或其他方法对异构数据源中的数据抽取出实体与关系,再进行数据集成或数据清洗[11]。多源数据融合方法是进入数据分析之前的重要任务,对情报研究来说,需要多种来源支持情报分析工作,包括同型异源信息、异质异构信息、多语种信息等,都需要通过异源信息字段的映射、拆分、滤重、加权等进行融合分析[31]。
2.2 调整后移植的方法
调整后移植的方法是指其在原本的领域已经成功应用,但由于该方法最早或成功应用的领域在任务需求、数据处理、分析过程有自身的特点,若移植到情报研究时,需要根据情报研究自身的特征进行调整。数据可用处理及分析方法、时空数据分析等两种分析方法就属于这类情况。
(1)数据可用处理及分析方法。大数据环境中容易产生许多劣质数据来降低数据可用性,为了提高数据可用性及数据质量,李建中及刘显敏[32]梳理了数种数据可用性的相关方法,包括高质量数据获取与整合、数据错误自动检测与修复、弱可用数据处理与分析等,分别解决了大规模数据集预处理阶段常见的一致性、精确性、完整性、时效性及实体同一性等问题。对情报研究来说,情报素材、产品形式及工作任务分解的质量控制是情报工作的核心[33],其中,情报素材的质量对后续的情报分析成败存在着至关重要的作用,当数据或信息是错误或不完整时,提炼出来的情报势必会存在缺陷或错误。过去对情报研究的质量控制取决于人,如果能引入数据可用处理及分析方法解决数据或信息源可能存在的不一致、不精确、遗漏、滞后或重复等问题,有助于提高情报分析素材的可用性与正确性。
(2)时空数据分析。时空数据分析是地球信息科学相关领域的研究热点,其中最常使用“周期”(Periodic Behavior)分析,例如天气预报、环境监控、地理信息系统、城市交通网络管理等都是常见的应用实例[7]。现有研究的多数做法是采取基于时间序列的方法进行周期建模,但建模过程容易出现对象可能没有周期、时间点分布不一定呈现周期性等问题,为了解决这些问题,王阅等人[34]提出基于ERP的周期检测方法解决周期长度定义问题,孟志青等人[35]提出多粒度时间文本下的周期模式挖掘算法解决时态文本数据挖掘问题。对情报研究来说,时间是文本中一个重要的属性,如文献发表规律、舆情监控、科研人员的研究主题周期等。在原有数据基础上增加时间维度进行长时段分析是多数研究的常见做法,但并没有呈现出其中的周期性规律,特别是文本中的规律特征较难发现,如果能引入此类方法,将有助于找出情报演化的周期模式。
2.3 不适用的方法
考虑学科领域差异,本文认为 “翻译生物信息学分析”及“学习分析方法”两种专门研究方法不适合情报研究。
(1)翻译生物信息学分析。翻译生物信息学分析是生物信息学的专门分析方法,这种方法是依据特定目的整合多数据源及促进领域知识的有效利用,其结果可应用在生物医学研究、产生支持医疗人员在治疗点中的“可操作的决策”(Actionable Decision),同时能对人类与疾病的关联关系提供更好的理解。生物信息学为了找出更多基因与疾病的关系,通过翻译生物信息学分析,可以将分析方法与工具开发从系统层面横跨到分子、个人或全人类层面,分析视角从单一基因或多肽(Polymorphic)挖掘的研究转向新基因或遗传性状组合与预测研究[36]。从分析方法的操作过程来说,考虑到数据源的特殊性(如DNA编码数据、蛋白质结构等)、分析视角、工具构建及使用等因素,并不符合情报学的学科研究特色。
(2)学习分析方法。学习分析方法是搜集、分析及评测学习者及其学习语境的分析方法,目的在于理解与优化学习及其学习环境[8]。从UNESCO IITE机构在2012年11月出版的学习分析方法政策简报可知,学习分析方法的数据分析功能是基于数据挖掘从而开展相关分析内容,包括行为分析、学习资源浏览分析、各种关联分析与影响因素分析等。虽然数据挖掘是情报研究的常见方法,但学习分析方法的结果意义在于解释学习者的学习语境,为教师或管理者提供决策支持,从而改善学习者的学习习惯及促进学习效果。由于这种方法有其特定的含义和应用环境,离开了学习语境,方法的内涵和外延可能就会产生变化,因此,难以移植到情报研究。
2.4 需要继续关注的方法
基于MapReduce或Hadoop的衍生分析方法、图模型分析与挖掘以及商务智能分析,是近年研究探讨较多的方法,但目前尚未形成一个成熟且完善的方法体系,例如,MapReduce或Hadoop等之类的工具还在持续发展中,本身也存在不断的改进空间,它们与各种分析方法的集成缺乏公认的标准和规范,同样地,对于关注图像与事物之间关联的图模型分析与挖掘也尚没有发展出固定的技术,又例如,商务智能分析被定义为由数据仓库、ETL、联机分析、数据挖掘、客户关系管理、知识管理等多种技术融合的一组系统,通过BI系统管理组织内部及个人相关的商业数据、专家信息及知识,涉及数据的融合、取用及分析等方法与工具[37-38],目前也没有标准化的体系架构。
因此,本文还无法明确回答上述三种方法将如何应用于情报研究、在应用过程中需要做哪些调整、这些方法与现有的情报研究方法的关系如何等相关问题,但可以肯定的是,这些方法对未来的情报研究具有借鉴价值,例如,一旦情报研究的处理对象(即数据)积累到了一定程度,成为传统关系数据库处理不了的大数据,那么,使用基于MapReduce或Hadoop的衍生分析方法就成为了必然。又如,图模型分析与挖掘可补充情报研究在图像分析的不足,而商务智能分析可理解为一套集成系统,可应用在情报机构的知识库或机构典藏,找出组织的知识缺口等方面。
3 结语
大数据时代就是一个数据分析的时代,学界和业界提出了很多大数据分析的方法与技术,这些方法与技术对情报研究产生了积极的借鉴作用,本文总结了大数据分析的方法,提出面向层次的BDA方法框架,归纳总结了其中的17种BDA方法,并从可直接移植、将调整后移植、不适用于情报研究以及需要继续关注等四个方面对这些方法在情报研究中的适用性进行了分析,以期为情报研究借鉴或移植BDA相关方法提供参考,促进情报研究的理论与实践发展。
参考文献:
[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.
[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.
[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.
[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.
[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.
[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.
[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.
[8]魏顺平. 学习分析技术:挖掘大数据时代下教育数据的价值[J]. 现代教育技术,2013, 23(2): 5-11.
[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.
[10]严霄凤,张德馨. 大数据研究[J].计算机技术与发展, 2013, 23(4): 168-172.
[11]孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013, 50(1): 146-169.
[12]覃雄派,王会举,杜小勇,等. 大数据分析――RDBMS与MapReduce的竞争与共生[J].软件学报,2012, 23(1): 32-45.
[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.
[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.
[15]王炼,武夷山. 方法移植对科学计量学研究的方法论启示[J]. 科学学研究,2006, 24(4): 503-507.
[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.
[17]祝清松,冷伏海. 基于引文内容分析的高被引论文主题识别研究[J]. 中国图书馆学报,2014,(1):39-49.
[18]张树良,冷伏海. 基于文献的知识发现的应用进展研究[J]. 情报学报,2006, 25(6): 700-712.
[19]李楠,张学福. 基于关联数据的知识发现应用体系研究[J]. 图书情报工作,2013,(6):127-133.
[20]王辉,王晖昱,左万利. 观点挖掘综述[J]. 计算机应用研究,2009,26(1):25-29.
[21]黄晓斌,赵超. 文本挖掘在网络舆情信息分析中的应用[J]. 情报科学,2009:(1): 94-99.
[22]赵洁,温润. 基于新词扩充和特征选择的微博观点句识别方法[J]. 情报学报,2013,32(9): 945-951.
[23]单斌,李芳.基于LDA话题演化研究方法综述[J]. 中文信息学报,2010, 24(6): 43-49.
[24]贺亮,李芳. 科技文献话题演化研究[J]. 现代图书情报技术,2012,(4): 61-67.
[25]查先进.信息分析[M].武汉:武汉大学出版社,2011.
[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.
[27]胡洁. 高维数据特征降维研究综述[J]. 计算机应用研究,2008,(9): 2601-2606.
[28]吴晓婷,闫德勤. 数据降维方法分析与研究[J]. 计算机应用研究,2009,(8):2832-2835.
[29]陈涛,谢阳群. 文本分类中的特征降维方法综述[J]. 情报学报,2005,24(6): 690-695.
[30]白如江,冷伏海. “大数据”时代科学数据整合研究[J]. 情报理论与实践,2014, 37(1): 94-99.
[31]化柏林. 多源信息融合方法研究[J]. 情报理论与实践,2013,(11): 16-19.
[32]李建中,刘显敏. 大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162.
[33]王延飞,王林兰. 论情报研究质量[J].图书情报工作,2010,54(10):35-39.
[34]王阅,高学东,武森,等. 时间序列周期模式挖掘的周期检测方法[J]. 计算机工程,2009, 35(22): 32-34.
[35]孟志青,楼婷渊,胡强.多粒度时间文本数据的周期模式挖掘算法[J]. 计算机科学,2013,(S2): 251-254.
[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.
篇9
1 交通事故预测思想
交通事故对人类造成的危害相对较大,对人类产生严重的威胁。从我国发展实践中可知,交通事故在一定程度上制约我国经济的发展进程,尤其对人类社会福利、医疗保险等方面的影响较大。据不完全统计,2015年全年间,我国交通事故约为10597358起,死亡人数约为68432人,财产损失高达10亿元以上。可见,交通事故威胁隐患相对较大。交通事故预测能够根据已发生交通事故进行统计、分析、处理,在遵循规律的基础上,对未来可能发生的交通事故作出科学合理的预测,该预测结果以科学逻辑推断为基础。就交通事故原因而言,道路环境、交通条件、车辆、驾驶员等都是影响因素。通过交通事故预测,我国交通部门人员能够对交通事故作出科学合理的判断和制定有效的预防策略,以最大限度降低和消除交通事故隐患。
2 交通事故主要预测方法
2.1 回归分析预测法
回归分析预测法在交通事故预测中的有效应用,主要分为线性回归和非线性回归两种方法。首先,背景交通工程研究所人员提出线性回归分析预测法,通过对自变量和因变量之间关系问题的探讨,对因变量趋势加以预测,其模型为:
Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。
其中X1-X11分别表示临时人口、常住人口、机动车辆、自行车、道路长度、道路面积、灯控路口、交通标志、交通标线、失控部位、交警人数。
其次,英国伦敦大学SemeedR.J教授对欧洲国家十余载的交通事故资料进行研究,提出非线性回归分析预测法。对此,他建立幂函数曲线事故模型,
即:D=0.0003。其中D为交通事故死亡人数;N是机动车保有量;P为人口数量。
回归分析预测法能够对交通事故影响因素间的因果关系加以反应,以达到预测结果的目的,但对变化趋势的反应可能较为迟钝。该预测方法适用于样本量较大、数据波动小和极具规律性的预测实践中。
2.2 时间序列预测法
时间序列预测法主要有两种类型,分别为移动平均预测法和指数平滑预测法。首先,移动平均预测法是比较简单的平滑预测技术,通过计算项数时序平均值,对长期发展趋势变化做出科学合理的预测。内蒙古科技大学韦丽琴、徐勇勇利用时间序列ARIMA模型做出科学合理的预测分析,对交通事故加以预测。其次,指数平滑预测法的通式为:
Ft+1=αxt+(1-α)Ft
时间序列预测法属于定量预测方法,拟合效果良好,但在短期预测中,受诸多因素干扰影响较大,使预测结果具有不确定性。该方法适用于国内县区等区域范围较小的预测实践中。
2.3 灰色马尔科夫链预测法
道路交通系统属于动态时变系统,但影响交通安全的因素多且复杂。在灰色马尔科夫链预测法的指导下,相关人员能够通过灰色预测模型,做出短期预测,以缩小预测区间,提高预测效率。云南交通职业技术学院王刚对灰色马尔科夫链预测法而建立模型,对交通事故进行预测,根据实践可知,基于该模型的预测精确度十分高,取得良好的预测成效。
灰色预测以短期预测为主,马尔科夫链预测以长期预测为主,通过二者结合,可提高预测精度,但如若数据变化大,则灰色模型的吻合度和精度下降。借助该预测方法,能够对状态下的转移规律加以预测,并揭示交通事故时序变化总趋势。
2.4 贝叶斯预测法
贝叶斯预测法主要相对于交通事故中的车速问题而言。在交通事故中,车速是重要影响因素,如若车辆速度过快,则驾驶员反应的时间较少,其应急策略不足,造成重大交通安全隐患。贝叶斯预测法能够对未来交通事故发生的可能性进行预测。该预测方法应用中,必须建立在交通事故和车速有关联的基础之上,有助于交通部门人员更好开展数据统计和交通流进行观测。
2.5 灰关联分析及神经网络预测法
就灰关联分析及神经网络预测法而言,哈尔滨工业大学交通研究所和中国城市规划设计研究院的裴玉龙与张宇提出该方法,旨在通过交通事故影响因素分析,对事故进行进一步解析,并建立合理的模型理论和确定预测指标,对未来交通事故发展趋势加以预测。该预测方法的适应性较强,在我国交通事故预测工作实践中有着较为有效的运用,可解决传统预测方法难以解决的问题,建立在BP网络基础之上,并利用计算机开展辅计算活动。
2.6 多层递阶预测方法
多层递阶预测方法能够规避传统统计预测方法的缺陷,以现代控制理论“系统辨识”为重要基础,对对象的未来状态做科学的预测。动态系统数学模型为:y(k)=。在交通事故预测中,多层递阶预测方法是大数据时代背景下的重要处理方式,有利于增强预测效果。
3 结论
交通部门对交通事故进行合理的预测,有利于提高道路交通系统的安全系数。所以,相关人员合理选择交通事故预测方法具有必要性,为规避交通事故而做出科学合理的决策。目前,使用较多的交通事故预测方法主要有:回归分析预测法、时间序列预测法、灰色马尔科夫链预测法、贝叶斯预测法、灰关联分析及神经网络预测法等,因其各具优缺点和适用条件,因而要求相关人员必须对系列问题进行深入探究,确保公路交通事故预测的有效性。
参考文献
[1]李景文,高桂清.交通事故预测分析[J].中国安全科学学报,2015,6(01):20-23.
[2]刘志强.道路交通事故预测方法比较研究[J].交通与计算机,2013,19(05):7-10.
篇10
[中图分类号]F239.1[文献标识码]A[文章编号]1673 - 0194(2012)11- 0026- 02
1背景
网间结算是各运营商之间永恒的话题。自各运营商开展全业务经营以来,网间结算的协议和收入支出结构都发生了很大的变化,C网的双向结算和规模的发展、增值短信业务的发展、固网的逐渐萎缩以及国家对TD业务结算上的扶持,网间结算支出的变化,均值得分析研究。
网间结算的收入与本网的规模间接相关,网间结算的支出与本网的用户数量、话务量以及商品、营销政策直接相关,是公司经营成本的一部分,也是关注的重点。
网间结算的支出与很多环节相关,如在设计各类套餐、营销政策、增值业务包资费政策等环节时是否考虑网间结算的成本、规避风险保证公司经营目标的实现;在公司经营分析中是否持续关注网间结算的支出,防范各种异常、突发的网间结算损失等。
2分析思路和目标
网间结算支出按业务可分为语音、短信两大类,按通信区域可分为本地网和长途业务两大类。语音又可分为固网和移动两类,两者之下还可继续分为本地业务和长途业务(省内、省际、国际)。本地业务包括普通语音、短号、智能网、卡类业务等,本地普通语音业务还要细分为固话、GSM/WGSM/CDMA、TD三个小类。短信可大致分为点对点短信、彩信、业务短信等。每一类还要分为收入和支出,划分如此多的小类是结算规则的要求和系统结算出账的需要。
我们可以从一个分公司结算支出的时间和业务两个维度进行分析调查。在分析分公司结算支出的月度变化趋势时,也分析结算支出的业务构成。计算出单个分公司每个用户的平均语音、短信结算支出,可与其他分公司进行比较,还可进一步细化到对某一类套餐进行分析。对支出占比较大的结算业务要分析其支出的明细清单,查清是哪些号码造成的结算支出,查清这些号码的来源、商品属性、受理渠道并检查结算系统的结算规则是否正确配置。
流程如下:
(1)检查结算报表。
(2)分析结算支出的月度变化。
(3)计算每个用户的平均语音、短信结算支出。
(4)查找高额结算用户。
(5)检查用户套餐资费、受理渠道信息。
(6)检查营销或业务短信资费政策的合理性。
根据以上思路进行调查分析,我们可以确立重点和发现疑点,做到有的放矢,进行深入分析。重点查找是哪些业务的结算支出较高,计算该业务或套餐在结算收支相抵后带来的价值,找出评价的标准,提出管理建议。
3分析方法
结算系统每个月都会出网间结算报表,包括结算的收入和指标。我们可以先从这些数据的分析开始。
3.1 分析网间结算的变化趋势
首先分析网间结算总的变化趋势,再查看指标明细项的变化趋势,找出结算支出变化较大的分公司。
3.2 查找平均结算金额高出平均水平的营销套餐
我们可以从指标中计算出每个用户的平均结算支出,公式如下:
(1)固话语音平均结算支出=固网语音(本地、省内、省际)网间结算支出/当月过网固网用户数。
(2)固话短信平均结算支出=短信结算支出/当月过网固网用户数。移动用户的平均结算支出计算与固话类似。
(3)再调查一些营销方案,计算其扣除补贴、结算支出以及佣金后的收入,检查是否可能有结算风险。
3.3 检查业务短信的结算支出
我们分析短信结算支出的构成要分析构成是否包含了业务短信的结算支出。
先分析总体情况,再进一步统计检查结算清单,找出结算支出金额、条数较多的号码,可到系统进一步查看这些号码。
3.4 预估以后一段时间内的网间结算支出
经过统计分析发现,单个过网用户的平均结算支出是比较稳定的。而业务短信基本是采取预付费的形式,因此可以通过业务受理情况、分析其他网占比(单个分公司基本稳定)来估算它一段时间内的网间结算支出。分公司一段时间的网间结算支出的模型如下:
分公司一段时间的网间结算支出≈固话语音平均结算支出×平均过网用户数×账期数+移动语音短信平均结算支出×平均过网用户数×账期数+短信(不含业务短信)平均结算支出×平均过网用户数×账期数+预期消费的业务短信业务受理量/资费×他网占比×结算资费。该公式的数值都可以从报表和平台统计得到,有一定指导意义。通过这个公式我们可以预估一个分公司一段时间的网间结算支出。
4分析结论和建议
分析发现,要加强对结算支出数据的分析、监控,应对结算的支出开展预估,要加强对业务短信的管理,维护市场秩序,结算支出的监控要实现自动化、智能化。
篇11
[中图分类号]F270 [文献标识码]A [文章编号]1673-0194(2017)02-00-01
0 引 言
随着移动互联网技术的发展,人们越来越习惯于网络购物。在网上购物或刷微博时,常常会看到“猜你喜欢”“可能感兴趣的商品”等广告栏目。而这些内容都是大数据产业的成果,是面向大数据视野得到市场分析的结果。掌握这种市场分析方法,能帮助企业更好地了解消费者的需求,进而更好地开展营销活动。
1 大数据视野下市场分析的问题
在互联网得到普及应用的情况下,大数据时代已经正式到来。目前,互联网上的数据每年都会增长50%。而随着运动、湿度和温度等各类传感器的出现,企业接触到的数据信息也越来越多,而这些数据在给企业带来挑战的同时,也为企业提供了新的市场增长空间。加强数据挖掘和分析,能帮助企业精准地找到用户,从而通过降低营销成本、提高销售率实现利益最大化。因此,企业应面向大数据进行市场分析研究,以便通过统计和分析超大量的样本数据,获得更接近市场真实状态的市场研究成果。
2 大数据视野下的市场分析方法
2.1 基于大数据的市场调研方法
在过去较长的时间里,市场分析是以实地调查为前提,或是通过问卷调查和提供抽样技术,其目的均是为了获得消费者的答案。进入大数据时代后,企业开始通过网络调研进行市场调查。这种方法,能够方便、快捷且经济地完成市场调查。具体来讲,就是企业通过门户网站完成市场调研模块的建立,然后将新产品邮寄给消费者,并要求消费者在试用后进行网上调查问卷的填写,这样就能够投入较少的人力和物力来完成市场调研。由于这种市场分析方法具有一定的互动性,能够在概念阶段利用虚拟仿真技术完成产品测试,从而使消费者参与到产品的开发,进而使市场需求得到更好的满足。
2.2 基于大数据的市场信息挖掘
面向大数据视野研究市场分析的问题,企业可以发现有效的市场分析需要大量的数据信息提供支撑。所以,企业还要使用基于大数据的市场信息挖掘技术,以便对市场需求进行更好的分析。首先,在智能手机逐步得到普及应用的情况下,企业还应在移动终端开展市场研究,借助移动APP完成消费信息的采集。企业对这些数据进行深入分析,能够完成产品回购率、产品促销奖励评估和购买时点等内容的分析。其次,在零售终端,POS机得到较好的建设和应用下,企业可以通过扫描商品条形码完成购买地点、名称和零售价等信息的采集,进而使其更好地掌握商业渠道的动态信息。此外,消费者往往具有从众性,企业加强对社交平台的信息挖掘能更好的掌握消费潮流。比如,利用微博评论可以完成消费者对某种产品偏好的了解,从而完成消费者真实消费心理及态度的分析,进而更好地掌握市场信息。
2.3 多学科分析方法的引入
以往的市场分析通常需要采取社会学调查方法完成资料搜集,再利用数据分析软件完成数据分析,并获得描述性或预测性的分析报告。在大数据时代,由于要完成海量数据的分析,因此,可以引入相对论、整体论和跨文化比较研究等多个学科的分析方法,以满足大数据时代数据分析的需要。就目前来看,大数据来自各种移动终端和网络,其是能反映消费者行动过程和轨迹的数据记录,采用传统的市场分析方法难以对这种过程性数据进行分析,而引入以分析过程见长的人类学的分析方法,则能对市场消费者的行动过程进行描述,从而使消费者的行动趋向得到揭示。
2.4 定量与定性分析方法的结合
采取定性或定量这两种分析方法中的一种,可以完成片段式或截面式数据内容的分析。但在大数据时代,数据变得更加复杂,因此可以使用定量和定性相结合的分析方法进行市场分析。一方面,企业通过网络调研完成大量数据信息的搜集,从而采取定量分析法进行市场分析研究。这种方法,能够使市场研究人员成为“隐形人”,从而更加客观地观察消费者,并通过对超大样本量进行统计分析,完成市场状态的分析。另一方面,针对文本、视频和图形等非量化数据,可以通过智能化检索和分析来完成定性分析,以便在保护消费者隐私的基础上,更好地分析市场需求。
2.5 数据复杂属性的还原
在传统的市场分析工作中,可以将数据看成是一些片段而进行分析。而这样的分析,实际上是脱离具体情境和社会关系的分析过程,虽然可以根据自身经验和想象来进行情境原,但得到的研究结果却不够客观和科学。在大数据背景下,企业可以使用能够还原数据复杂属性的市场分析方法,以便更好地完成、嵌入某些社会关系的消费者的购买行动和轨迹的分析,进而获得更加有效及真实的分析结果。因此,使用的市场分析方法应更关注数据的社会背景,从而更好地完成大数据的整合与分析。
3 结 语
在大数据时代,企业要选择适当的市场分析方法,以便使自身的数据处理能力得到提高,从而通过获取的高质量的数据信息来提高自身竞争力,进而更好地适应社会发展的要求。因此,希望本文对大数据视野下的市场分析方法展开的研究,可以为相关工作的开展带来启示。
主要参考文献
篇12
数据缺失的程度、机制均影响处理方法的选择。方法不适当也会带来有偏的参数估计M1、方差估计与统计检验,甚至影响数据分析效用。
(一)数据缺失的程度
借助某一变量上数据缺失的比率X描述数据缺失的程度。缺失比率X如何应用方面,当X<10%时应当保留这些贼并对其哳搬的舰曾建议,当X>15%时可以考虑删除采用删除法;MRaymond与Roberts则认为X>40%时才考虑删除这些数据。
(二)缺失机制
缺失数据与诸多变量等相关,处理方法的性质依赖这些相依关系的特征。为论述方便,记全部变量Y观测值中那些完整的变量为Yobs、不完整的为Ymis。如果缺失值与Y相互独立无关,则缺失数据为完全随机缺失(MACR,missingcompletelyatrandom)的,是特殊情形。此时缺失值是总体的一个简单随机抽样。如果缺失值仅与Yobs相关联、与Ymis相互独立,则是随机缺失(MAR,missingatrandom)。如果Yobs与Ymis之间存在着依赖关系,则称非随机缺失(NMAR,notmissingatrandom),是不可忽略的。
二、单一借补
单一借补用一个借补值替代全部缺失值,后用完全数据方法分析数据。单一借补是缺失数据处理中最通用方法之一,有多种方法。
(一)推理借补与最近邻借补
根据已有信息推断缺失数值,该方法简单易行,可提供准确借补值,或者近似准确借补值,同等情况下可优先进行推理借补。例,信息收集时已提供有姐弟信息的某被试“独生子女”一项空着,可推断为“否”。最近邻借补选用与缺失数据提供者相类似的被试数据替代该缺失值。按照匹配变量找到一个以缺失数据提供者类似的被试时,可还用例如欧式距离等来度量类似程度。
(二)均值借法
均值借补用已得数据的均值替代全部缺失值。借补值易均值形成尖峰,严重扭曲数据分布。当数 据缺失非MACR时,将低估统计量方差,导致参数估计偏差,且不适用需方差的复杂分析。
(三)回归借补
回归借补可分为线性回归借补,非参数回归借补等。本文主要关注线性回归借补,用Yk关于数据完全的变量回归模型,回归值替代缺失值。建立回归方程时有一次或多次迭代之分。多次迭代中,预测变量以逐步进人模型,获得预测力最佳、最精简的变量组合;回归值替代缺失值,后建立新模型;如此,至回归系数变化不显著。是类别变量时,则考虑进行变换,进行线性回归。同时,我们还应注意到利用严格的回归方程进行预测,易人为增大变量之间的关系。多数情况下,教育学、心理学讨论的变量大多都不是相互独立的。选择该方法时,须考虑当预测变量与变量Y是否存在高度的相关关系。其构造借补值的逻辑清晰,相对客观。该方法能得到合乎逻辑的结果,尤其满足正态分布时。数据模拟实验表明,方法加精确。
三、多重借补
多重借补(multipleimputation,MI)基于缺失值的预测分布或统计模型的方法:提供多个借补值依次替代各个缺失值、构造个“完全数据”,121,191211后运用完全数据统计方法分别分析多个数据集;分别得到数个分析结果,拟合这多个结果,获得对缺失值的估计等,甚至是置信区间、P值。MI具备例如连续性的优良统计性质。
(一)回归预测法与倾向得分法
回归借补基于已有数据建立回归模型、嵌入借补值。先确定观察协变量,倾向得分法赋予一个条件概率。即对各Y产生一个观测值缺失概率,并以倾向得分表示。依据倾向得分对数据分组,组内进行近似贝叶斯Bootstrap(ABB)借补。
(二)似然的方法
1.极大似然估计
从理论上来看,极大似然法(MaximumLikelihood,ML)至今仍是参数点估计中的重要方法。既定模型下缺失值的诸多估计均可基于似然函数进行。ML利用总体数量特征的分布函数等,建立未知参数的估计量。将Y作为未知变量0,构造关于e的似然函数,后求的参数的极大似然估计量,甚至在参数空间内的置信区间,或者置信区域。
参数极大似然估计量(MLE)具有不变性,推广至多元变量时该优良性质亦成立。这恰能满足实际研究需要。基于其渐进最优性质等,ML成为参数估计的常用方法,诸如SPSS10.0、LISREL8.7等软件包均收人该方法。
2.期望极大化算法
期望极大化算法(Expectation-Maximizationalgorithm,EM)是ML有效方法,主要用来计算基于不完全数据的MLE15。当由于观测过程局限带来数据部分缺失时,或似然估计因似然函数不是解析函数而无效时可选用该方法。EM是一种迭代算法,每次迭代似然函数值都将有所增加,进而保证参数估计值收敛到一个局部极大值。此外,EM可自动实现参数约束。基于软件数据模拟表明X<30%时EM算法可得到比较好的结果。
3.MCMC方法
当缺失值分散在多个变量时,回归法基于对回归系数的估计获得借补值。复杂缺失模型中,回归系数的估算又依赖于借补值。这里似乎存在某种循环论证痕迹。此时,可考虑迭代法中马尔科夫蒙特卡洛方法(MarkovChainMonteCarloAlgorithm,MCMC)。MCMC利用马尔可夫链进行蒙特卡洛积分,可基于无后效性随机过程探讨数量关系、预测变量,还可有包括0出1?抽样等多种具体算法。基于多元抽样MCMC有诸多优点,足够长的时间使得雅过程驗时,MCMC可得卿常麵的结果。171MCMC是与具体的模型结合的,自身有不少扩展方法,且不同MCMC方法对缺失数据的参数估计之间存在差异。不过,X<30%时MCMC方法得到结果与完全数据时拟和较好。这些研究支持MCMC是处理缺失数据的有效方法,软件包SPSS17.0等均收人该方法。
四、不处理
借补值是缺失数据的主观估计值。引人的主观值可能改变原信息系统,甚至带进新噪音、导致分析错误。不处理确保了原有信息不变,并进行分析,其主要包含贝叶斯网与人工神经网络。不过,后者的具体应用仍有限、待进一步探索与实证。研究开始关注神经网络在心理学中的具体应用。
(一)贝叶斯网
贝叶斯网络(BayesianNetworks)是一个有向无圈图,W能描述不确定性因果关联的模型。该有向无圈图带有概率注解,能够表示随机变量的因果关系与概率关系,网络的拓扑结构能够表明如何从局部的概率分布获得完全的联合概率分布。分析缺失数据时,贝叶斯网将结合先验知识与样本数据对数值计算进行推理,得到最佳值。其最大程度利用数据蕴含的信息,是具有鲁棒性的方法。
缺失数据下学习贝叶斯网有各类算法,不少算法是通过对含缺失数据的信息系统完备化得到所需统计因子,最终将问题转化为完全数据下学习贝叶斯的网的问题。例如,结构EM(StructureEMAlgorithm)通过EM算法获得期望统计因子。数据非随机缺失可以通过引人隐藏变量转化为随机缺失问题,m似乎可以仅讨论随机缺失情况下算法。随着研究的推进,新的、优良的算法相继涌现,并得到模拟实验的支持。例如,数据缺失下贝叶斯网络增量学习算法IBN-M。甚至稳健的贝叶斯方法能够适用于含缺失数据的结构方程分析中,此时的结构方程模型选择固定方差。
建构贝叶斯网可由专家人工建构。其中,因果关系、网络结构是不可或缺的。这需对分析领域有相应了解,至少对变量间关系较清楚。在心理学等领域中应用尚待深入研究,该方法运用前景令人期待。
(二)贝叶斯网适用软件能够实现贝叶斯网的软件包不少。Netica是最重要软件之一,可免费下载功能有限的版本。专门进行数值计算的语言Matlab,其编程量较少、调试程序方便、呈现学习所得结构也不繁琐,国内文献也更多地涉及Matlab。BNTtolkit是基于Matlab开发的,提供不少基础函数库,能够进行参数学习与结构学习,且完全免费。缺乏图形用户界面、无法将基本函数集成相应系统是其“硬伤”。
五、结论与讨论
实际应用中,删法“浪费”不少数据,统计力低下,尽量选用其它方法。当满足MAR缺失机制且人在10%时,对删法可运用对有多个项目的量表的数据处理。当满足MAR、变量相关联,可考虑均值借补。当变量之间高相关且X>20%Ht,可考虑回归借补。
篇13
Cluster Analysis Method Application of Grid Technology
Ma Dongmei
(Xinjiang Tianshan Vocational and Technical College,Urumqi830017,China)
Abstract:In the grid based on data mining combines the advantages of grid technology to various information carriers in the distribution of vast amounts of information for efficient processing, analysis and mining.This paper analyzes the grid and cluster analysis of the characteristics,the use of grid-based methods of data analysis methods will be ground into space(hyper)rectangular grid consisting of grid cells,then the cluster analysis of grid cells in order to achieve a more in-depth analysis of the data mining purposes.
Keywords:Data mining;Grid;Cluster analysis
一、引言
随着信息技术的飞速发展,人们对计算机信息处理的要求越来越高,同时处理、传输、储存各种信息的数据量也越来越庞大。如何进一步增强计算机信息系统的处理能力,从海量的数据中提取有益的资源,便成为人们不断追求的目标。网格技术和数据挖掘技术的发展,为解决此问题提供了一种有效的办法。网格是一个集成的资源环境,它能够充分吸纳各种资源,并将它们转化成一种随处可得的、可靠的、标准的、经济的能力。这些资源包括计算资源、网络通信资源、数据资料、仪器设备、知识等各种各样的资源。网格计算就是基于网格的问题求解。数据挖掘就是从大量的数据中发现或"挖掘"知识,而网格上含有丰富的数据,是数据挖掘的理想目标。基于网格的数据挖掘就是建立在数据网格的基础设施和相关技术的基础上,在广域分布的海量数据和计算资源的环境中发现数据模式,获取新的科学知识和规律。
二、基于网格的数据挖掘
网格计算技术是解决复杂海量科学数据的访问存储组织和管理的一种有效技术,是广域分布的异构虚拟组织间实现协同资源共享、多领域的科学和工程的问题求解。建立在网格基础上的数据挖掘结合网格计算的思想及其技术的优点,能够对广域分布的海量数据进行高效的处理、分析和挖掘,将给信息分析处理的效率带来极大的促进。(一)网格数据挖掘过程:数据的处理,数据的分析与挖掘,模式的评价。(二)网格数据挖掘的特点:超强的计算能力;具有分布性和动态性;具有高性能的I/O负载平衡能力;高效的数据存储服务、传输服务和复制管理。(三)聚类分析在网格计算中的实现方法。
三、网格聚类过程划分
基于网格聚类算法的第一步是划分网格结构,按搜索子空间的策略不同,主要有基于由底向上网格划分方法的算法和基于自顶向下网格划分方法的算法。由底向上划分方法只需对数据集进行一次线性扫描以及较高的簇的描述精度,算法的效率与维度密切相关。自顶向下划分方法能够自动根据数据的分布对空间进行划分,可以快速将大型高维数据集中的簇分隔开,数据空间维度对网格计算的影响较小。可以看出,两类方法适用于不同的问题。前者适于处理高维数据集,后者能有效处理存取代价较大的超大型数据集与动态数据。
四、基于网格的聚类过程分析
基于网格的聚类算法的基本过程是,首先将数据空间W划分为网格单元,将数据对象集O映射到网格单元中,并计算每个单元的密度。根据用户输入的密度阈值Min Pts判断每个网格单元是否为高密度单元,由邻近的稠密单元组形成簇,第一步,定义一个网络单元集;第二步,将对象指派到单元,并计算密度;第三步,删除密度低于指定阙值的单元;第四步,由稠密网格单元形成簇。
(一)网格单元的密度。簇就是一个区域,该区域中的点的密度大于与之相邻的区域。在网格数据结构中,由于每个网格单元都有相同的体积,因此网格单元中数据点的密度即是落到单元中的点的个数。据此可以得到稠密网格单元的密度是,设在某一时刻t一个网格单元的密度为density,定义density=单元内的数据点数/数据空间中总的数据点数,设密度阈值为A,为用户输入的密度阙值,当density>A时,该网格单元是一个密集网格单元。反之为稀疏网格单元。需聚类计算时,对于稀疏网格单元一般采用压缩或直接删除的处理方法,理论分析和实验证明删除稀疏网格单元并不影响聚类的质量。(二)由稠密网格单元形成簇。在基于网格的聚类算法中,根据以上分析,由邻接的稠密单元形成簇是相对直截了当的,这也是基于网格的方法的优点之一。但是需要首先定义邻接单元的含义。设n维空问中的存在任意两个网格单元U1和U2,当这两个网格单元在一个维上有交集或是具有一个公共面时,称它们为邻接网格单元。在二维空间中,比较常使用的是4-connection相邻定义和8-connection相邻定义,
五、结束语
基于网格聚类方法的优点是它的处理速度快,因为其速度与数据对象的个数无关。但是,基于网格方法的聚类算法的输入参数对聚类结果影响较大,而且这些参数较难设置。当数据中有噪音时,如果不加特殊处理,算法的聚类质量会很差。而且,算法对于数据维度的可伸缩性较差。
基于网格的聚类方法目前还存在一些急需解决的问题,主要有以下几点:(1)当簇具有不同的密度时,全局的密度参数不能有效发现这样的簇,需要开发具有可变密度参数的算法。(2)对于不同类型数据的聚类问题,比如对于高维数据,网格的数据将急剧增加,需要有效地技术发现近邻单元。(3)当数据集的规模巨大以及数据具有地理分布特性时,需要开发有效的并行算法来提高处理的速度。(4)对现有网格算法的优化,从不同方面提高网格算法的有效性。比如开发稀疏网格的压缩算法、密度相似网格的合并算法等。
本文对基于网格的聚类方法的进行了分析和研究,包括网格的定义与划分方法、网格单元密度的确定、由邻接网格单元形成聚簇的聚类过程;最后对网格聚类方法优点与局限性进行总结,在已有研究分析的基础上,提出后续需要重点解决的问题。
参考文献: