引论:我们为您整理了1篇统计学数据论文范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。
统计学数据论文:大数据与统计学协同发展的思考分析
摘要:海量的数据已经渗透了每个人的生活,以数据为研究对象的统计学应该以科学的态度迎接大数据浪潮,并积极思考如何把握这重要的发展机会。本文首先阐明大数据与统计学的密切关系,再从大数据时代下的非结构化数据与结构化数据、相关关系与因果关系,这两个方面思考大数据与统计学的协同发展。
关键词:大数据时代;大数据;统计学;
一、大数据与统计学
(一)大数据与统计学关系密切
简单来说,我们可以分为两个方面来理解大数据:若“大数据”作为形容词,则描述的是大数据时代数据的特点;若“大数据”作为名词,则体现的是数据科学研究的对象。对大数据的定义有非常多,不同领域不同专业对大数据的界定都会有些许不同。通俗地说:大数据是目前人类所有可抓取、可记录、可存储的信号集合。这个包含了一切信号的集合将非常非常之庞大、多样、繁杂,并且还在不停地、迅速地增加。现代互联网和信息技术的飞速发展,使得人类开始有能力收集、储存、分析、处理这些从前无能为力的数据,从中挖掘出有用的信息促进社会的发展。迈尔•舍恩伯格说:大数据发展的核心动力就是人类测量、记录和分析世界的渴望。而统计学正好是收集、整理、分析、解释数据并从数据中得出结论的科学。由此可见大数据与统计学关系密切,将大数据与统计学结合发展潜力无穷。
(二)大数据时代下的非结构化数据与结构化数据需整合
对接统计研究可根据自身的目的收集总体数据或样本数据,但如果总体太过庞大,以过去的技术方法来收集总体数据成本会很高,受于限制统计研究更多收集得是样本数据。如今,人类已经开始能够在合适的成本下获得大数据,大数据的广博给统计研究带来了新的发展方向。我们需要着重研究的一个方向就是如何将结构化数据和非结构化数据对接。大数据的核心是数据,统计学的研究对象也是数据,但是它们获得的数据性质有所不同:大数据收集的多是半结构化和非结构化的数据,通俗地理解,先获得数据,再整理结构(如声音、图片、视频等信息);传统统计学收集则主要是结构化数据,先定好结构,再根据目标结构收集数据(如数字、符号等信息)。拿非结构化数据和结构化数据来说:大数据时代使得我们有更多可以分析利用的数据,使得统计研究不仅可以在有更多的结构化数据的情形下进行;对于一些领域的研究工作还可以设法将非结构化数据和结构化的数据结合起来分析。如何实现非结构化数据与结构化数据的结合?首先,完善非结构化数据的整合,然后我们可以用结构化数据做数量说明,非结构化数据加强描述;或是提高数据处理技术,实现结构化数据与非结构化数据的互相转化,选择能更好说明问题的数据形式作为后续分析基础。这都是值得再深入思考研究的新问题,而且这不仅仅是大数据和统计研究的事,同时需要计算机技术的一同创新发展。统计研究的范围在大数据时代越来越大,能用数据说明的问题越来越多。
(三)大数据时代下的相关分析与因果分析发展并重
《大数据时代》一书中表示:大数据时代的一个显著变化是:相关分析比因果分析更重要。我的看法是:大数据时代下,市场确实会对相关分析有着更强的关注度,但这并不意味着因果分析的重要性会有褪色。统计学中既有相关分析,也有因果分析,要对它们有合理的了解,首先需要明确的是相关关系和因果关系之间的联系,简单说:有相关关系不一定有因果关系,有因果关系则一定有相关关系。大数据时代,相关关系变得比以前更加为人所关注的原因:一方面,在很多领域的应用里,相关分析比因果分析更简单可行;另一方面,因为相关关系足以体现事物之间的一定联系,在商业效益上更为经济有效。因此在商业利润的推动下,相关关系也会更加受到青睐。但是我们不能就此否定因果关系的重要性,因果关系是对数据更加深度地分析:相关关系让我们知道了“是什么”,因果关系是让我们知道了“为什么”。倘若只是在商业经济上的利用和成本考虑,“是什么”在很多时候就以足够;但如果是在科学研究领域,“知其然而不知其所以然”就远远不够了。结合现实发展需要,可在分析确定相关关系后,根据情况研究因果关系,若能够得出因果关系,那肯定是更具价值和意义的。探求“为什么”始终是人类探索世界的动力,因果分析是人类永恒的使命。
二、结语
大数据时代的到来几乎对每个领域都有着不可忽视的影响。大数据与统计学关系密切,大数据的出现对统计学的意义是非凡的,我们应把握住大数据时代和统计学的可结合点。其一,完善非结构化数据的整合,深入研究如何实现非现结构化与结构化数据的对接,都需要我们思维上的创新、数据处理技术上的提高。其二,在注重相关分析的同时,不能丢掉对因果分析的研究,应合理并重,实现大数据的进一步利用,真正挖掘出数据的价值。对于以数据为研究对象的统计学科,大数据时代就是统计学变革创新的时代,统计研究工作人员也应把握机会思考创新,为统计学增添新的生命力。
作者:张天舒 单位:广州工商学院
统计学数据论文:大数据时代统计学发展研究
统计学在现实的生活中应用十分广泛,以至于如今很多人把统计学的范围扩展为用数据表示的现象。在如今的经济发展中一些金融分析师会利用一系列的数据对客户提供咨询服务,证券分析师可以利用数据来分析股市的信息,然后对股市的行情进行预测。在与我们息息相关的农业领域,水稻的产量以及有机物的培养环境都可以利用数据进行探究。以上都是与我们相关的实例,这些实例都是与统计学分不开的,这些实例都是统计学中的应用实例。总之统计学的运用可以贯穿各行各业。统计学的发展与大数据之间有着很密切的关系。如今随着信息时代的发展,很多信息都是利用数字来进行表述的,因此可以看出来数据其实就是信息的载体,也是数据学分析的对象,如今的统计学工作实际就是收集数据、整理数据、分析数据、解释数据。如果没有数据统计学就像植物失去土壤一样难以存在,同样离开了统计学以后,数据就会显得没有意义。数据在如今的大环境下变得越来越广泛,其增长也是漫无边际的。随着社会的不断发展,以及信息时代的不断进步,人们开始意识到了数据的重要性。目前最为实用的数据很多,不但可以提高生产力的发展水平,还能够利用数据的分析来解决国家的民生问题,因此这种大数据下的统计学发展十分重要。
一、大数据时代的内涵及其意义
(一)大数据时代的内涵
大数据其实就是一个大样本和高维便利的数据集合,针对一些样本的问题,利用统计学原理进行抽样、分析,来达到所需要的精度,但是对于一些维数高的问题需要运用统计学原理进行选择降维、压缩、分解。从另一种角度讲大数据包含很多方面,它是多领域的数据综合,其中包含自然科学、人文科学等一系列的混合数据,各个学科之间进行融会贯通,相互穿插。一些传统的统计学方法只适合分析单个计算机的数据存储,然而目前的大数据环境下改变了这一现象。如今大数据环境下包括了数据流环境、磁盘存储环境、分布存储环境、多线条环境等。目前大数据环境下最主要的目的就是把数据转变为人们容易懂得的知识,来探索数据产生的源头和机制,从而制定相应的对策。由于要把信息转变为知识需要一个漫长的时间,因此如今有很多人搜集当今社会的大量的数据存放在相应的存储器中,甚至有些人并不知道如何去分析所搜集的数据,但是他们把这些数据当成一段发展的历史,把如今高速发展的过程记录下来,供以后应用。
(二)大数据时代给社会带来的变革
如今大数据环境下给人们带来了很大的变革,目前各行各业的劳动者们都开始利用研究问题来驱动搜集数据,利用搜集来的数据进行分析来解决问题。因此以这种发展的趋势可以看出,在以后人们会慢慢地利用搜集数据来驱动问题的解决,就像我们出门查天气、查交通一样,未来的劳动者们会通过大数据的分析来决策一些研究性的问题。现在国内外很多统计学专家、甚至一些大学教授都开始利用计算机中相应的软件来搜索、分析一些研究性成果。在古希腊哲学家是百科全书式的人物,在文艺复兴时期开始细化了一些单一科学的科学家。如今大数据时代势必会再次产生百科全书式的人物,大数据将慢慢地减弱专家在各个领域的影响,甚至导致专家的消亡,比如,现在很多统计学家、物理学家、计算机专家等开始利用他们敏锐的数据处理和分析能力进入生命科学界,在以后假如我们有成千上万本书和它的外文译本,即使我们不懂外文也能够通过一些翻译软件进行翻译,把它翻译成我们懂得的语言,大数据中包含很多数据集,为我们以后的生活提供很大的便利。
二、大数据的研究动向、信息问题
(一)研究动向
目前美国一些机构开始提出了大数据环境下的一些挑战性的问题,即处理高度分布的数据资源,追踪数据的来源以及核实数据、处理样本等。他们开始把数据处理的方式进行改进,开发并行和分布式的算法。我国也十分重视大数据科学的发展,国家多次组织召开会议探讨大数据科学发展的前景,并且设立了大数据专项研究计划。国家自然科学基金的一些专项科学项目开始设立,在业界以及一些咨询公司都在寻找大数据合作的机会。大数据的分析需要多个领域进行结合,已经不是单一的一个科学领域,统计学家不但要认真研究计算机的实时决策还要把计算机与统计学的相关知识进行紧密的结合。相反计算机专家也要时刻了解统计学的相关知识。
(二)大数据的信息问题
随着大数据信息时代的到来,人们也不断地对大数据进行探究。由于大数据中不只是包含一种数据,它是很多数据的一个集合体。为了能够把搜集到了各个方面的数据融合起来,必须对数据的来源以及数据的获取方式进行探究,利用这些探究的结果来进行数据的分析。如今数据的来源一般都是多方面、多渠道的,难免会产生较大的误差,这样也就产生了一些问题,比如数据搜集的准则与决策不相符,甚至有些数据根本不是原始搜集的数据,而是经过分析推断而来的数据,这种数据更会产生较大的误差。由于数据的量是非常大的,然而并不是数据量越大所包含的信息就越多,如果所获的数据中含有一些偏差较大的信息,就会破坏原始的数据,因此从这一方面我们应该意识到在数据的搜集过程中应该避免得到一些破坏性的信息。在大数据时代中会产生一些缺失的数据,数据的缺失难免会对数据的分析产生影响,不同的研究搜集的数据会有一些重叠的部分,比如经济、社会、保险、医学等研究的问题不同,搜集的变量和集合不相同,但是他们肯定会有一些共同用处的数据。在对数据进行分析时,其中有2种数据需要进行具体的分析,一类是观察的数据,一类是试验的数据,这两种数据包含两种不同的信息,这样依然会导致一些人对数据的认知错误。由于数据的本身是有一定的范围的,数据搜集以后就已经确定了它的这一属性,因此如果想需要范围以外的含义就必须进行推断。
三、大数据的处理、抽样与分析
(一)数据的预处理
大数据环境下对数据的处理包括很多方面,比如,数据清洗、数据矫正、数据填补等,其中数据矫正是一种非常有效的数据处理方式,它可以大大减少系统的误差。如今互联网领域中数据的获取是非常复杂的,在大量的、复杂的数据进行分析时难免会产生一些差异性,为了尽可能地使得这些数据不产生偏倚性,就必须利用计算机来对这些数据进行矫正。矫正的方法就是把一些从互联网上搜集的数据作为一些补充的资源进行更新,这种更新速度要快,而且是实时的更新。
(二)大数据的分析与整合
在对大数据分析时,针对一些高维的问题需要进行降维、分解。还要探究一些压缩数据的方法,经过压缩的数据可以直接进行传输和操作。这一系列的过程除了可以用常规的方法以外还可以利用一些数据的实时分析以及一些先进的算法进行操作。考虑计算机内存和外存的数据传送问题、分布数据和并行计算的方法。如何无信息损失或无统计信息损失地分解大数据集,独立并行地在分布计算机环境进行推断,各个计算机的中间计算结果能相互联系沟通,构造全局统计结果。研究多个数据资源的融合算法,研究利用数据流寻找模型变化时间点的动态变化模型。
四、结束语
在一个新的事物到来以后势必会对社会的发展带来一定的冲击,会慢慢地把一些传统的关键和技术进行淹没,比如,数码相机的出现取代了传统的胶片相机,使得影像业几乎消亡。在大数据环境下将会对传统的统计学进行严格的考验,统计学会不会像以往的哲学那样,只有一些历史的光环,而不再作为人们分析和利用大数据的资源。目前来看很多的学科都开始慢慢地涌入大数据时代,如果统计学的发展不进行改革的话也会慢慢的被边缘化。目前统计学的主要的目标就是通过大范围的获取数据,然后利用计算机对获取的数据进行分析,来发现真理,统计的方法和理论有过高的要求,在大数据的环境下存在各种随机和非随机的误差,根本无法满足这些要求。大数据已经给统计学带来了很大的机遇,我们不但要洞察到这种机遇,还要看到现在的统计学中的一些基本的分析方法已经不能满足现在的数据分析,如今一些分布式的大数据已经给统计学带来了很大的挑战,由此看来一些统计学家要积极应对目前的这种现状,不应该把传统的数据环境作为目前研究的目的,必须积极地去学习新生的事物,只有这样才能面对未来的挑战有一席之地。
作者:彭先萌 单位:湖北工业职业技术学院
统计学数据论文:大数据时代下统计学课程教学改革思考
随着互联网时代的到来,特别是微博、微信、朋友圈等社交网络的兴起和手机使用功能的多元化,导致人们的生活行为产生大量的数据信息,而企业可以通过这些数据了解顾客的需求以及消费习惯等,并应用大数据技术进行市场细分和定位;与此同时,政府也意识到数据信息的经济开发价值,并在《“十二五”时期统计发展和改革规划纲要》中明确提出“:建立现代统计体系就是建立以现代信息技术为支撑的方案设计、任务布置、过程控制和行为监督的统计系统。”2015年3月3日在北京召开的两会,也特别强调“数字两会”,让老百姓通过实实在在的数据对比感受生活的变化。可见,政府、企业乃至老百姓都已经认识到大数据的价值,所以大数据相关人才也成为社会各界争抢的对象。如何培养符合大数据时代背景下所需要的人才?这使得统计课程的教学不得不面临较大的改革。
一、大数据的概念
大数据即大的数据集,它不像我们过去那些数值型数据那么简单,但至今它也尚无确切、统一的定义。通过参照多方对大数据概念的理解,作者认为大数据的概念是指在对海量数据进行传输、采集、储存、处理、分析和挖掘的基础上,获得凭直觉难以发现的有用信息,从而揭示数据隐藏的规律和发展趋势,为决策者所用,它是科技,是讯号,是机会。
二、大数据时代对统计学的影响
大数据时代的到来,对统计工作者而言,为了更好的服务于经济社会的发展,较大的考验和“本领”就是如何深度开发和利用海量的数据信息,这就要求统计学既从理论上又在方法上必须进行改革。一方面需要统计学解决更多、更复杂的问题,另一方面也对统计学提出了更高的要求。不仅要求对统计学的理论与方法进行创新,还要求对统计学进行教学改革,尤其是注重培养对象的统计思维的养成。因为统计学是一门方法论科学,在长期的发展过程中,形成了很多具有特色的统计思维,如静态思维、变异思维、动态思维、指数思维、推断思维、相关思维、假设思维等等。而这些统计思维对处理不确定现象、分析数据和解释数据等都有巨大的影响,成为统计学的核心内容。但在大数据时代背景下,由于数据分析直接针对总体,而且具有复杂性和混杂性,因此,有些统计思维可能用不上,就必须摒弃掉,但也需要统计学随着环境的变化不断创新新的统计思维。
三、当前统计学课程教学中存在的问题
目前统计学课程在教学中存在以下几个主要问题:
(一)教学内容偏重理论,学生学习兴趣不高
目前的统计学教学中一般采用的是理论的教学模式,虽然也在提倡项目化教学,但是教师主要依托教材,对与统计学相关理论和方法逐一进行介绍,对涉及到的公式和定理进行推导。学生听和记,真正理解的内容并不多,应用则更谈不上。在这样的教学模式下,学生对该课程的学习不仅兴趣不高,而且容易对课程产生抵触心理。
(二)忽略对统计相关软件的教学
统计理论和方法很重要,但要真正用统计作为一个工具来解决实际问题,单凭会动笔计算相关的统计指标是远远不够的,尤其是在目前大数据时代背景下。高职院校经济管理类专业的学生所接触的统计相关软件从表面上只有WORD和EXCEL,而这两软件往往是在计算机基础课程中介绍的,在统计学课程中几乎不作介绍,导致不少高职院校学生没有意识,更不会使用甚至根本不知道大多数普通函数计算机都具备的求和、平均、方差和标准差、相关系数等统计功能键,这也限制了很多学生不会运用统计学思维和方法去看待和解决身边遇到的实际问题。目前许多统计学课程的教学过程中,由于受到学生基础差和实训条件不够等的限制,教师在讲授的统计知识内容的时候主要围绕描述统计和简单的推断统计,而对于分析社会问题的多元统计方法在课堂上涉及不多,另外目前高职可用的教材中也缺乏统计软件相关理论知识的介绍,导致学生在学习和应用统计软件进行实际问题的操作时增加难度。
(三)缺乏校企合作
在我国目前国情环境中,大多数高职院校与企业之间很难找到利益共同点,所以实训条件、实训项目等受到限制,使得大多数高职院校的在安排该课程教学时偏重理论教学,而实践教学课时所占课时比重偏低,对开展社会调查的活动仅仅局限于本校学生,并没有跨出校门,更不能与当地的政府部门、市场调研公司、市场咨询公司以及企业建立协作和参与机制,导致学生在学习统计和运用统计之间不能较好地衔接。
四、对统计学课程教学改革的思考
在大数据时代背景下,企业和政府对统计工作者要求较高,不但要求具备一定的统计学理论与方法,而且更重要的是要求能够运用现代化的信息处理工具对海量数据进行采集、处理、分析和挖掘,从而为企业、政府的决策使用者提供正确、快速、的数据支撑资料。为此,作者结合十多年的统计教学经验,对统计学课程在教学中的改革提出以下几个方面的思考。
(一)统计学课程教学内容的改革
1.着重介绍统计方法的应用
统计方法有很强的实用性,加之统计学课程的课时限制,所以应该着重介绍统计方法的在实践中应用。因此,教学中设计并引入好的统计项目,然后从项目中的数据来源入手,着重介绍现成数据如何收集,若项目中没有现成的数据,则如何采用不同的调查组织方式开展数据的搜集活动?怎样组织学生设计调查方案?怎样开展调查活动?怎么做好调研员等知识内容就被引出来,从而让学生产生对统计课程学习的兴趣;若采用抽样调查,则会涉及到样本单位数的如何确定?抽样框如何取得?如何才能保障样本具有足够的代表性?如何减少抽样误差等。当然,对高职院校学生除了介绍传统的统计方法外,还是有必要引入国外比较通行的、实践证明有现实应用价值的一些统计方法,比如时间序列分析、相关分析、回归分析等,以提高统计方法的可学性和运用性,为高职院校学生踏入社会运用统计方法解决本专业领域问题奠定良好的基础。故该课程的教学内容可根据专业的特殊要求、课时的安排情况进行适当的改革,而且重点体现统计方法的有用性和可行性。
2.在教学内容中增加Excel软件的运用能力
目前在实际统计学课程教学中,教师并没有把Excel软件作为教学内容教给学生,而是认为计算机基础中学生已经学习了,然后让学生在课外自行复习和运用,这样效果就大打折扣。作为高职院校应结合学生的特点有针对性的将Excel应用软件作为统计学课程的实训内容,增加实训课时,提高学生的Excel基础应用、Excel函数、Excel图表与图形以及Excel数据透视表等方面的应用能力。
(二)创新教学模式,激发学生兴趣
统计学是一门实用性很强的课程,我们应该结合高职院校学生的特点创新教学模式,激发学生学习统计学课程的兴趣。例如在课程教学中以“练———学———思———拓”能力训练模式进行课堂教学模式改革,让学生在快乐中学习、快乐中成长,同时挖掘学生学习趣味性、调动学生积极性、注重团队合作、增强沟通交流,并与就业接轨,多方位、全过程提高学生素质等,打破了僵化死板的教学方式,树立以学生为本的教学思想,着力培养学生的个性化发展和自主学习能力、创新思维能力和综合实践能力、开发思维能力、竞争能力,有助于学生理解、掌握统计方法的应用条件和应用思路,强化了学生的统计思维。
(三)加强校企合作,提高学生实践创新能力
社会经济现象是错综复杂的,其表现的各种数据信息在相互影响、相互作用,这就要求学生不仅学会在实践中去寻找各种异常出现的原因,而且也要求学生能对事物的关联、因果、发展等方面进行分析,培养学生严谨的数据处理态度,同时增强学生创新统计思维。为此,在开展社会与企业实践活动时,建议并组织学生以小组为单位,然后再来选择和确定实践课题,当然,研究课题可以是学生日常生活中所关心的问题,如大学生校园恋爱观的调查,也可以是社会经济中的热点问题,如生态功能区环境保护统计监测研究。因此,在学院“会-站-室”的整体框架下,在学院公共服务平台的支撑下,在系专业共建委员会的有力支持下,通过加强与当地的统计局、市场咨询公司、市场调查公司、企业等单位之间的合作,让学生真正参与社会统计实践活动,从而使得学生在实践中体会统计理论与方法的美感,感受统计的在生活中的乐趣。
(四)优化课程考核评价方法
在“两全多方”人才培养质量保障体系下,为实现高职院校和行业企业共订标准、共管过程、共评效果。统计学课程的考核应多样化,既考核学生对统计理论的理解程度,也考核学生对统计知识的综合运用能力,同时也考核学生在参与统计实践中的组织能力、团队协作精神、沟通能力、表达能力等;对学生的评价不仅仅是任课老师,还需要学生之间的互评、家长对学生的综合评价以及第三方对学生的评价等。总之,统计学一门关于一切学问的学问,在大数据时代,应加强统计学基础性原理与真实的教学,凸出统计学理论与方法的应用性,让学生建立起大数据统计思维,并在统计思维的引导下,选择合适或最有效的统计方法,或通过创新统计方法,有效地解决实际问题。
作者:陈秀芬 单位:四川化工职业技术学院
统计学数据论文:大数据时代统计学专业教学改革探索
从狭义上来讲,大数据的构成包括两方面,一方面是大样本,在统计学上要达到需要的精度就必须采取抽样的办法降低样本数量;另一方面是高维度变量,对于这一问题则需要采取压缩、分解以及降维等方法。
一、大数据及其意义
大部分传统的统计方法只适合分析单个计算机存储的数据。而目前大数据的环境包括以下要素。1.流数据:数据快速地不断涌来,现有存储设备和计算能力难以应付这种数据流(比如欧洲高能粒子对撞机所产生的数据,每秒钟可以达到500TB)。2.磁盘存储限制:数据已不能存储在内存中,需要硬盘存储。3.分布存储状态:数据分布存储在多个计算机中。4.多线条状态:数据存储在一个计算机中,多个处理器共享内存。大数据的发展就是对数据产生的机制进行探索,将所产生的数据转变为人们所需要的知识,进而对相关政策的制定产生影响。这个过程是一个漫长的过程。一个小孩子随着年龄的增长可能会掌握更多的单词,但是根据一个孩子的年龄确定他掌握的单词多少则并不科学。进一步来说,大数据有记录保存自然与社会现状的功能。现在大家收集着海量数据,尽管他们还不清楚如何分析大量的数据,但是他们相信需要保存现今社会经济高速发展的过程,期待着今后能够分析和解释这段历史。还有些人将百岁老人的血液和其他各种生物的标本等存放在冰箱里,他们认为当今的技术还不足以测试和分析这些资源,期待今后更先进的测试技术能够做到。大数据就如同自然和社会的血液那样记录着社会的现状和发展过程。17世纪望远镜以及显微镜的发明使人类看到了以前从来没有看到过的宇宙空间和微生物,扩大了人类对自然的基本认识。大数据就像“望眼镜”和“显微镜”那样,使得人们能够通过数据来观察和分析自然、经济、社会的现象。借助于互联网数据,可以及时了解疾病的疫情、科学的动态、社会的动态。谷歌借助频繁检索的词条能及时判断流感从哪传播,哪些人可能已经感染了流感。大数据将形成自然和人文社会的历史长河,不但能用于探索当代的科学问题,将来也可以用于研究人们食用转基因食品对子孙后代的影响等追踪研究问题,为未来留下当前的历史资料。
二、大数据带来的变革
时代的进步有赖于大数据的发展,大数据的发展给时代变革增加了更多的不确定性。就当前研究来看,数据的搜集很大程度上依靠所研究问题的出现来推动其向前发展。不过在不久的将来,随着大数据时代的到来,人们对于问题的研究将会由“数据”来驱动。例如,如果我们想去某地旅行或出差,会首先查询目的地的交通情况、天气情况以及住宿情况等信息,但是将来我们可以根据所查询的数据信息来决定所要去的目的地。在古希腊时代,当时的哲学家无所不知,号称百科全书,到了文艺复兴时代,随着学科的不断细化,不同学科出现了各自的专家。随着大数据时代的到来,大百科全书式的人物将有可能再次出现,而不同领域的专家的性将被逐步消弱,随着大数据的不断发展,很有可能会逐渐将学科专家消亡掉。例如,随着计算机专家和统计学家对数据的搜集越来越多并且处理能力不断增强,他们将逐步成为生命科学方面的专家。再比如,如果我们掌握了足够数量的相关专业书籍和日文译本,就算我们对日文一无所知,我们也可以采取有效的方法将所需要的中文翻译成为日文,因为我们有很多非常的翻译软件,如谷歌翻译软件等。大数据已经在各个领域和学科得到了应用,例如医疗领域,大数据可以指导人们健康饮食,适时进行身体检查,并且确定检查项目,帮助医生对患者进行疾病诊断等。
三、大数据时代统计学专业教学现状
随着科技的不断发展和进步,人们获取信息和数据的途径也发生了很大的变化,电子商务的发展和各种多媒体信息技术的飞速发展和应用,给传统的统计学应用和教学带来了机遇的同时也带来了非常大的挑战。一方面,由于各种信息和数据的不断涌入,人们在被动搜集着各种数据。统计学的教学也需要不断探索新的模式。另一方面,人们在被动接受数据的同时也在主动搜集数据信息,不同学科有不同的数据需要。例如经济学领域的专家每天都在搜集各自的调查数据和观察数据,而自然科学领域的专家学者则不仅搜集宏观天文数据,还在搜集微观基因数据。不同的人们搜集数据的方法也各不相同,有的在实验室通过试验进行数据搜集,有的人则通过网络进行数据搜集和研究。对于当前大数据给统计学带来的挑战,美国科学院“大数据分析委员会”给出了分析,他们认为这些挑战在于对不同格式和结构的数据的处理方面、对于数据来源的追踪方面、对于共享数据的安全性问题和完整性问题方面、对于样本异质性和偏倚性处理方面、在对问题进行处理时的决策和分析方面以及对分布式和并行式在开发时的算法方面的问题等。国内相关部门也对这一问题进行了研讨,最早一次是2012年5月在香山召开的“大数据科学与工程”会议,第二次是在2013年5月召开的对于大数据原理以及发展前景的探讨会,并同时制定了相关的科研计划。但关于大数据背景下统计学专业教学的探索还非常稀缺。
四、统计学专业课程改革
针对以上所述大数据时代的特点和变革意义以及目前统计学专业教学的现状,本文进行了相应的初步探索。
(一)改革的总体思路
将现有的统计学顶级杂志或著名文献中的成熟的大数据分析方法逐步凝练,形成教学内容;将使用R软件中的函数包实现这些大数据分析方法。
(二)改革的具体内容
1.在《数据挖掘原理与方法》课程中引入大数据分析方法及其R语言的代码实现。2.在《非参数统计》课程中引入多元非参数统计方法(诸如多元符号、多元秩、多元符号秩等)、非参数回归模型、半参数回归模型及其R语言的代码实现。3.在《回归分析》课程中引入回归树、boosting回归、bagging回归、随机森林回归等用来处理大数据的回归方法、高维回归变量选择方法(比如LASSO回归、动态LASSO回归等)及其R语言的代码实现。4.在《多元统计分析》课程中引入高维统计分析方法及其R语言的代码实现。5.在工科《概率论与数理统计》课程中引入R语言的代码实现。
(三)改革的主要创新点
在传统的统计学专业课程教学中引入近期的大数据分析方法及其R语言实现。其中R语言是区别SAS、SPSS等傻瓜软件的结构化程序设计语言,可以灵活实现傻瓜软件所不能实现的各种高级数据分析功能。其非常适应于大数据统计分析方法的教学。所以大部分国内外著名大学已经不再使用诸如SAS、SPSS等傻瓜统计软件进行统计分析方法的教学。R语言已经逐步成为统计学系的标准的教学软件。
作者:周茂袁 单位:中国民航大学理学院
统计学数据论文:大数据时代统计学专业建设分析
[摘要]大数据时代对统计学人才培养而言,既是机遇又是挑战。高校的统计学专业要从统计学专业的培养目标出发,通过改革教学模式,调整教学内容,对课程设置、师资培养、课堂教学、实践环节各个方面进行改革,承担起大学人才培养的责任。
[关键词]大数据时代;统计学;专业建设;实践教学
全球知名的麦肯锡咨询公司最早提出了“大数据”的概念,宣告了大数据时代的来临;IBM公司指出了大数据的4个特点:数据体量巨大、数据类型繁多、数据产出速度快、数据价值密度低。[1]大数据对高等学校人才培养的影响表现在以下方面:1.思维方式与认知模式的改变;2.海量的学习对象与辅助教学资源;3.开源课程(慕课,微课、翻转课堂)的教育方式对传统教学模式产生冲击;4.新媒体模式的社会化互助学习打破教学界限;5.网络思维拓展了个体思维。[2]在这个意义上,大数据时代对高校人才培养提出了新的要求。对于统计学专业建设而言,大数据的背景既是一个机遇也是一个挑战。高等学校统计学专业需要通过整合现有人才培养资源、建立创新人才培养平台,承担起大学人才培养的责任,紧随大数据的发展趋势,占领大数据发展人才培养的制高点,体现高等学校满足社会需求、提供智力支撑的载体作用,确保大数据产业科学、健康、持续、高速地发展。本文拟从统计学专业的培养目标出发,研讨在大数据时代统计学专业学生培养各个环节的问题。
一、关于培养目标
统计学专业的培养目标是:培养德、智、体、美发展,掌握坚实的数学、统计学基本理论,具备扎实的经济学基础和数据分析技能,能够熟练地运用统计方法和数据分析软件进行数据分析和数据处理,能在企事业单位和经济管理部门从事统计调查、数据分析、风险决策、质量管理等工作,或者在科研单位、高等学校从事统计学研究和教学工作的高级专门人才。本专业学制四年,通过四年的学习,统计学专业的毕业生应具备以下能力:
1.掌握坚实的数学、统计学基本理论。掌握数学、统计学的基本理论、基本知识、基本方法和计算机操作基本技能;具备数据采集、调查问卷设计和数据处理的基本能力;了解与经济统计、生物统计、医学统计或社会统计等有关的自然科学、社会科学某一领域的基本知识,具备利用统计学专业知识,发现、分析、解决某一领域实际问题的基本能力;了解统计学学科的发展前沿及其应用前景。
2.具备扎实的经济学基础和数据分析技能。具备扎实的经济学基础,了解国家经济运行的基本方针、政策、法律、法规;掌握R语言,精通Python、Spark、SAS、SPSS等流行大数据处理软件中的一种,有较强的统计计算能力;掌握资料查询、文献检索及数据获取的基本方法;具有一定的从事科学研究和实际工作的能力;英语达到四级水平,计算机达到二级水平。
二、关于课程设置
1.专业主干课程包括:数学基础部分(数学分析,高等代数与解析几何)、C语言、数据库、概率论与数理统计、统计学、微观经济学、计量经济学、时间序列分析、多元统计分析、市场调查方法与抽样技术、实验设计、统计预测与决策、数据挖掘、随机过程、统计分析软件。
2.充分调研市场需求,在保障基础课程的前提下,灵活设置选修课程,机动调整培养计划及课程设置。
3.对高年级实行模块式分流,包括数据处理、数理金融等防线,并与数据分析师、市场调查师等一些职业资格考试接轨,开设相关选修课。
三、关于师资培养
师资方面,要培养、引进并举,以培养为主。主要立足于现有师资队伍,同时积极引进国内外统计学专业人才,充实、提高教学研究水平。1.努力为教师的成长创造条件,支持和鼓励教师攻读统计学博士学位;积极引进国内外统计学博士。2.加强在职培训提高,深入有效地开展统计学教研活动,教师相互学习,在教学过程中不断学习,促进教师教学科研水平同步提高。3.结合课程教育,以单位进修方式对教师进行短期培训。鼓励教师外出学习,要求每人掌握\精通一门课程或一门外语;通过培训学习近期统计学,数据分析教育理念、方法、技术,提高教师的教学水平,以满足不断变化的教学需要;积极开展科研立项及学术交流活动,积极组织教师申报部级、省级教学改革项目,并积极开展学术交流活动。4.对于实战中比较流行的软件、算法、设备,聘请具备丰富经验的数据分析公司工程师来校为学生授课。
四、关于课堂教学
实践性、动手能力培养贯穿教学始终,除基础课程外,其他课程都在实验室进行教学,学用结合。数据分析语言\软件教学贯穿课程教学,如:1.基于R语言的时间序列分析;2.基于SPSS的多元统计分析;3.高等统计与SAS语言,等等。每门课程完成一个案例报告。
五、关于实践环节
(一)3+1模式
学生前三学年在学校,第四学年在实习单位学习。在实习单位的前四个月,学习数据分析实践技能,以案例教学为主;后8个月在公司、企业接触具体工作。冶金工业过程湖北省系统科学重点实验室、统计学专业实验室、湖北省统计局、武汉市统计局、广发证券等实习实训基地是学生开展实践活动的硬件保障及重要保障。
(二)校内实习
以数据挖掘技术为依托,每年为校内教务处、研究生处、招生就业处、校医院、招投标办公室、后勤等部门出具一份完整、的数据分析报告,确实对学校各个部门的决策起到积极作用。以项目形式申报,每年以此类项目作为统计学专业的固定训练题,或专业实践题目。
(三)参加数据分析、数据挖掘
竞赛学科竞赛为创新统计学科人才培养模式,进一步提升大学生调研能力、数据分析能力和处理实际问题能力,促进学校应用型人才的培养,同时为社会实际工作部门和高校人才培养的衔接提供一个良性平台。[5]我们要求统计学专业的学生在读期间都必须参加至少一次数据分析、数据挖掘类竞赛,通过竞赛提高学生分析、解决实际问题的能力,并以此作为创新学分的得分依据。目前学生参加的相关专业竞赛有:
1.全国大学生数据挖掘挑战赛。竞赛由全国大学生数学建模竞赛组织委员会主办,广州泰迪智能科技有限公司承办,广东省工业与应用数学学会、华南师范大学数学科学学院协办。从2015年开始,我们组队参加这一比赛,成绩逐步提高。2015年虽然没有获得很好的成绩,但却锻炼了学生,激励了教师。参加了竞赛的学生,数据分析能力有了明显的长进,论文撰写水平也提高不少。这些学生的本科学位毕业论文内容充实,条理清晰,答辩时胸有成竹,语言流畅。一些学生因为参加过这一赛事,在找工作时增分不少,顺利签下了数据分析师的就业合同。我们教师也从这一赛事中了解了目前数据分析领域的前沿知识,感受到了和兄弟院校的差距,这促使教师积极参加国内数据分析的各种培训,钻研数据分析的近期方法与技术,提高数据分析教学能力。2016年,我校再次组队参加该项赛事,获得国家三等奖两项。
2.中国高校SAS数据分析大赛。这是由SAS中国公司发起的专门针对中国高校数据分析相关专业的一次非营利性的公益大赛。2016年,我校首次组织统计专业本科生、研究生混合组队参加了这一比赛,总共3队参加华中区初赛,1队参加复赛,在比赛中表现良好,最终获得“汇丰杯”2016中国高校SAS数据分析大赛决赛百强,并被授予“大赛组织奖”。
六、就业前景
武汉科技大学从2012年就开始培养统计学研究生,2015年本科也开始招生。实际上,我们从2001年就在信息与计算科学本科专业开设了经济统计模块,2002年就开始招收数理统计方向的研究生,已经有了10届毕业生,这些学生的就业单位有政府统计局、金融行业的证券交易所、保险公司、银行、软件公司、企业里的信息中心、高校等。还有部分学生继续攻读了数理统计、经济统计、随机分析等方向的博士研究生,毕业后在政府部门、高校从事研究工作。我们通过对这些毕业生的社会调查与用人单位的信息反馈,对本专业学生的社会适应能力以及社会需求有了深入的了解。这也为我们做好教学改革工作指明了方向。在大数据时代,培养符合社会需求的统计学人才,这是高等学校的责任和义务。
作者:冯育强;李德宜;余东 单位:武汉科技大学理学院
统计学数据论文:大数据时代统计学重构分析
摘要:基于大数据特征,统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果评价标准的重建等成为统计学理论面临解决的首要问题.为适应大数据时代的发展,分析了大数据时代传统统计学所面临的机遇与挑战,对传统统计学的继承、发展和完善,重构大数据时代新的统计理论有其重要意义.
关键词:大数据;统计学;数据分析;抽样理论;理论
重构随着信息科学技术的高速度发展,当代获取和储存数据信息的能力不断增强而成本不断下降,这为大数据的应用提供了必要的技术环境和可能.应用大数据技术的优势愈来愈明显,它的应用能够帮助人类获取真正有价值的数据信息.近年来,专家学者有关大数据技术问题进行了大量的研究工作[1],很多领域也都受到了大数据分析的影响.这个时代将大数据称为未来的石油,它必将对这个时代和未来的社会经济以及科学技术的发展产生深远的意义和影响.目前对于大数据概念,主要是从数据来源和数据的处理工具与处理难度方面考虑,但国内外专家学者各有各的观点,并没有给出一致的定义.麦肯锡全球数据分析研究所指出大数据是数据集的大小超越了典型数据库工具集合、存储、管理和分析能力的数据集,大数据被Gartner定义为极端信息管理和处理一个或多个维度的传统信息技术问题[23].目前得到专家们认可的一种观点,即:“超大规模”是GB级数据,“海量”是TB级数据,而“大数据”是PB及其以上级别数据[2].
一些研究学者把大数据特征进行概括,称其具有数据规模巨大、类型多样、可利用价值密度低和处理速度快等特征,同时特别强调大数据区别于其他概念的最重要特征是快速动态变化的数据和形成流式数据.大数据技术发展所面临的问题是数据存储、数据处理和数据分析、数据显示和数据安全等.大数据的数据量大、多样性、复杂性及实时性等特点,使得数据存储环境有了很大变化[45],而大部分传统的统计方法只适合分析单个计算机存储的数据,这些问题无疑增加了数据处理和整合的困难.数据分析是大数据处理的核心过程,同时它也给传统统计学带来了巨大的挑战[6].产生大数据的数据源通常情况下具有高速度性和实时性,所以要求数据处理和分析系统也要有快速度和实时性特点,而传统统计分析方法通常不具备快速和实时等特点.基于大数据的特点,传统的数据统计理论已经不能适应大数据分析与研究的范畴,传统统计学面临着巨大的机遇与挑战,然而为了适应大数据这一新的研究对象,传统统计学必须进行改进,以继续和更好的服务于人类.目前国内外将大数据和统计学相结合的研究文献并不多.本文对大数据时代这一特定环境背景,统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果的评价标准的重建等问题进行分析与研究.
1传统意义下的统计学
广泛的统计学包括三个类型的统计方法:①处理大量随机现象的统计方法,比如概率论与数理统计方法.②处理非随机非概率的描述统计方法,如指数编制、社会调查等方法.③处理和特定学科相关联的特殊方法,如经济统计方法、环境科学统计方法等[7].受收集、处理数据的工具和能力的限制,人们几乎不可能收集到全部的数据信息,因此传统的统计学理论和方法基本上都是在样本上进行的.或者即使能够得到所有数据,但从实际角度出发,因所需成本过大,也会放弃搜集全部数据.然而,选择的抽样方法和统计分析方法,也只能较大程度还原总体一个特定方面或某些方面的特征.事实上我们所察觉到的数据特征也只是总体大量特征中的一小部分,更多的其他特征尚待发掘.总之,传统统计学是建立在抽样理论基础上,以点带面的统计分析方法,强调因果关系的统计分析结果,推断所测对象的总体本质的一门科学,是通过搜集、整理和分析研究数据从而探索数据内部存在规律的一门科学.
2统计学是大数据分析的核心
数的产生基于三个要素,分别是数、量和计量单位.在用数来表示事物的特征并采用了科学的计量单位后,就产生了真正意义上的数据,即有根据的数.科学数据是基于科学设计,通过使用观察和测量获得的数据,认知自然现象和社会现象的变化规律,或者用来检验已经存在的理论假设,由此得到了具有实际意义和理论意义的数据.从数据中获得科学数据的理论,即统计学理论.科学数据是通过统计学理论获得的,而统计学理论是为获得科学数据而产生的一门科学.若说数据是传达事物特征的语言,进行科学研究的必备条件,认知世界的重要工具,那么大数据分析就是让数据较大限度地发挥功能,充分表达并有效满足不同需求的基本要求.基于统计学的发展史及在数据分析中的作用,完成将数据转化为知识、挖掘数据内在规律、通过数据发现并解决实际问题、预测可能发生的结果等是研究大数据的任务,而这必然离不开统计学.以大数据为研究对象,通过数据挖掘、提取、分析等手段探索现象内在本质的数据科学必须在继承或改进统计学理论的基础上产生.
统计数据的发展变化经历了一系列过程,从只能收集到少量的数据到尽量多地收集数据,到科学利用样本数据,再到综合利用各类数据,以至于发展到今天的选择使用大数据的过程.而统计分析为了适应数据可观察集的不断增大,也经历了相应的各个不同阶段,产生了统计分组法、大量观察法、归纳推断法、综合指标法、模型方程法和数据挖掘法等分析方法,并且借助计算机以及其他软件的程度也越来越深.300多年来,随着数据量以指数速度的不断增长,统计学围绕如何搜集、整理和分析数据而展开,合理构建了应用方法体系,帮助各个学科解决了许多复杂问题.现在进入了大数据时代,统计学依旧是数据分析的灵魂,大数据分析是数据科学赋予统计学的新任务.对于统计学而言,来自新时代的数据科学挑战有可能促使新思想、新方法和新技术产生,这一挑战也意味着对于统计学理论将面临巨大的机遇.
3统计学在大数据时代下必须改革
传统统计学是通过对总体进行抽样来搜索数据,对样本数据进行整理、分析、描述等,从而推断所测对象的总体本质,甚至预测总体未来的一门综合性学科.从研究对象到统计结果的评判标准都是离不开样本的抽取,不能适应大数据的4V特点,所以统计学为适应大数据技术的发展,必须进行改革.从学科发展角度出发,大数据对海量数据进行存储、整合、处理和分析,可以看成是一种新的数据分析方法.数据关系的内在本质决定了大数据和统计学之间必然存在联系,大数据对统计学的发展提出了挑战,体现在大样本标准的调整、样本选取标准和形式的重新确定、统计软件有待升级和开发及实质性统计方法的大数据化.但是也提供了一个机遇,体现在统计质量的提高、统计成本的下降、统计学作用领域的扩大、统计学科体系的延伸以及统计学家地位的提升[7].
3.1大数据时代抽样和总体理论存在价值
传统统计学中的样本数据来自总体,而总体是客观存在的全体,可以通过观测到的或经过抽样而得到的数据来认知总体.但是在大数据时代,不再是随机样本,而是全部的数据,还需要假定一个看不见摸不着的总体吗?如果将大数据看成一个高维度的大样本集合,针对样本大的问题,按照传统统计学的方法,可以采用抽样的方法来减少样本容量,并且可以达到需要的精度;对于维度高的问题,可以采取对变量进行选择、降维、压缩、分解等方法来降低数据的复杂程度.但实际上很难做得到,大数据涵盖多学科领域、多源、混合的数据,各学科之间的数据融合,学科边界模糊,各范畴的数据集互相重叠,合成一体,而且大数据涉及到各种数据类型.因此想要通过抽样而使数据量达到传统统计学的统计分析能力范围是一件相当困难或是一件不可能的事.大量的结构数据和非结构数据交织在一起,系统首先要认清哪个是有价值的信息,哪个是噪声,以及哪些不同类型的数据信息来自于同一个地址的数据源,等等,传统的统计学是无法做到的.在大数据时代下,是否需要打破传统意义的抽样理论、总体及样本等概念和关系,是假设“样本=总体”,还是“样本趋近于总体”,还是不再使用总体和样本这两个概念,而重新定义一个更合适的概念,等等.人们该怎样“安排”抽样、总体及样本等理论,或人们该怎样修正抽样、总体、样本的“公理化”定义,这个问题是大数据时代下,传统统计学面临改进的首要问题.
3.2统计方法在大数据时代下的重构问题
在大数据时代下,传统的高维度表达、结构描述和群体行为分析方法已经不能表达大数据在异构性、交互性、时效性、突发性等方面的特点,传统的“假设-模型-检验”的统计方法受到了质疑,而且从“数据”到“数据”的统计模式还没有真正建立,急切需要一个新的理论体系来指引,从而建立新的分析模型.去除数据噪声、筛选有价值的数据、整合不同类型的数据、快速对数据做出分析并得出分析结果等一系列问题都有待于研究.大数据分析涉及到三个维度,即时间维度、空间维度和数据本身的维度,怎样才能、深入地分析大数据的复杂性与特性,掌握大数据的不确定性,构建高效的大数据计算模型,变成了大数据分析的突破口.科学数据的演变是一个从简单到复杂的各种形式不断丰富、相互包容的过程,是一个循序渐进的过程,而不是简单的由一种形式取代另一种形式.研究科学数据的统计学理论也是一样,也是由简单到复杂的各种形式相互包容、不断丰富的发展过程,而绝不是否定一种理论、由另一种理论形式所代替.大数据时代的到来统计学理论必须要进行不断的完善和发展,以适应呈指数增长的数据量的大数据分析的需要.
3.3如何构建大数据时代下统计结果的评价标准框架
大数据时代下,统计分析评价的标准又该如何变化?传统统计分析的评价标准有两个方面,一是性评价,二是有效性评价,然而这两种评价标准都因抽样而生.性评价是指用样本去推断总体有多大的把握程度,一般用概率来衡量.性评价有时表现为置信水平,有时表现为显著性水平[8].怎么确定显著性水平一直是个存在争议的问题,特别是在模型拟合度评价和假设检验中,因为各自参照的分布类型不一样,其统计量就不一样,显著性评价的临界值也就不一样,可是临界值又与显著性水平的高低直接相关.而大数据在一定程度上是全体数据,因此不存在以样本推断总体的问题,那么在这种情况下,置信水平、性问题怎么确定?依据是什么?有效性评价指的是真实性,即为误差的大小,它与性、性有关.通常性是指观察值与真实值的吻合程度,一般是无法衡量的,而性用抽样分布的标准差来衡量.显然,性是针对样本数据而言的,也就是说样本数据有性问题,同时也有性问题.抽样误差和非抽样误差都可能存在于样本数据中,抽样误差可以计算和控制,但是非抽样误差只能通过各种方式加以识别或判断[910].大多数情况下,对于样本量不是太大的样本,非抽样误差可以得到较好的防范,然而对于大数据的全体数据而言,没有抽样误差问题,只有非抽样误差问题,也就是说大数据的真实性只表现为性.但是由于大数据特有的种种特性,使得大数据的非抽样误差很难进行防范、控制,也很难对其进行性评价.总之,对于大数据分析来说,有些统计分析理论是否还有意义,确切说有哪些统计学中的理论可以适用于大数据分析,而哪些统计学中的理论需要改进,哪些统计学中的理论已不再适用于大数据统计研究,等等,都有待于研究.所以大数据时代的统计学必是在继承中求改进,改进中求发展,重构适应大数据时代的新统计学理论.
4结论
来自于社会各种数据源的数据量呈指数增长,大数据对社会发展的推动力呈指数效应,大数据已是生命活动的主要承载者.一个新事物的出现,必然导致传统观念和传统技术的变革.对传统统计学来说,大数据时代的到来无疑是一个挑战,虽然传统统计学必须做出改变,但是占据主导地位的依然会是统计学,它会引领人类合理分析利用大数据资源.大数据给统计学带来了机遇和挑战,统计学家们应该积极学习新事物,适应新环境,努力为大数据时代创造出新的统计方法,扩大统计学的应用范围.
作者:岳晓宁;丁宇 单位:沈阳大学
统计学数据论文:数据科学的统计学内涵探讨
一、统计学视角下的数据科学
统计学研究的对象是数据,数据科学顾名思义也是以数据为研究对象,这产生一种直观的错觉,似乎数据科学与统计学之间存在某种与生俱来的渊源关系。Wu(1998)直言不讳,数据科学就是统计学的重命名,相应地,数据科学家替代了统计学家这个称谓。若此,那是什么促成了这种名义上的替代?显然仅仅因为数据量大本身并不足以促成“统计学”向“数据科学”的转变,数据挖掘、机器学习这些概念似乎就已经足够了。问题的关键在于,二者所指的“数据”并非同一概念,数据②本身是一个很宽泛的概念,只要是对客观事物记录下来的、可以鉴别的符号都可以称之为数据,包括数字、文字、音频、视频等等。统计学研究的数据虽然类型丰富,如类别数据、有序数据等定性数据,定距数据、定比数据等定量数据,但这些都是结构化数据;数据科学所谓的数据则更为宽泛,不仅包括这些传统的结构型数据,而且还包括文本、图像、视频、音频、网络日志等非结构型和半结构型数据,即,大数据。大数据(以半/非结构型数据为主)使基于关系型数据库的传统分析工具很难发挥作用,或者说传统的数据库和统计分析方法很难在可容忍的时间范围内完成存储、管理和分析等一系列数据处理过程,为了有效地处理这类数据,需要一种新的范式———数据科学。真正意义上的现代统计学是从处理小数据、不的实验等这类现实问题发展起来的,而数据科学是因为处理大数据这类现实问题而兴起的。因此数据科学的研究对象是大数据,而统计学以结构型数据为研究对象。退一步,单从数量级来讲,也已发生了质变。对于结构化的大规模数据,传统的方法只是理论上的(可行性)或不经济的(有效性),实践中还需要借助数据挖掘、机器学习、并行处理技术等现代计算技术才能实现。
二、数据科学的统计学内涵
(一)理论基础
数据科学中的数据处理和分析方法是在不同学科领域中分别发展起来的,譬如,统计学、统计学习或称统计机器学习、数据挖掘、应用数学、数据密集型计算、密集计算方法等。在量化分析的浪潮下甚至出现了“metric+模式”,如计量经济学、文献计量学、网络计量学、生物统计学等。因此,有学者将数据科学定义为计算机科学技术、数学与统计学知识、专业应用知识三者的交集,这意味着数据科学是一门新兴的交叉学科。但是这种没有侧重的叠加似乎只是罗列了数据科学所涉及到的学科知识,并没有进行实质性的分析,就好似任何现实活动都可以拆解为不同的细分学科,这是必然的。根据Naur(1960,1974)的观点,数据科学或称数据学是计算机科学的一个替代性称谓。但是这种字面上的转换,并没有作为一个独立的学科而形成。Cleveland(2001)首次将数据科学作为一个独立的学科提出时,将数据科学表述为统计学加上它在计算技术方面的扩展。这种观点表明,数据科学的理论基础是统计学,数据科学可以看作是统计学在研究范围(对象)和分析方法上不断扩展的结果。一如统计学最初只是作为征兵、征税等行政管理的附属活动,而现在包括了范围更广泛的理论和方法。从研究范围的扩展来看,是从最初的结构型大规模数据(登记数据),到结构型的小规模数据(抽样数据)、结构型的大规模数据(微观数据),再扩展到现在的非(半)结构型的大规模数据(大数据)和关系数据等类型更为丰富的数据。从分析方法的扩展来看,是从参数方法到非参数方法,从基于模型到基于算法,一方面传统的统计模型需要向更一般的数据概念延伸;另一方面,算法(计算机实现)成为必要的“可行性分析”,而且在很多方面算法模型的优势越来越突出。注意到,数据分析有验证性的数据分析和探索性的数据分析两个基本取向,但不论是哪一种取向,都有一个基本的前提假设,就是观测数据是由背后的一个(随机)模型生成,因此数据分析的基本问题就是找出这个(随机)模型。Tukey(1980,2000)明确提到,EDA和CDA并不是替代关系,两者皆必不可少,强调EDA是因为它被低估了。数据导向是计算机时代统计学发展的方向,这一观点已被越来越多的统计学家所认同。但是数据导向仍然有基于模型与基于算法两种声音,其中,前文提到的EDA和CDA都属于基于模型的方法,它们都假定数据背后存在某种生成机制;而算法模型则认为复杂的现实世界无法用数学公式来刻画,即,不设置具体的数学模型,同时对数据也不做相应的限制性假定。算法模型自20世纪80年代中期以来随着计算机技术的迅猛发展而得到快速成长,然而很大程度上是在统计学这个领域之外“悄然”进行的,比如人工神经网络、支持向量机、决策树、随机森林等机器学习和数据挖掘方法。若响应变量记为y,预测变量记为x,扰动项和参数分别记为ε和β,则基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y与x之间的关系并对y做出预测,其中,f是一个有显式表达的函数形式(若f先验假定,则对应CDA;若f是探索得到的,则对应EDA),比如线性回归、Logistic回归、Cox回归等。可见,传统建模的基本观点是,不仅要得到正确的模型———可解释性强,而且要得到的模型———外推预测能力强。而对于现实中复杂的、高维的、非线性的数据集,更切合实际的做法是直接去寻找一个恰当的预测规则(算法模型),不过代价是可解释性较弱,但是算法模型的计算效率和可扩展性更强。基于算法的基本形式类似于非参数方法y=f(x,ε),但是比非参数方法的要求更低yx,因为非参数方法很多时候要求f或其一阶导数是平滑的,而这里直接跳过了函数机制的探讨,寻找的只是一个预测规则(后续的检验也是基于预测构造的)。在很多应用场合,算法模型得到的是针对具体问题的解(譬如某些参数是被当作一个确定的值通过优化算法得到的),并不是统计意义上的推断解。
(二)技术维度
数据科学是基于数据的决策,数据分析的本质既不是数学,也不是软件程序,而是对数据的“阅读”和“理解”。技术只是辅助数据理解的工具,一个毫无统计学知识的人应用统计软件也可以得到统计结果,但无论其过程还是结果都是可疑的,对统计结果的解释也无法令人信服。“从计算机科学自身来看,这些应用领域提供的主要研究对象就是数据。虽然计算机科学一贯重视数据的研究,但数据在其中的地位将会得到更进一步的加强”。不可否认,统计分析逐渐向计算机科学技术靠近的趋势是明显的。这一方面是因为,数据量快速膨胀,数据来源、类型和结构越来越复杂,迫切需要开发更高效率的存储和分析工具,可以很好地适应数据量的快速膨胀;另一方面,计算机科学技术的迅猛发展为新方法的实现提供了重要的支撑。对于大数据而言,大数据分析丢不掉计算机科学这个属性的一个重要原因还不单纯是因为需要统计软件来协助基本的统计分析和计算,而是大数据并不能像早先在关系型数据库中的数据那样可以直接用于统计分析。事实上,面对越来越庞杂的数据,核心的统计方法并没有实质性的改变,改变的只是实现它的算法。因此,从某种程度上来讲,大数据考验的并不是统计学的方法论,而是计算机科学技术和算法的适应性。譬如大数据的存储、管理以及分析架构,这些都是技术上的应对,是如何实现统计分析的辅助工具,核心的数据分析逻辑并没有实质性的改变。因此,就目前而言,大数据分析的关键是计算机技术如何更新升级来适应这种变革,以便可以像从前一样满足统计分析的需要。
(三)应用维度
在商业应用领域,数据科学被定义为,将数据转化为有价值的商业信息①的完整过程。数据科学家要同时具备数据分析技术和商业敏感性等综合技能。换句话说,数据科学家不仅要了解数据的来源、类型和存储调用方式,而且还要知晓如何选择相应的分析方法,同时对分析结果也能做出切合实际的解释②。这实际上提出了两个层面的要求:①长期目标是数据科学家从一开始就应该熟悉整个数据分析流程,而不是数据库、统计学、机器学习、经济学、商业分析等片段化碎片化的知识。②短期目标实际上是一个“二级定义”,即,鼓励已经在专业领域内有所成就的统计学家、程序员、商业分析师相互学习。在提及数据科学的相关文献中,对应用领域有更多的倾向;数据科学与统计学、数学等其他学科的区别恰在于其更倾向于实际应用。甚至有观点认为,数据科学是为应对大数据现象而专门设定的一个“职业”。其中,商业敏感性是数据科学家区别于一般统计人员的基本素质。对数据的简单收集和报告不是数据科学的要义,数据科学强调对数据多角度的理解,以及如何就大数据提出相关的问题(很多重要的问题,我们非但不知道答案而且不知道问题何在以及如何发问)。同时数据科学家要有良好的表达能力,能将数据中所发现的事实清楚地表达给相关部门以便实现有效协作。从商业应用和服务社会的角度来看,强调应用这个维度无可厚非,因为此处是数据产生的土壤,符合数据科学数据导向的理念,数据分析的目的很大程度上也是为了增进商业理解,而且包括数据科学家、首席信息官这些提法也都肇始于实务部门。不过,早在20世纪90年代中期,已故图灵奖得主格雷(JimGray)就已经意识到,数据库技术的下一个“大数据”挑战将会来自科学领域而非商业领域(科学研究领域成为产生大数据的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作为专题(封面)探讨了环境科学、生物医药、互联网技术等领域所面临的大数据挑战。2011年2月11日,《科学》携其子刊《科学-信号传导》、《科学-转译医学》、《科学-职业》专门就日益增长的科学研究数据进行了广泛的讨论。格雷还进一步提出科学研究的“第四范式”是数据(数据密集型科学),不同于实验、理论、和计算这三种范式,在该范式下,需要“将计算用于数据,而非将数据用于计算”。这种观点实际上是将数据从计算科学中单独区别开来了。
三、数据科学范式对统计分析过程的直接影响
以前所谓的大规模数据都是封闭于一个机构内的(数据孤岛),而大数据注重的是数据集间的关联关系,也可以说大数据让孤立的数据形成了新的联系,是一种整体的、系统的观念。从这个层面来说,将大数据称为“大融合数据”或许更为恰当。事实上,孤立的大数据,其价值十分有限,大数据的革新恰在于它与传统数据的结合、线上和线下数据的结合,当放到更大的环境中所产生的“1+1>2”的价值。譬如消费行为记录与企业生产数据结合,移动通讯基站定位数据用于优化城市交通设计,微博和社交网络数据用于购物推荐,搜索数据用于流感预测、利用社交媒体数据监测食品价等等。特别是数据集之间建立的均衡关系,一方面无形中增强了对数据质量的监督和约束;另一方面,为过去难以统计的指标和变量提供了另辟蹊径的思路。从统计学的角度来看,数据科学(大数据)对统计分析过程的各个环节(数据收集、整理、分析、评价、等)都提出了挑战,其中,集中表现在数据收集和数据分析这两个方面。
(一)数据收集方面
在统计学被作为一个独立的学科分离出来之前(1900年前),统计学家们就已经开始处理大规模数据了,但是这个时期主要是全国范围的普查登记造册,至多是一些简单的汇总和比较。之后(1920-1960年)的焦点逐渐缩聚在小规模数据(样本),大部分经典的统计方法(统计推断)以及现代意义上的统计调查(抽样调查)正是在这个时期产生。随后的45年里,统计方法因广泛的应用而得到快速发展。变革再次来自于统计分析的初始环节———数据收集方式的转变:传统的统计调查方法通常是经过设计的、系统收集的,而大数据是零散实录的、有机的,这些数据通常是用户使用电子数码产品的副产品或用户自行产生的内容,比如社交媒体数据、搜索记录、网络日志等数据流等,而且数据随时都在增加(数据集是动态的)。与以往大规模数据不同的是,数据来源和类型更加丰富,数据库间的关联性也得到了前所未有的重视(大数据的组织形式是数据网络),问题也变得更加复杂。随着移动电话和网络的逐渐渗透,固定电话不再是识别住户的有效工具变量,相应的无回答率也在增加(移动电话的拒访率一般高于固定电话),同时统计调查的成本在增加,人口的流动性在增加,隐私意识以及法律对隐私的保护日益趋紧,涉及个人信息的数据从常规调查中越来越难以取得(从各国的经验来看,拒访率或无回答率的趋势是增加的),对时效性的要求也越来越高。因此,官方统计的数据来源已经无法局限于传统的统计调查,迫切需要整合部门行政记录数据、商业记录数据、个人行为记录数据等多渠道数据源,与部门和搜索引擎服务商展开更广泛的合作。
(二)数据分析方面
现代统计分析方法的核心是抽样推断(参数估计和假设检验),然而数据收集方式的改变直接淡化了样本的意义。比如基于浏览和偏好数据构建的推荐算法,诚然改进算法可以改善推荐效果,但是增加数据同样可以达到相同的目的,甚至效果更好。即所谓的“大量的数据胜于好的算法”这与统计学的关键定律(大数定律和中心极限定理)是一致的。同样,在大数据分析中,可以用数量来产生质量,而不再需要用样本来推断总体。事实上,在某些场合(比如社会网络数据),抽样本身是困难的。数据导向的、基于算法的数据分析方法成为计算机时代统计学发展无法回避的一个重要趋势。算法模型不仅对数据分布结构有更少的限制性假定,而且在计算效率上有很大的优势。特别是一些积极的开源软件的支撑,以及天生与计算机的相容性,使算法模型越来越受到学界的广泛重视。大数据分析首先涉及到存储、传输等大数据管理方面的问题。仅从数量上来看,信息爆炸、数据过剩、数据泛滥、数据坟墓、丰富的数据贫乏的知识……这些词组表达的主要是我们匮乏的、捉襟见肘的存储能力,同时,存储数据中有利用价值的部分却少之又少或尘封窖藏难以被发现。这除了对开采工具的渴求,当时的情绪主要还是迁怨于盲目的记录,把过多精力放在捕捉和存储外在信息。在这种情况下,开采有用的知识等价于抛弃无用的数据。然而,大数据时代的思路改变了,开始变本加厉巨细靡遗地记录一切可以记录的数据。因为:数据再怎么抛弃还是会越来越多。我们不能通过删减数据来适应自己的无能,为自己不愿做出改变找借口,而是应该面对现实,提高处理海量数据的能力。退一步,该删除哪些数据呢?当前无用的数据将来也无用吗?显然删除数据的成本要大于存储的成本。大数据存储目前广泛应用的是GFS、HDFS等基于计算机群组的文件系统,它可以通过简单增加计算机来无限地扩充存储能力。值得注意的是,分布式文件系统存储的数据仅仅是整个架构中最基础的描述,是为其他部件服务的(比如MapReduce),并不能直接用于统计分析。而NoSQL这类分布式存储系统可以实现高级查询语言,事实上,有些RDBMS开始借鉴MapReduce的一些思路,而基于MapReduce的高级查询语言也使MapReduce更接近传统的数据库编程,二者的差异将变得越来越模糊。大数据分析的可行性问题指的是,数据量可能大到已经超过了目前的存储能力,或者尽管没有大到无法存储,但是如果算法对内存和处理器要求很高,那么数据相对也就“大”了。换句话说,可行性问题主要是,数据量太大了,或者算法的复杂度太高。大数据分析的有效性问题指的是,尽管目前的硬件条件允许,但是耗时太久,无法在可容忍的或者说可以接受的时间范围内完成。目前对有效性的解决办法是采用并行处理。注意到,高性能计算和网格计算也是并行处理,但是对于大数据而言,由于很多节点需要访问大量数据,因此很多计算节点会因为网络带宽的限制而不得不空闲等待。而MapReduce会尽量在计算节点上存储数据,以实现数据的本地快速访问。因此,数据本地化是MapReduce的核心特征。
四、结论
(一)数据科学不能简单地理解为统计学的重命名,二者所指“数据”并非同一概念,前者更为宽泛,不仅包括结构型数据,而且还包括文本、图像、视频、音频、网络日志等非结构型和半结构型数据;同时,数量级也是后者难以企及的(PB以上)。但是数据科学的理论基础是统计学,数据科学可以看作是统计学在研究范围(对象)和分析方法上不断扩展的结果,特别是数据导向的、基于算法的数据分析方法越来越受到学界的广泛重视。
(二)从某种程度上来讲,大数据考验的并不是统计学的方法论,而是计算机科学技术和算法的适应性。譬如大数据的存储、管理以及分析架构,这些都是技术上的应对,核心的数据分析逻辑并没有实质性的改变。因此,大数据分析的关键是计算机技术如何更新升级以适应这种变革,以便可以像从前一样满足统计分析的需要。
(三)大数据问题很大程度上来自于商业领域,受商业利益驱动,因此数据科学还被普遍定义为,将数据转化为有价值的商业信息的完整过程。这种强调应用维度的观点无可厚非,因为此处是数据产生的土壤,符合数据科学数据导向的理念。不过,早在20世纪90年代中期,已故图灵奖得主格雷就已经意识到,数据库技术的下一个“大数据”挑战将会来自科学领域而非商业领域(科学研究领域成为产生大数据的重要土壤)。他提出科学研究的“第四范式”是数据,不同于实验、理论、和计算这三种范式,在该范式下,需要“将计算用于数据,而非将数据用于计算”。这种观点实际上将数据从计算科学中单独区别开了。
(四)数据科学范式对统计分析过程的各个环节都提出了挑战,集中表现在数据收集和数据分析这两个方面。数据收集不再是刻意的、经过设计的,而更多的是用户使用电子数码产品的副产品或用户自行产生的内容,这种改变的直接影响是淡化了样本的意义,同时增进了数据的客观性。事实上,在某些场合(比如社会网络数据),抽样本身是困难的。数据的存储和分析也不再一味地依赖于高性能计算机,而是转向由中低端设备构成的大规模群组并行处理,采用横向扩展的方式。
(五)目前关于大数据和数据科学的讨论多集中于软硬件架构(IT视角)和商业领域(应用视角),统计学的视角似乎被边缘化了,比如覆盖面、代表性等问题。统计学以数据为研究对象,它对大数据分析的影响也是显而易见的,特别是天然的或潜在的平衡或相关关系不仅约束了数据质量,而且为统计推断和预测开辟了新的视野。
作者:魏瑾瑞蒋萍
统计学数据论文:大数据环境下统计学改革探讨
摘要:进年来,随着科学技术的不断创新,信息技术的不断发展,人类文明已经迎来了大数据时代,随之而来的必将是经济的不断攀升,企业运行模式的不断转型,人们生活方式的不断改变,社会整体经济以及人们生活方式也将朝着多元化、便捷化、科技化、舒适化方向发展,所以,这将是一个具有潜力的新型产业,而与之对应的统计学也将顺势而行,迎来新的改革,基于在大数据环境下统计学理论及方法改革探究,笔者进行简单阐述与研究。
关键词:大数据:统计学理论:创新应用
顾名思义,统计学几乎是对所有领域的数据进行统计与研究、分析筛选,因而统计学在如今的大数据时代几乎涉及到各行各业,其表现方式为,统计出来的数据进行科学的研究与分析,可以有效的帮着企业获取有效信息,探索其中数量规律行,进而企业可以更高效、更精准的进行工作。而如今随着现代信息技术以及数字科学技术的不断发展,统计学也得到了更多的应用,也被人们更加重视,应用最多的为企业管理系统中,统计学中的理论及其分析方式帮助企业进行对数据数量规律性的探以及定性分析,为企业寻找自身的管理经营的基础进行有效地夯实,奠定企业向更加稳定方向进行发展。而如今计算机软件的不断发展与更新,大数据时代的到来,统计学的应用也会得到更为广泛的发展,其中有政府和企业利用计算机对相关数据的采集、整理、统计进行综合的分析。统计学相关的软件开发商也将软件设计的更为简易化、便捷化,使得非统计学专业的人员也可以使用。当今社会经济高速发展,统计学的应用及其发展趋势将会迎合时代的到来进行改革改变,促进社会经济的快速提高。
一、大数据时代的内涵及其意义
(一)大数据时代的内涵
大数据是指在一定时间内对信息的捕捉、管理、处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力、流程优化能力的海量、高增长率和多样化的信息资产。针对这些信息资产,利用统计学原理对其进行数据分析、提炼、分解。也可以从另一个方面理解大数据,它涉及各行各业,是多个领域数据的集中区域,涉及到的有自然科学、人文科学、社会经济学等等相关的混合数据,它们之间相互参杂,互相融合,形成非常庞大的数据系统。目前传统统计学中的统计方法是分析单个计算机系统的数据储备,无法分析多台计算机的数据,在数据统计中产生了局限性、单一性、不稳定性和客观性等,但是目前大数据时代的到来,改变了如今这一现象,改变了大数据环境下数据流、磁盘存储、分布存储、多线条等环境。大数据环境主要起到的作用为,将庞大而复杂的数据进行转换,转换成为简单易懂、显而易见的内容,进而使工作人员对数据进行源头和机制的追述,从而研究出适合自身并有效的应对策略。因将数据转换成需要的知识需要相对缓慢的时间,所以工作人员将当前庞大复杂的数据分别存放在不同的储备空间里,有些工作人员将目前无法分析的或是不需要的数据进行整体精准的记录储存,记录成一整套的数据发展史,已供日后应用,以备不时之需,为今后科研做出充分准备。
(二)大数据时代给社会带来的改革
大数据在一夜之间成为各大互联网上的讨论话题,成为一个包含性非常强的概念,大数据时代也成为人们关注的话题,它的到来已然成为不争的事实,从本质上来看,它是当今中新型的产业,通过对海量的数据进行统计分析追踪发现庞大的市场,通过对人们行为喜好进行科学分析,获取营销手段。大数据使得广告投放精准化、医疗卫生体系精密化、社会安全管理有序化等多方面优势,同时大数据时代的到来随着带来了新的新业市场,大数据将为全球带来440万个IT岗位和上千万个非IT岗位,提供了更多的就业岗位。大数据时代到来的变革之大,影响着人们传统的工作方式,各行各业的人利用研究问题来驱动收据数据,然后再利用收集来的数据进行分析,从而解决问题,从这一行为来讲,人们会慢慢适应通过大数据进行统计学的研究分析来解决问题,利用通过统计学理论开发的软件搜索、分析一些研究性成果。目前统计学家通过数据的收集、数据的处理以及个人分析能力进行科学探索,如今大数据的到来将会威胁的他们的领域,大数据将我们难以理解的内容翻译成我们一看便知的统计成果,优化了人们工作的便捷性、舒适性等。
二、大数据时代统计学的发展研究
大数据发展如今,渗透社会的各个角落,分析大数据需要多个领域的结合,它并非单一的科学领域,自成一体,现如今的统计学家不仅需要研究探讨计算机对数据的实时决策,更是要将其与统计学理论及其方法相互结合,同时,计算机专家也要不断学习统计学的一些知识,统计学与大数据相互结合才能顺应时代的发展。获取大数据之后,研究探讨大数据时,针对数据分析的高难问题,利用统计学原理对其进行数据分析、提炼、分解时,需创新出新的更便捷更高效的统计处理方法,在压缩提炼过程中,解决数据混杂的问题,在分解数据中,解决精准问题,使得大数据与统计理论更好的沟通合作,构造全局统计结果。统计学主要是对海量的数据进行整理分类,结合计算机进行科学分析,探究出数据的数量规律性,从而得出结论,由于目前统计学中的统计学理论和统计方法与时代稍有差距,如今更是大数据时代,而大数据随机或非随机的误差比较大,所以传统的统计学理论及方法无法满足如今变革,也无法更好的获取大数据背景下所带来的各种机遇。现在的统计学家应该更加努力专研统计学理论以及对数据压缩、分解的方法,舍弃无法适应当前时代的陈旧理论及方法,必须去学习如何迎合新的事物的到来进行改革改变,只有这样才能顺势而行。
作者:宋瑞雪 周晏羽 黄扬艺 单位:沈阳理工大学
统计学数据论文:大数据时代下统计学面临的挑战及建议
摘要:传统的统计学是因数据而生的,也是以研究数据为根本目的,传统统计学有其独特的数据收集、整理与分析的方法体系,也确实为我们研究数据带来了便利,但是不得不思考的是在数据爆炸的信息时代,尤其是“大数据”概念产生以后,传统的统计学如果不改变,又将如何应对大数据分析带来的挑战,该文将从零售行业的角度分析大数据为传统统计学带来的诸多挑战。
关键词:总体数据;相关性;个性化营销;定制服务
随着科技的发展,大数据已经成为信息时代的一场技术革命。大数据是指传统数据库管理工具难以处理的大量的、多样化的数据。当前普遍认为大数据有3个特点:及时,数据量非常大;第二,数据增长速度非常快;第三,数据类型越来越多样化[1]。零售业作为传统的线下实体经营行业,积累了大量的消费者以及管理层的数据,如果依靠传统的统计学模型对这些数据进行分析,很难得出可以用于企业经营管理的有效信息,加上年轻一代消费者越来越追求个性化,所以传统统计学所采用的根据部分样本推断总体的分析方法已经无法满足市场的个性化需求,因此,传统统计学要想跟上时展的步伐,就必须做出与之相适应的改变。
1零售行业里大数据与传统统计学的区别
维克多•迈克尔在《大数据时代》一书中提出了大数据思维的3个最显著的变化:一是样本等于总体。这与过去基于样本进行统计分析的思维截然不同;二是不再追求性。在大数据中往往存在“噪音”和罕见事件,这样的数据影响了结果的性;三是相关分析比因果分析更重要,在大数据时代我们将注意力更多地放在“是什么”而不是“为什么”[2]。大数据的以上特性在零售行业同样适用,零售行业的大数据与传统统计学的区别有以下3点。及时,大数据收集总体数据,而传统统计学多采用抽样的方式收集部分数据。传统统计学在做统计分析时首先针对某一个问题提出假设,然后确定需要调查对象的总体,由于数据采集存在一定的难度,所以统计分析采取从总体中随机抽样选取一部分数据作为分析的对象,如此的话对随机抽样的方法与数据采集的性要求是非常高的。而大数据收集的是数据“总体”,在进行分析的时候不会人为进行假设,排除了人的干扰因素,仅仅从数据本身出发进行数据分析。在零售行业如果能运用大数据思维分析数据,从产生数据的顾客行为本身出发,针对不同顾客做出个性化营销,而不是人为假设的话,管理层就可以根据数据进行预测,避免了主观的经验与直觉的判断。沃尔玛作为零售行业的巨头,运用大数据分析得出的著名的啤酒与尿布理论可以证明这一点。第二,大数据注重个体行为的研究,统计学用样本数据推断总体行为。传统的统计学采用抽样调查的方式对样本数据进行分析,用样本推断总体,那些在图表上反映出来的异常数据被排除在外。大数据包容一切数据,其中包括各种结构化、半结构化、非结构化甚至是异构数据。对于零售行业而言,顾客的总体行为表现是没有意义的,因为每个顾客的需求不同,在不同的时间和地点需要的商品都不同,只有根据每位顾客的不同行为进行个性化服务才能让线下的零售行业有优势可言。美国品质连锁百货Nordstorm最近开始采用线下实体店客流分析服务供应商EuclidAnalytics公司的客流监测解决方案EuclidZero,基于用户连接Wifi行为来获取店内顾客手机的Mac物理地址并进行线下追踪,由此可以通过单个顾客在百货店里的行动路线和滞留时间,从而用于改善商品罗列与室内动线以及顾客个性化偏好与推荐服务[3]。第三,大数据注重数据之间的相关性,而传统统计学更加关注数据分析的结果。从社会发展的角度来看,大数据对数据的关联性分析更有助于零售行业管理层做出决策。对于传统零售行业而言,线下的用户体验是非常重要的,如果能根据用户行为数据分析出哪些商品放在一起能促进购买力,那么零售行业将会有更大的利润空间,相比之下,统计学进行的结果分析显得没有那么重要。
2大数据在零售行业的优势
迈克尔•舍恩伯格说:大数据发展的核心动力就是人类测量、记录和分析数据的渴望。及时,大数据收集的数据是多样化的、非标准化的,而统计学收集的数据都是标准化、结构化的,统计学无法对非结构化的数据进行分析与测量。但是在零售行业仅仅对标准化的数据进行分析做出的判断已无法满足行业的需求,通过对用户在商品前滞留的时间以及与货架上商品的互动行为产生的数据进行分析,从而调整货架的位置才是主流。第二,大数据可以实时、快速监测与收集数据,而统计学收集数据时间长、难度高。大数据收集与处理数据的能力对于零售行业的供应链管理十分有效。零售市场可以利用大数据对库存和员工行为进行监测,从而为管理层做决策提供依据。沃尔玛为了提高大数据成果在不同部门之间的高效利用,并增加存货管理和供应链管理的投入回报率,其开发了RetialLink工具。供应商使用该工具可以预先知道不同店铺商品销售和库存情况,从而能够在沃尔玛发出指令前自行补货,极大地减少商品断货,提高供应链的库存水平[4]。
3传统统计学面对大数据挑战要做出改变
大数据的出现给我们的生活带来了巨大的改变,甚至不同国家的政府都将大数据作为国家的战略资源。相比之下,传统统计学面临着大数据的巨大挑战,如果能根据自身优势做出改变,传统统计学仍然具有存在的价值。及时,改变数据的收集方式。统计学收集数据时前期要做大量的准备工作,需要耗费大量的人力物力成本,所以想要更加高效收集数据,就必须做出改变。由于大数据是基于互联网收集数据的,所以对于不使用互联网的地区和群体来说,大数据就显得很无力,而传统统计学可以在此基础上发挥自身优势,在以往的数据收集方式上进行创新。第二,传统统计学在数据的分析思维上也要进行改变。传统统计学不光要打破只能分析标准化数据的魔咒,更要着重分析问题的本质,而不是一味注重结果分析,虽然“是什么”很重要,但是一直以来探寻事物内在本质才是不断推动人类社会进步的动力所在,所以统计学也要学会知道“为什么”。
4结语
信息技术的发展是无法想象的,我们无法通过今天来预测未来10年信息行业的发展。只有追上时代的脚步,做出顺应时代潮流的改变,才能免遭淘汰,对于传统统计学也是一样,停留在原地不动是不明智的,改变才是世界的本质。而所有技术的变革都将反馈给人类的生活,让人们和社会从中受益。
作者:吴兴蔚 单位:河北省张家口市蔚县及时中学
统计学数据论文:大数据时代统计学面临机遇与挑战
摘要:作为与数据紧密相关的统计学学科,在大数据的时代背景下,当今数据的获取和规模发生了根本的变化,统计学面临着新的机遇和挑战,需要在方法论上有所突破,研究统计学在大数据时代的发展趋势有着十分重要的时代意义。
关键词:大数据;统计学;样本;机遇;挑战
21世纪爆发的信息技术革命,改变了社会发展过程中的方方面面。在云技术、物联网技术等高科技信息技术的大规模革新背景下,网络数据增长速率十分惊人,海量庞大的数据标志着大数据时代的来临。作为与数据紧密相关的统计学学科,在大数据的时代背景下,将会面临一系列的机遇和挑战,研究统计学在大数据时代的发展趋势有着十分重要的时代意义。
1.大数据时代统计学面临的挑战
统计学是一门传统的学科,发展至今已经有几千年历史,无论是学科理论领域内还是生产实践过程中,统计学的发展已经十分成熟,存在着许多成熟的研究成果。统计学的不断发展为人类的社会生产带来了极大的影响,随着大数据时代数据呈现海量、分散式的分布状态,其对统计学的影响也是较为明显的。一方面,大数据时代数据之“大”已经超出人们的想象,数据之“全”让人们对于事情的认知更加,大数据的多样性、大体量改变了数据样本与总体之间的关系,另一方面,大数据的数据多样性的特点改变了传统统计对数据统计分析的主观诉求,过去人们通过统计分析更偏向于追求“为什么”,而现在的统计分析更趋同与追求“是什么”。这一系列的影响对于统计学的进一步发展提出了新的发展挑战:
1.1样本选取以及标准的确定难度加大
样本统计属于统计学的核心内容,统计学通过样本统计对客观事物数量特点、数量关系等展开研究。在大数据背景下,样本与总体之间的局部与整体之间的关联性将会进一步地降低,造成样本即是总体的变化趋势,因而会造成大样本的标准化的变更。数据来源的多样化进一步的提升了样本数量,继而提升了统计度,促进了统计学学科的高精尖的发展。但随着样本数量越来越多,而从网络环境中采集到的数据多半属于非结构化的数据,但传统统计学要求结构化数据,利用传统的关系数据库难以对非结构数据进行有效的转换,难以挖掘大数据大样本数据中的潜在信息。大数据时代统计样本的选取工作难度不断提升,传统统计学缺乏非结构数据的建设,难以发挥出大数据时代,大数据库有效转换非结构与结构数据的优势,也为统计学的进一步发展提出了新的挑战。
1.2统计软件以及统计方法的欠缺
随着信息计算机技术的快速发展,基于计算机运算环境的统计学软件应运而生,统计学软件的使用有效提升了统计学中对数据分析和处理的效率和精准率,统计模型也进一步的简化了统计的实际操作,更有利于一般性的统计工作的实践操作。大数据背景下,现阶段发展较为成熟的统计学软件如SPSS、DPS等,尚不能够实现大数据高速传输、存储功能,软件功能还需要一定的开发和升级。与此同时,数据在大数据时代下属于一项资本,其被开发的水平还略显不足,绝大多数被互联网、搜索引擎以及电子商务等相关IT公司、统计机构所掌握。
2.大数据时代统计学面临的机遇
2.1统计效率的提升
在大数据时代,统计学的统计效率得到了更好的体现。一方面,大数据的多样化、及时性特征能够有效弥补传统统计中数据的滞后性问题,有效的提升了统计的时效性,另一方面,大数据的高速传输为统计的动态数据的收集提供了保障。与此同时,大数据可被频繁反复应用,采集的统计数据不再单单局限于一种相关用途,其能够服务于各式各样的需求。对采集数据应用的次数逐步增多,数据所具备的潜在价值被更的挖掘,而采集数据所产生的成本并不会受数据应用的次数所影响,故各式各样用途的平均统计成本将得到显著地降低。
2.2统计学科体系的新延伸
大数据引入到统计学科之中,庞大的数据使得样本的选取、标准划分都产生了新的变化,传统统计中的样本统计将会进一步的朝向总体统计的方向发展,一并囊括总体统计、样本统计的统计学科体系,能够有效消除总体统计的数据采集难度,弥补样本统计的数据采集不足,达到有效延伸统计学科体系的目的。
2.3统计学科的应用范围扩大
传统的统计学实践是为了去了解一个结果或者一个原因,但基于大数据的统计学科将向人们展示的是一个具体的过程。从前,人们习惯于根据“研究问题”来驱动“收集数据”。今后,大数据到处可得,人们将会用“数据”驱动“研究问题”而这种功能性的还变,促进了统计学应用范围的进一步扩大,例如传统的统计学往往被用来作为一个数学形式的参考信息,例如卫生统计、生产统计等等,但在大数据背景下,数据本身所含有的信息更加丰富化和多元化,基于海量用户下的网络数据所包含的信息极为广阔,而这些信息涉及到他们生活中的方方面面,这些信息一旦被深入挖掘出来,将会促进许多产业的快速发展。在大数据背景下,传统统计学的结构化数据局限会逐步接触,在非结构或者半结构的数据统计下,统计学将会应用到许多传统意义上无法数据化的行业领域中。
3结束语
数据是统计学科的核心,也是统计学科的主要价值体现。大数据时代改变了传统的数据的意义,数据所包含的信息、传播速度、分布速度也远远超出了我们的想象,数据核心意义的转变,迫使得以此为基础的统计学科必然会随之做出改变。机遇与挑战并存,在新的时期,统计学要想快速完成其学科的有效转换,就必须要进一步的深入研究大数据的时代特征,并有效地与传统统计学结合起来,以达成统计学科的进一步发展。
作者:郑雅倩 单位:海南师范大学数学与统计学院
统计学数据论文:数据挖掘与统计学的比较分析
摘要:数据挖掘来源于统计分析,而又不同于统计分析。数据挖掘不是为了替代传统的统计分析技术,相反,数据挖掘是统计分析方法的扩展和延伸。
关键词:数据挖掘;统计学;比较
随着科学技术的发展,利用数据库技术来存储管理数据,利用机器学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识。这种思想的结合形成了现在深受人们关注的非常热门的研究领域:数据库中的知识发现――KDD(Knowledge Discovery in Databases),其中,数据挖掘技术便是KDD中的一个最为关键的环节。
一、数据挖掘简介
(一)数据挖掘的含义和功能
数据挖掘―DM(Data Mining)就是从大量的、不的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一门交叉学科,它汇聚了数据库、人工智能、统计学、可视化、并行计算等不同学科和领域,近年来受到各界的广泛关注。
一般说来,数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。它强调对大量观测到的数据库的处理。它是涉及数据库管理、人工智能、机器学习、模式识别、及数据可视化等学科的边缘学科。
作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不的、有噪声的、随机的,有复杂的数据结构,维数大。,数据挖掘所采用的技术涉及到:数据库、人工智能、统计学、可视化、并行计算等不同学科和领域。
二、统计学的含义
统计学最初是作为一门实质性科学建立起来的,它从数量上研究某类具体的现象(如社会经济发展)的规律,但是,随着统计学研究范围的不断扩大以及统计方法在社会领域和自然领域内的有效应用,加之统计方法体系本身的不断发展和完善,使得统计学的研究对象也发生了变化。统计学已从实质性科学中分离出来,转而研究统计方法,成为一门方法论的科学。即统计学是研究如何搜集数据、整理数据和分析数据的一门方法论科学。
从本质上看,统计工作的核心就是数据(或者信息)的采集、分析和处理,正如的不列颠百科全书将统计定义为“statistics:the science of collecting,analyzing,presenting,and interpreting data”即“统计:收集、分析、表述和解释数据”
三、数据挖掘与统计学的比较
数据挖掘来源于统计分析,而又不同于统计分析。数据挖掘不是为了替代传统的统计分析技术,相反,数据挖掘是统计分析方法的扩展和延伸。大多数的统计分析技术都基于完善的数学理论和高超的技巧,其预测的程度还是令人满意的,但对于使用者的知识要求比较高。而随着计算机能力的不断发展,数据挖掘可以利用相对简单和固定程序完成同样的功能。新的计算算法的产生如神经网络、决策树使人们不需了解到其内部复杂的原理也可以通过这些方法获得良好的分析和预测效果。
由于数据挖掘和统计分析根深蒂固的联系,通常的数据挖掘工具都能够通过可选件或自身提供统计分析功能。这些功能对于数据挖掘的前期数据探索和数据挖掘之后对数据进行总结和分析都是十分必要的。统计分析所提供的诸如方差分析、假设检验、相关性分析、线性预测、时间序列分析等功能都有助于数据挖掘前期对数据进行探索,发现数据挖掘的题目、找出数据挖掘的目标、确定数据挖掘所需涉及的变量、对数据源进行抽样等等。所有这些前期工作对数据挖掘的效果产生重大影响。而数据挖掘的结果也需要统计分析的描述功能(较大值、最小值、平均值、方差、四分位、个数、概率分配)进行具体描述,使数据挖掘的结果能够被用户了解。因此,统计分析和数据挖掘是相辅相成的过程,两者的合理配合是数据挖掘成功的重要条件。
四、小结
数据挖掘理论与技术的产生,促进了统计学发展的同时,也提出了更多的挑战。如何更好地使用数据挖掘和统计为解决社会实际问题做出贡献,是统计学家和数据挖掘研究者共同关心的话题。数据挖掘和统计学应该相互学习和渗透,各自分工,协同工作,共同为挖掘隐藏在复杂现象背后的有价值的知识贡献力量。
统计学数据论文:大数据时代统计学重构研究中的热点问题剖析
摘要:新兴科学技术的发展带领我们进入数据大时代的环境中,大数据如“一口新兴石油”,一定会引领科技和经济的大发展。我们了解大数据需要一定的时间,大数据的研究对于我们有非常重要的意义,可能会激发出一个新兴的产业,我们应该将大数据的研究上升为国家的呼声和意志,以举国之力来研究它,发展它。本文就从大数据时代统计学重构的价值和意义出发,谈一谈在大数据时代统计学重构研究中的几个热点问题。
关键词:大数据;统计学;重构研究
引言
进入21世纪以来,科学技术尤其是互联网和计算机技术的迅猛发展,促使大数据时代快速到来,大数据是堪比黄金石油的致富新思路,会给社会方方面面带来很深远的影响和变化,在生活中,农业工业等很多领域都会运用到统计学,统计学之于现代社会有着较为重要的意义,因此,在这种情况下,对大数据时代背景下统计学重构进行研究是非常必要也是非常重要的。
一、大数据时代统计学重构的价值与意义
1.是前沿科研领域
伴随着科学技术的发展,大数据时代科研的进步会带来很多领域的发展和超多超复杂的数据,面对这样的挑战,我们应该不断增强自身获取信息的能力,就统计学而言,这门学科应该具有分析这些庞大数据的能力,并且通过分析能够研发出合理的分析工具以及相应的分析研究理论,来通过科学的理论解决一些更为前沿、复杂的现实问题[1]。显而易见,当前很多造诣深厚的学者都将研究领域转向了数据分析上来。
2.是交叉科研领域
统计学是一个与众多学科都有交叉的一个学科,比如与数学有交叉关系,与经验科学如天文学中假设估计参数有关系。在现代社会,统计学的使用已经不止局限在政府或者国家事务中使用,而将应用领域延伸到了商业、社会科学以及自然科学中来,由于统计学具有广泛的应用性和深厚的历史,因此,它不只是与数学有亲密的关系,更是与数学本身的哲学有着亲密的联系。伴随着领域的增多和数据的复杂程度的加重,统计学家一直进行着跨领域、跨学科的研究,随着研究数据的不断增多,所研究的领域也在不断拓宽,统计学家面临着越来越多的机遇,统计学的发展也面临着越来越多的机遇,同时,统计学的发展也推动着很多前沿科学的发展。
3.具有非常重大的意义
我们可以在进行统计学研究时形成一套完整的统计学研究理论和方法,推动大数据时代多元复杂数据分析朝着国际化方向发展;可以将数据化研究理论成果运用到经济和社会发展中去,比如可以运用在金融风险管理与控制上;还有很多金融领域的人运用大数据分析可以挖掘出市场信息,据此判断市场走势,会获得高收益,这些都是大数据时代中统计学在发挥作用[2]。
4.抢占制高点
国外很多研究表明,大数据时代统计学工程需要从各个领域挖掘有用的信息,并将这些信息融合,提取出有用的因素,发展相应的研究理论。目前,已经有很多研究结果表明,现如今的大数据研究方法和理论已经相对成熟,我们应该牢牢把握住这次机会,不畏挑战,迎难而上,尽快研究出具有独立知识产权、具有创新性的数据分析理论和软件,为我国的数据分析发展提供动力。
二、大数据时代统计学重构的热点问题研究
1.大数据统计学的理论和方法
过去的统计主要将重心放在概率分布的指数族方面,在上世纪70年代以来,指数族分布研究及其在高维贝叶斯和像图模型的应用中的研究居多,我们知道,由于指数族包括了所有已知概率的分布,因此,指数组的应用十分广泛,它是统计学的核心,并且在概率论方面的作用也在不断加强。这一研究方向旨在运用指数族来对庞大的数据进行初步的简化,利用Bootstrap方法对大多数统计和概率方面的贝叶斯数据进行应用[3]。
2.大数据数据建模
随着大数据的不断变化和发展,线上算法被研究出来,大数据的形式多种多样,因为多样化的应用、庞大的数据和针对大数据所开发的技术,这项研究会产生深远广泛的影响。该研究的方向是将数据建模相应的领域进行推广,将这些数据能够统一运用在大数据中,运用理论和公式对实际应用进行辅助。
3.并行迭代蒙特卡罗方法
日常生活和科学研究与计算机技术的结合让大数据的收集不再是幻想,要想分析这些数据,要运用并行和分布结构。并行和分布结构是拥有存储和处理大数据功能的,但是目前的技术还不能将现代的统计算法应用到大数据中去,并且在日益增多的数据中,我需要更加复杂的结构和模型来进行解释。尽管迭代蒙特卡罗方法已经被相关研究证明是非常强大的,但是它仍然不能够用于大数据的分析,该研究旨在将迭代蒙特卡罗方法融入到一个通用理论中去发展,另其适应大数据的发展环境,并且让其也能够适用并行和分布结构,即从并列的样本中算出蒙特卡罗值,一这个数值来近似最初需要的数据量,这个理论能够有效避免在算法迭代中的重复扫描数据问题,与此同时,这一算法的应用也可以另数据研究中的问题得出具有统计学意义的解[4]。
三、结语
大数据时代下统计质量得到提高,统计成本降低,统计学发挥作用的领域增多,并且让统计学能够发展延伸,提高了统计学的地位,面对统计学发展过程中可能遇见的问题,要通过大数据的时代背景,顺应当今的发展潮流,不断进行思维和技术上的进步与提升。
统计学数据论文:大数据时代下统计学科建设与教学改革的几点思考
[摘 要]大数据时代的来临给统计学科建设与教学带来了不小的挑战。传统的统计学科在认知水平、技术手段、内容框架等方面均需要进行革新。在回顾统计学科发展历史沿革以及大数据时代数据特征的基础上,对新时代下统计学科面临的传统统计手段的不适应性、传统统计学科框架不能满足时代要求、统计学专业设置与社会需求脱节和统计学师资队伍建设不够完善等问题进行阐述,可以得出相应的对策。
[关键词]统计学;大数据时代;学科建设;教学改革
21世纪是一个信息化的时代,尤其在2012年之后,大数据逐渐进入寻常百姓的生活,并深刻影响着这个时代的变革。大数据时代下海量数据所隐藏着的巨大价值不可小觑。因此,如何应用、分析、挖掘数据背后的隐含知识、潜在规律成为各个领域所关注的热点话题,统计学科的重要性不断彰显。早在2011年2月,国务院学位委员会就将统计学科设为一级学科[1],改变了统计学科被分别安放在经济学门类和理学门类下的历史局面,从此终结了统计学究竟是应用经济学范畴还是概率论与数理统计学范畴的各种争论。如今的统计学,就是关于数据科学的学科,在理学门类之下理学学位和经济学学位均可授予。站在大数据时代的风口浪尖,在统计学科成为一级学科的历史背景下,统计学在全国各个院校的发展如火如荼。但如何让统计学科适应大数据的时代要求,如何培养胜任各种数据挖掘能力的人才,是奋斗在统计学教育一线同仁们所必须面对的问题。
一、传统统计学的发展历史
统计学源于实践与应用,当人类开始从事生产劳动以来,统计学就慢慢建立和发展起来。在西方,一般认为统计学始于古希腊时期的亚里士多德时代,并在此后开枝散叶。而中国也是世界上最早进行统计活动的国家,具有国际公认的最早的统计史料,但先秦之后发展缓慢,未成气候。1930年,中国统计学会成立,这是中国最早的统计学研究群体。
此后统计学的发展大致分为以下几个阶段:1.苏联模式模仿期。新中国成立后,我国在经济模式上采用了计划经济体制,同时也引入了苏联的马克思统计理论与模式。在这种模式之下,统计学仅仅是计划经济制度的专属工具,其抑制了数理统计学派的发展。因此,这个阶段下的中国统计学发展逐渐丧失活力,未能与西方统计学的主流研究方向接轨。2.改革开放时期的再认识。随着我国改革开放的不断深入,不断涌现的新事物导致传统模式下的苏联统计理论与我国实践工作形成不可避免的矛盾,依附于计划经济的统计学逐渐丧失生命力,这一现象引起了我国学者的反思。在这种背景下,欧美体系下的统计学逐步进入中国市场,并引发了一场关于统计学科建设的学术争鸣。3.20世纪90年代的“大统计”思想。随着我国改革开放的不断深化,统计学在社会经济统计学和数理统计学两个方面蓬勃发展起来。于是“大统计”的提法日渐增多,20世纪90年代尤其是20世o90年代中后期有关统计学发展的文献,都在讨论统计学的融合与构建问题。“大统计”思想是对传统认识局限的一次突破,它为中国统计学在下一个世纪的发展提供了理论前提。4.大数据时代下统计学的新机遇。从上述3个阶段可以看出,统计学的发展与其时代背景息息相关。进入21世纪以来,在大数据的时代背景下,统计学在学科建设与教学改革方面该有怎样的侧重和突破,这正是身处这个时代的统计学人应该思考的问题。要对这个问题进行剖析,必须了解这个时代的数据特点。
二、大数据时代的数据特征
在20世纪90年代,信息化开疆拓土给数据的产生带来了指数级的增长模式,这一现象就曾引起美国社会的广泛讨论和研究。进入21世纪以来,社会高速发展、信息飞速流通、科技不断进步,这使得“大数据时代”呼之欲出。2012年,由维克托・迈尔-舍恩伯格 (Viktor Mayer?鄄Sch?inberger)和肯尼思・库克耶 (Kenneth Cukier)联合编著的《大数据时代:生活、工作与思维的大变革》给社会带来了不小的反响,学术界也逐渐摩拳擦掌地迎接大数据时代的来临。[2]
著名的4V理论有效揭示了大数据的主要特征。[3]1.Volume:海量的数据规模。在当下社会,每一分每一秒都伴随着大量数据的产生,由于数据的驱动性,现在的数据量已经不再是传统的TB、PB级别,其早已经扩展到EB、ZB乃至更高的级别。2.Velocity:快速的数据流转和动态的数据体系。在一个瞬息万变的社会中,数据是一种流动的状态,大量数据可以随时随地产生并改变,这种动态性给统计分析带来了巨大的挑战。3.Vari?鄄ety:多样的数据类型。大数据不但具有动态性,还具有多样性。数据形式包括:文本数据、网页数据、行为数据、图片数据、声音数据、多媒体数据等各种各样的数据形态。4.Value:巨大的数据价值。曾经有人把Data mining称为数据采矿,倘若在传统的数据模式下数据都蕴含着丰富的“矿藏”,那么大数据时代下的数据价值则是我们难以想象的。正因为数据拥有巨大的价值,这才使我们有了进一步分析处理的动力。
大数据时代下的数据特征给传统统计学带来了不小的冲击。作为一门处理、分析数据的学科,在新时代下必须认清统计学科所面临的问题,这样才能有的放矢地进行革新,采用新的技术手段驾驭新时代的数据,为社会进步做出应有的贡献。
三、新时代下统计学科面临的问题
(一)传统统计手段的不适应性
传统的统计思维模式基本是以问题为导向,确立要研究的问题之后,再着手获取数据。国家统计局所开展的数据普查和抽样调查都是基于这种模式。对于数据索取能力较弱的科研院所或个人而言,其没有能力进行大规模抽样调查的能力,一般是通过各种官方数据库获取数据用以科学研究。但用传统抽样调查手段所获取的数据,是用样本估计总体的思路进行,倘若调查方案设计合理、操作得当,误差可以控制在允许范围之内,这不失为一种良好的统计手段。但在大数据时代下,不仅难以有效地抽取数据,而且没有简洁有效的技术手段对数据进行分析,这给抽样调查带来了不小的麻烦,其省时省力的优势也不复存在。类似的问题在传统统计方法的发展中依然存在。因此,需要紧贴时代背景,建立一套适用于当下的统计分析模式,以便更加科学高效地开展统计分析工作。
(二)传统统计学科框架不能满足时代要求
统计学是从大量实践经验中所逐渐发展形成的一门对数据进行搜集、处理、分析的学科。统计学的产生与数据有着不解之缘,因此,有关大数据的处理必然离不开统计理论和技术的支撑。但是,传统的统计思想、分析手段以及分析设备等都无法满足大数据时代的发展要求。在人类迈入新纪元以来,互联网技术日臻成熟,社会信息化程度出现质的飞跃,大量半结构化、非结构化数据源源不断地产生,人们对各种类型数据资源的潜在规律以及数据回报价值都有迫切的需求。[4]这要求统计学有一套完整的学科框架体系去驾驭大数据,具备对海量非结构化、半结构化、实时性数据等的有效分析能力。而大数据时代下的数据分析工作,已经从根本上打破了传统统计学科的框架。
(三)统计学专业设置与社会需求脱节
当前统计学学生的培养方式虽然逐渐向应用层面倾斜,但形式与内容相对老套。在这种模式下,理论模型的建立、参数估计的方法、一些统计量的检验等都得到了足够的重视,但学生对这些问题的认识很可能还停留在表面。虽然部分课程安排有上机实践操作,但由于数据局限性等原因,其所带来的案例相对老旧、与时代脱节的情况时有发生。这导致学生不能很好地学以致用。另外,大数据时代下的统计分析工作,由于数据的海量性、动态性等特点,工作量相对较大,需要团队的分工协作才能很好地完成。而在我们日常的教学中,由于面向传统的统计手段较多,学生基本都是个人完成案例,这种教学方式难以培养学生在数量搜集、处理、分析中的团队协作精神,而这种精神在学生今后的工作岗位中是应该必备的。
(四)统计学师资队伍建设不够完善
由于统计学的蓬勃发展以及社会对统计学人才的迫切需求,各个院校纷纷成立(或筹备成立)统计学院,导致统计学教师相对紧缺。在教资力量相对不够充足的情况下,统计学科依然面临一个严峻的问题。这个问题就是在现有的教师队伍中,大部分教师接受的均是传统统计理论方法的训练,专业和研究成果也都偏向于经济统计、数理统计的传统模型、实证分析等方面。在传统领域,大部分教师具备教学与科研的经验,具有相当深厚的功底及心得。但是在大数据领域、有关大数据的清洗、降维、处理、可视化;云计算、云平台、分布式计算、并行计算的hadoop、Spark、MapReduce等有关大数据的挖掘理论和技能方面,则出现断层。对于绝大多数教师而言,这也是一个相对陌生的领域。因此,这引发了统计学师资队伍知识结构不完善的问题。
四、解决新时代下统计学面临问题的对策
(一)针对新问题,寻找新的统计技术手段
大数据时代下,数据量巨大、数据信息瞬息万变、数据类型多种多样,数据结构也由原来单一的结构化数据变为非结构化、半结构化数据模式。面对新的问题,对于海量数据的存储、清洗、数据挖掘、知识呈现、数据传输、管理等各个方面都需要有新的技术手段加入。[5]因此,我们需要从各个细小的环节入手,从而形成一个完备统一的处理大数据问题的新模式和新框架。这个过程需要其他领域专业人员的支持和协作,其中包括计算机、数学、经济学、信息学、管理学等。1.数据获取阶段。数据获取的途径有很多,不应再拘泥于过去翻阅式的查找和抽样调查。由于大部分数据均产生于互联网,因此我们不得不通过爬虫技术对所需数据进行爬取,从而获得海量的一手数据。2.数据清洗、降噪、降维等预处理阶段。这一阶段是大数据分析的开始,任何一种分析都不能离开有效的数据而进行,对原始数据的整理、清洗等工作直接影响到后续统计分析的有效性和科学性。3.数据挖掘、知识发现。这是整个数据分析中最为关键的环节,是整个分析的核心所在。在此需要强调的是,并非在大数据时代所有的传统统计方法都不可使用。当经过数据预处理、把数据转出化成传统数据模式之后,传统统计分析方法依然有其用武之地,且传统统计分析方法当中宝贵的统计思维模式和统计视野也是我们解决大数据问题的智库。因此,对于传统统计分析方法要给予足够的重视,其在大数据时代也有广阔的舞台。我们要在继承的基础上,进行改进、创新和发扬。
(二)系统性调整统计学科框架,以适应时展
在大数据时代下,统计学同样需要加入信息化的过程。虽然大数据与统计学有着千丝万缕的联系,但是由于面对的数据类型、对象等的不同,传统统计学的研究范式已经不能适应新时代的要求。这主要表现在以下几方面:1.统计对象的改变。新时代下的统计数据从数量、结构和类型上早已打破传统统计学的数据概念。2.统计技术的改变。新时代下关于数据的搜集、整理、知识发现等数据处理手段相较于传统的统计学科,已经发生了巨大的变化。3.数据仓库的建设和使用。关于海量数据的存储、调取、传输、管理是在传统统计学当中较容易被忽视的环节。传统统计学下的数据量较小,对其的存储、传输和管理并不存在问题,但海量数据出现之后,这个话题则成为统计学需要重点研究的问题之一。因此,我们需要从更高的视野重新构建统计学的学科框架,使其达到能驾驭大数据时代的目的,从而为人们的生产、生活提供科W有效地指导和帮助。首先,要从思想上打破对传统统计学的认识,将视野投放到更加广阔的数据天地。客观对待传统统计学在社会发展中所出现的滞后性问题。其次,应寻求多学科协作,信息资源共享。没有任何一种单一的技术分析手段可以贯穿大数据分析的始终,它需要多种学科的交叉与融合。因此,统计学的学科框架不能故步自封,一定要兼容并蓄,这样才有新活力。,统计学科框架的建设要体现出大数据时代的信息化。对信息的收集与爬取、清洗与降维、分析与挖掘、结果与展示等各个方面,都需要在传承经典的基础上,进行大胆地突破性改革。从而建设一个能够在新历史背景下解决新数据问题的学科,从而培养出适应这个时展的统计分析人才。
(三)改良统计学科内容设置,满足新时代下的社会需求
关于统计学科的专业培养方案。目前,基于传统统计学的模式,可以采取两种统计方式进行培养。这就是我们熟知的数理类和经济类,这两类具有不同的侧重点和学科背景。“大统计”思想的提出以及统计学一级学科的成立,终于可以让统计学汇到统计学院或者统计系的框架下统一培养。由于西方主流统计学甚至经济学,均注重数理思维和能力,任何一个统计分析手段和经济模型都离不开数学推导、演算,因此,打好数理基础成为我国统计学科建设的普遍共识。在本科生的培养方案中,就包含数学分析、高等代数等一系列数学思维培养的课程。但无论是本科生还是硕士生的教学,都缺乏对大数据分析技能的培养,未能迅速地紧跟时代,与社会需求相脱节。这一现象不利于学生就业。因此,亟须在教学内容、方法和技术方面进行改进。1.在教学内容方面,传统的统计学科从概率论与数理统计、多元统计分析到统计学原理等都是基于结构化的小量数据展开,关于非结构化大数据的教学内容缺失。因此,要注重培养学生对非结构化、半结构化数据的处理分析能力;教师应对原有课程进行调整,减少重复内容与重复教学,加入与大数据相关的数学理论与软件学习方面的新内容。2.在教学方法方面,应注重培养学生的动手能力和团队协作精神。传统统计学的数据处理分析工作量相对较轻,个人可以独立完成工作,但是在大数据模式下,分工与协作是必不可少的环节。因此,在培养学生实战能力的同时,不能忽视团队协作能力的培养。3.在教学技术方面,要善于通过经典案例寓教于乐,通过对实际问题的思考,培养学生对数据处理的热情及其思维能力和实战能力。有必要打破传统的相对固化的授课模式,采用具有时代感的新鲜问题来激发学生的创新性思维,让学生在解决实际问题的过程中对理论有更加深刻的认识。
(四)加强统计学师资队伍建,填补知识结构的不均衡性
在y计学成为一级学科之前,我国高校的普遍做法是将数理统计专业放在数学学院,授予理学学士学位,把经济统计放在经济学院,授予经济学学位。这种模式对我国统计学教师队伍的知识结构产生了重要影响。统计学专业教师基本也都来源于这两个领域:一个分支来自擅长数学模型、推导等数量关系的数理统计方面;另一个分支则是擅长经济理论、实证的经济统计方面。但互联网技术之下应运而生的各种新信息和新问题,需要用新技术去解决,遗憾的是这方面的人才相对缺乏,这导致在大数据时代下教师队伍知识结构不完整。要解决这个问题,可以从两个方面入手。首先,针对一些数学功底见长,对大数据分析感兴趣的教师进行内部培训。鼓励他们在全国乃至全球范围内参加有关大数据学科的培训、研讨等学术交流活动,力求在短期内培养一批在大数据方面有所专长的教师团队,以弥补整个教师队伍知识结构的失衡问题。同时加强教师队伍的自主学习和创新能力,保持他们对新事物、新方法的敏锐嗅觉。其次,在全国范围内着重关注相关培养单位的博士、博士后等潜在的教师力量。力争将从事有关数据挖掘方向、大数据分析方向等具有一定大数据分析能力及实战经验的博士、博士后纳入教师队伍。此外,还要充分认识到大数据分析工作的交叉性和协作性,它对计算机技术、数学理论方法等都有较高的要求;要着重引进具有上述学科经历的复合背景人才,力争将这些新鲜血液融入传统的师资队伍当中,以改善教师知识结构的不平衡问题,力争建设一支专业结构合理、学术素养良好、适应能力强大的统计学教师队伍。
统计学数据论文:浅析大数据时代对统计学的挑战
【摘要】随着互联网技术和信息技术的不断发展,让我们迎来了大数据时代,为统计学带来了发展机遇,但是也是统计学面临着严峻的挑战。本文主要针对大数据时代对于统计学的挑战进行论述,并且提出具体的改革策略,对于相关的研究提供理论基础。
【关键词】大数据时代 统计学 挑战
二十一世纪属于信息爆炸的年代,我们的生活当中随处都涉及到大数据,例如图书馆、高校学生档案管理、企业的财务数据等各个场所都拥有庞大的信息量。大数据不断发展,给统计学带来了挑战和机遇,利用传统的统计学方法,对于大数据的处理无法有效的利用,有关于大数据的各种处理需求无法得到满足,处理大数据的基础就是统计学。因此需要分析大数据影响下统计学面临的各种挑战进行论述。
一、大数据时代给统计学带来的挑战
(一)对于教学内容带来的挑战
针对统计学的专业教学,主要包括概率论、数理统计、抽样抽查等,其面临的处理对象就是结构化的数据,但是却不够重视非结构化和半结构化的数据,也很少进行利用。在大数据时代当中,高端人士的对于数据处理提出了更高的要求,当前的统计学内容无法满足含量数据研究和商业运用的需求。实施统计学教学需要结合时展情况,核心内容就是统计专业人士的各种现实需要,从而将其科目内容进行提升,适当的开设新的课程,这样才可以满足大数据时代的发展需求。
(二)对于教育方法提出的挑战
我国长期利用的统计学教育模式的中心就是课堂教育,主要以教师的讲解为主要内容,理论知识的讲解比较注重,但是实际应用却没有重视,教师只是在讲解理论知识,却没有培养学生的技能。利用的方式比较单一,而教学方法也比较单调。利用这样的统计学教育方法对于大数据时代的要求无法得到满足,无法培养人才的素养,因此需要改革其教学方法。
(三)对于人才培养提出的挑战
统计学教育方式面临着重大的统计任务,其主要内容就是实现统计教育和研究人员,很多教师的综合素养比较低,没有研究专业之外的知识,更新实验室相关设施的速度比较慢,培养学生比较注重理论知识,形成的知识构架的主要内容就是数理认知,对于其他领域的知识缺乏认知,无法将实际困难进行解决。在大数据时代,对于统计学人才提出了更高的要求,需要在海量的数据当中将市场机遇进行掌控,从而将其中的商业价值挖掘出来,从而可以将行业的内在潜力进行制造,具备探究精神。
二、大数据时代统计学的改革策略
(一)提高统计人员的综合素质
在当前大数据背景的影响下,统计学对于统计人员提出了更高的要求,统计人员需要具备良好的道德素质和职业素质,这样才可以更好的应对大数据时代带来的挑战。企业需要定期开展岗位培训和思想道德教育,使统计人员的专业技能得到增强,使统计人员的思想认识进行提高,使统计人员不断学习新的统计知识,可以学会更多的统计方法,对于各种新型的统计工具的实际操作流程进行熟练的掌握,企业应该为统计人员提供良好的工作氛围,从而的提升统计人员的素质。针对学校的教育需要采取措施提升学生的素质,统计学专业课在实践过程中,需要营造良好的学习氛围,加强引导和教育学生,不断学习统计学的专业课程,不断掌握统计学的展业理论知识,使学生深入的认识和理解统计学,从而可以更好的和时代接轨,以社会的实际需求为基础,让学生形成自主的意识,将自身素质不断提升。
(二)加强统计人员掌握新技术
在当前的时代影响下,总是会出现各种新的数据处理技术和分析工具等等,利用这些新的处理工具和技术,对于当今的统计学来说这是一种挑战,因为统计人员不够了解这些新的技术和工具,这些新的技术也不够熟悉,但是可以有效利用这些新计划,可以使统计学更好的适应大数据时代的发展。这就需要统计人员了解这些新技术。在大数据的影响下,需要改革统计学,重视培训统计人员的新技术,加强统计人员掌握新技术。企业需要将各种新的数据处理技术和设备进行引进,通过专题讲座和实训的方式,为统计人员提供学习的平台,使他们可以学习更多的数据处理技术,从而可以对于大数据时代提供更好的服务。
(三)加强统计学课程教学改革
高职教育机构需要做的哦啊与时俱进,大数时代不断发展,统计学课程需要实现改革,将落后的教学理念和教学方式进行抛弃,将统计学的相关设备设施进行完善,使统计学的教学环境和教学条件进行改善,将各种先进的统计学教学方法进行有效的引进,在实际改革的过程中,充分融合统计学教学内容和大数据信息,协调统计学教学内容和教学方法。改革统计学课程,不仅需要实现课程改革,还要实现教学改革,需要在课程和教学两个方面进行,从而使统计学更好的适应大数据时代,将大数据时代带来的各种挑战进行有效的应对,更好的掌握大数据时代带来的各种机遇。
改革统计学教学,需要有效的整改课程教学模式和课程目标以及课程结构安排等,从而将课程结构的合理性得到有效的提升,使课程目标具备科学性,使课程内容实现完整性,将统计学课程的重点内容进行突出。改革统计学内容,需要提高教师自身的教学水平,将传统的教学理念进行转变,从而利用新的教学方法和科学的教学模式,重视实训教学,使学生的实践操作能力得到有效的提高。
三、结束语
大数据和统计学在探究目标。数据处理对象等各个方面具有一定的联系,但是也具有一定的差异。大数据时展的速度不断提高,冲击了统计学的固定探究方式和价值观念,统计学教育的教学结构和教育方式等各个方面都带来了各种挑战,要想对于大数据时代的发展潮流更好的适应,培育胡高素质、适应能力很强的统计专业人才,统计学教师和统计教育需要做到与时俱进,从而实现有效的调整和改革、
统计学数据论文:大数据背景下统计学教学改革的探讨
摘 要:在当今大数据背景下,统计学教学存在着诸多问题。本文首先梳理了传统的统计教学过程中存在的问题,然后针对大数据时代需求的统计学人才的特点,从教学体系、教学内容等等方面来探讨统计学教学改革,为各高校更好的培养适应当今社会发展的统计学人才提供思路。
关键词:大数据 统计学教学改革 教学方法
当今社会是信息爆炸的时代,随着数据可获得性的提高,数以海量级的数据有待于我们处理。作为一门处理分析数据的学科――统计学,其教学面临着诸多挑战,为了适应当今时代的需求,统计学课程的教学迫切需要进行多方面的改革。那么如何改进传统的教学模式,培养出能够适应“大数据时代”需求的专业人才?是值得我们深思的问题,对该问题进行探讨具有深远的意义。本文从当今社会人才需求方面,探讨如何进行改革,来寻求的教学模式和方法,来为社会输送品质的统计专业的毕业生。
1 传统的统计教学中主要存在的问题
1.1 就教学内容而言,偏重于理论
在大多数高校中,目前对于统计学课程的教学仍然是偏重于统计理论的讲解,学生大多数是采用死记硬背或者习题训练的方式来掌握统计理论。虽然他们能够记住统计理论或一些统计模型,但是却无法将所学的知识应用到实际中,来解决实际问题。学生不知道为什么要学习统计学,学习该课程有何用途?因而很难提起学生们的学习兴趣。学生往往在了解所学的内容可以解决什么问题后,才会积极主动的去学习,这便要求老师在课堂教学中,摒弃偏重于理论教学的枯燥教学模式,更多的抛出生动的实际问题,来调动学生的积极性。
1.2 统计教学过程中上C实验课较少
在目前的统计教学过程中,鉴于课程内容较多,而教学课时量有限,这便使得上机实验课在课程中所占的比例较少,大多只有几个学时的上机实验课。致使很多需要上机实践的课程内容无法实现。这非常的不利于学生现学现用, 而只能是让学生简单了解一下统计软件的基本操作流程,这即利于学生掌握课堂知识,也不利于调动学生的学习积极性。
1.3相对于中国统计实践的需求,统计教学的发展较为滞后
统计学是一门搜集、整理、分析数据的学科,学习统计学的目的是通过探索数据的内在规律性,来客观、科学的认识客观事物。统计数据源自于实践,及时、、完整的统计数据是我们进行统计分析的前提,否则,统计方法将无用武之地。随着计算机技术的快速发展,数据的可获得性大大提高,我们已经步入了大数据时代,此时,传统的统计学理论或方法已不再使用,迫切需要在我们的教学过程中引入新的内容来适应时代的发展。但是,在统计学的教学过程中,教学内容并没有随着社会的发展而有所变化,不仅如此,在统计学的教学案例中,大多数还是采用比较陈旧的数据,并没有及时更新数据,数据质量不高。
2 大数据时代对统计学教学改革的需求
在当今大数据时代,数据已经成为了一项非常重要的资源,它同矿产资源、石油资源等一样的重要,并且数据资源有其特别之处是越用越多。大数据方面的人才在各国较为紧缺,在能够做数据分析的人才里面,统计学专业有其独特的优势,统计人才是数据分析的核心人才。这是我们统计的发展机遇,也是挑战。因为传统的统计教学已经不能够适应当今社会对统计人才的需求。改革开放三十年来,我们的统计学教材并没有随着社会的变化而变化,教材已经不能够反映社会的需求,在我们的教材中有些部分花费了很大的篇幅来介绍一些简单的计算方法,但是,随着计算机的普遍,这些方法,计算机一点就能够解决。
有人说21世纪是统计的世纪,这是一个很好的机遇,需要从事统计专业的老师和学生共同努力,主动的接受大数据的知识,加强计算机能力的培养,拓宽视野,既能够熟练的掌握计算机,又能够很好的运用统计软件进行数据分析,来适应当今社会的发展。
3 关于统计教学改革的思考
3.1 构建集课堂、实验室和社会于一体的教学体系
学好统计学并不是一件易事,不仅需要掌握课堂上的理论知识,还需要步入社会去实地调查,获得一手数据,得到数据后,进一步需要我们到实验室去学习如何运用统计软件,进行处理、分析数据,从数据得到结论。因而,要达到较好的教学效果,便需要一个集课堂、社会和实验室于一体的完善教学体系。使得学生不仅掌握了基本的统计学理论知识,还能够熟练运用统计软件和计算机系统来处理现实数据,挖掘数据内在的规律性,成为当今社会需求的统计专业人才。
3.2 在教学过程中,加大教学案例所占的比例
在统计教学过程中,如果只偏重于理论教学,无疑是枯燥、乏味的。如果我们可以适当的添加一些生动的教学案例,便会调动学生的学习积极性,使其能够更好的理解课本上的内容,也会提高学生的应用能力,更清楚的明白所学内容可以如何应用。所以说案例在教学过程中非常的重要,好的案例不仅要能够体现书本上的知识点,还要考虑到所授学生的专业特点,不断的更新,有针对性的挑选一些好的案例,这有助于学生掌握如何运用统计学知识来处理所学专业的问题,提高他们的学习积极性。
3.3 教学内容上跟上大数据时代的需求
传统的教学理念和方法所培养出来的统计人才,已经不能够很好的适应大数据时代对人才的需求,当今社会需要的是具有很好的动手能力、数据处理能力和学习能力的人才。
这便迫切需要我们不断的调整教学理念和教学模式。一方面在统计教学过程中,在讲授基础知识的基础之上,突出统计方法以及统计理论的应用性,在授课过程中,帮助同学们树立起大数据的统计思维。另一方面,在教学过程中,调整传统的教学模式,尽可能的引入慕课、微课等新的教学方法,穿插一些有趣的案例,来不断的激发学生的学习兴趣。,统计学教师作为知识的传授者,需要不断的学习,提高自身的大数据知识水平,才能够更好的引导学生,带领他们跟上时代的步伐。