在线客服

大数据处理论文

引论:我们为您整理了1篇大数据处理论文范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。

大数据处理论文

数据处理论文:电子商务大数据处理研究

当今时代,是一个信息化和网络化的时代,电子信息技术的产生对人们的生产和生活产生了极其重要的作用和影响。随着人们生产生活水平的不断发展,电子商务顺势而生,在人们的日常生活中占据了极大的比重,对人们的消费理念和消费方式产生了颠覆性的改变。电子商务平台依托于传统零售业的基础,凭借电子信息技术和网络技术的不断发展,促进了销售方式的改变。大数据作为一种新型的信息技术,能够有效采集、存储和分析数据,能够提高数据信息的有效性,对于电子商务的发展而言,提高了销售的针对性和度,促进了销售的转化和成交的比例,在人们消费观念普遍转化的今天,以大数据处理模式为基础的电子商务呈现出蓬勃的发展态势。那么,大数据处理模式的特点和意义体现在什么地方?大数据处理对电子商务有哪些影响?大数据处理模式不断发展条件下的电子商务有什么样的发展趋势和发展前景?

1大数据处理模式的意义和特点

大数据处理模式,是依托于信息技术和互联网技术的不断发展而兴起的一种新型技术模式,能够有效地处理大批量的数据信息,并保障信息的安全性和性。大数据处理模式,突破了传统意义上的信息搜索和信息存储,有效捕捉和管理数据信息,决策力更强,洞察力更优,效率更高,信息更多样化。大数据处理模式,改变了传统数据收集的意义,对于数据信息的收集,其意义不在于数据信息的存储,而是对所收集到的数据信息进行删选整合等一系列的专业化处理,实现数据信息的转化和升值,为不同行业不同领域的销售转化提供参考和动力,有效实现产业升级和企业盈利。大数据处理模式与传统的数据库不同,海量的数据只是基础,能够进行复杂有效的数据分析,才是大数据处理模式的显著优势。大数据处理模式有四个显著特点:及时,数据量大。大数据处理模式能够存储海量信息,并保障信息的安全性。第二,数据的类型繁杂。大数据处理模式下的数据,突破传统的数据概念,将图片、视频、位置数据等都统称为数据信息。第三,数据信息的处理速度极快。无论是何种类型的数据,无论是何种形式的数据,大数据处理模式都能在短时间内分析出数据价值,促进转化。第四,较高的数据价值回报。对于海量的信息,大数据处理模式能够进行专业性的分析,并能够在分析后对数据的使用和应用方式提出指示性建议,带来较高的价值回报。总之,大数据处理模式是当今时代海量数据分析的首要选择,也是众多行业众多领域越来越倾心的数据处理的前沿方式,在信息技术和互联网技术不断发展的背景下,必定会得到更为长足的发展。

2大数据处理模式对电子商务的影响

2.1提高了电子商务领域信息检索的能力

电子商务平台,是依托于信息技术和互联网技术的不断发展而兴起的商业模式,极大地改变了当代消费者的消费心理和消费习惯,但是,电子商务信息冗杂,无论是商品的种类还是商品的数量,都有海量的商家可供选择,增加了用户删选的难度。只有改变这种杂乱无章的非结构化信息数据,才能提高电子商务的运营水平和销售转化。大数据处理模式,使得信息数据的处理更为针对性,更为灵活化。电子商务充分利用大数据处理模式,能够实现信息数据的有效检索,根据用户的消费需求进行针对性的信息显示,根据用户的消费习惯进行性的信息筛选,使得电子商务的运作更为智能化,更为高效性。大数据的处理模式,使得信息推荐更有针对性,提高了用户的消费质量和消费效率,节省了消费时间和消费精力,用户只要输入相关字眼,就能够迅速反馈出用户所需的信息资源,大大提高了消费用户的满意度。

2.2提高了电子商务平台弹性处理的能力

电子商务平台的发展,离不开信息数据的处理。大数据处理模式的发展,提高了电子商务平台的弹性处理能力,能够在极短的时间内反馈,对大量的用户访问做出及时地回馈和反应。对于电子商务而言,商家的营销活动时时有、日日有,大量活动信息的堆积必然造成大量的订单信息,这就对数据信息的处理提出了更高的要求。大数据的信息存储能力有效地解决了这一问题,保障了信息存储的安全性,优化了资源配置,实现了信息数据的即取即用。电子商务的发展,依托于对信息数据的及时反馈和删选,弹性的信息处理能力才能让电子商务的发展如虎添翼,提高其运营的整体水平和质量。

2.3保障了电子商务行业信息处理的安全性

大数据处理模式的发展,保障了电子商务行业信息处理的安全性。电子商务是依托于信息网络技术的不断发展而兴起的消费模式,难以避免地会面临数据信息安全与否的问题。网络系统的瘫痪、网络交易安全的缺失都会对信息安全带来极大的威胁。而对于电商的消费用户而言,信息安全和交易过程的安全是他们最为关心的事情,不容忽视。大数据处理模式的引进,有效存储用户的信息,及时对网络攻击现象进行审查和定位,对于一些非正常的攻击现象及时收集并分析,采取有效的预防和处理措施,保障信息资源的安全性和性。云计算技术的引用,还能够将一些的信息进行进一步的转化,使之成为云服务,进而托管在云端,对这些的、重要的信息进行更为专业的防护和保密,较大化信息安全。此外,大数据的处理模式还能够将一些敏感性的、数量极大的数据信息进行转化,使之成为可用的信息资源,为下一步创造直接的经济价值奠定坚实基础。

3大数据处理模式不断发展的条件下电子商务的发展趋势

3.1大数据的发展推动了电子商务平台服务和产品的多样化

大数据的不断发展,推动了电子商务平台服务和产品的多样化发展。电子商务是以服务和产品为主导的行业类型,高质量的服务和产品才是提高行业效益的根据手段和运营方式。对于电子商务所针对的用户群体来说,大数据的不断发展,能够有效分析这些客户群体的喜好和偏爱,能够删选有效的客户信息,能够有效进行客户的针对性信息发送,提高信息的针对性和度,并根据客户信息的提示进行服务类型和服务方式的调整,根据客户的偏爱进行产品类型的删减和增添,以促进销售。以书包为例,不同年龄有不同的风格喜好,不同性别有不同的类别偏好,以蓝胖子为主题的书包类型一定不是酷炫杀马特风格的青少年的囊中物,胡巴的卡通形象才是呆萌少女最热衷的产品类型。根据客户不同的喜好和性格,可以有效改变服务和产品类型,带动一定量的销售业绩。

3.2大数据的发展推动新型电子商务运营模式的产生和发展

大数据处理模式的出现,对传统的经济模式造成了一定的冲击,产生了一系列的个性化服务和定制化产品类型,这些都直接影响了电子商务行业的运营模式,传统的运营理念已经远远不能满足社会的发展要求和信息技术的进一步发展,创新电子商务的运营模式才能为电子商务的发展开辟一条坦途。大数据处理模式的出现,对电子商务进行了区别和分析,根据所运营产品和服务对象的不同,依托于互联网的力量,归纳出不同的运营模式:B2B的企业互惠,B2C的网络直销,C2C的消费者交易,O2O的互联网销售等,有效提高了交易速度,简化了交易流程,提高了交易质量,便捷了交易模式,大数据处理模式影响了电子商务不同模式竞相争荣,成为互联网时代下一道亮丽的风景线。例如,近两年不断兴起的上门服务,革新了传统的销售模式和运营方式,以消费者的诉求为根本,从消费者的消费习惯和消费心理出发,满足消费者的消费体验,便捷了操作模式和操作流程,明显提高了交易质量和效果。

3.3大数据的发展推动IT设施在电子商务企业发展过程中的核心竞争力

量大数据的不断发展,推动了IT设施在电子商务企业发展过程中的核心竞争力量。传统的销售,以用户为根本,以产品为主打,大数据处理模式下,虽然离不开产品的竞争力和用户的体验,但是却借助大数据的信息处理功能,有效提高了整个交易流程的转化。对于电子商务而言,生产成本、企业管理、运营模式都会影响企业在社会中的不断发展和其在市场中的竞争力,积极引进大数据的处理模式和相应的IT设施,能够实现资源的优化配置和数据信息的有效利用,降低企业的生产成本,提高企业的产销率,并较大化企业的运营管理水平。对于电子商务而言,由于其对信息技术水平和网络技术的依赖性极大,积极应用云计算构架,采取大数据处理,能够有效存储海量的数据信息,并对数据信息进行删选,为电子商务的不断发展奠定坚实的基础。总之,大数据处理模式的产生不是偶然的,而是当今时代信息技术与网络技术不断发展的产物,对各行各业都有着举足轻重的作用和影响。电子商务作为一种网络条件孕育下的销售方式,必须立足于网络环境的大背景下,以大数据的处理模式有效处理客户信息和相应的数据资源,提高数据信息的有效性和价值意义,促进数据信息的有效转化,提高客户的精准度,提高销售量和销售质量,推动整个电子商务平台的有效运营和整个行业的不断发展。

作者:屈志强 乔静 单位:济宁医学院

大数据处理论文:移动通信网络中大数据处理关键技术研究

摘要:社会的发展以及人们生活水平的提升使得移动通信网络的应用范围得以大范围推广,并且伴随着社会对移动通信网络需求的增强,大数据处理技术的应用就应运而生了,本文就此展开论述。

关键词:移动通信网络;大数据处理;技术分析

伴随着我国综合国力的增强,科技水平也得到了进一步增强。计算机技术作为新时代的重要基础技术,其应用范围的扩大,在一定程度上促进了信息技术的腾飞发展。伴随着日渐庞杂的数据规模,使得大数据处理技术应时代而生。同时移动通信网络技术的发展,极大的方便了人们的工作和生活。为了满足人们日益增长的通信需求,移动通信网络也需要具备更加有力的数据处理能力和处理速度。

1大数据技术概述

现阶段,我国数据的发展主要包括以下几个阶段:及时,被动产生阶段。伴随着数据库的出现,其在规范社会数据方面意义深远。不过该阶段数据库的作用相对较为被动,其服务的对象主要为政府、大型企业等,诸如银行以及超市等主要进行经营活动而产生的数据交易记录;第二,主动产生阶段。伴随着互联网技术的腾飞发展,社会经济活动日渐频繁,相应的也会产生大量的数据信息。同时在这大量的数据信息中包含着大量的用户原创性信息内容,其主要借助QQ日志、微博、博客以及微信等方式到网络上。此外智能化电子产品的诞生,为人们这些原创信息提供了便利。因此,该阶段所产生的数据信息量不仅数量巨大,且多是主动产生的。第三,自动产生阶段。随着大数据时代的到来,使得数据开始进行自动产生。主要原因在于移动通信网络和物联网之间得到了有效融合,从而推动数据自动产生,并直接推动者大数据时代的到来。大数据技术主要具备如下几个特点:及时,需要处理规模相对较大的数据。大数据技术通常需要处理PB级甚至是EB级的数据量。第二,数据非结构化。在大数据时代,非结构化的数据迅速增加,高达数据总量的80%左右。第三,多源异构。由于基于物联网环境下,大数据多运用传感器、移动设备等异构终端来进行数据的采集,这样很容易导致数据出现多源异构特点。第四,数据处理的实时性。生活节奏的变快使得人们需要快速处理各种信息数据,因此在线实时处理数据则是大数据时代的另一重要特点。

2大数据处理的关键技术

在移动通信网络中,尤其是物联网中,很多终端设备都是处在无人监控状态下,加之这些终端设备所处环境大多较为恶劣,因此在物联网进行数据采集时,往往会出现很多错误,因而收集到的原始数据就缺乏性,譬如采集的一些数据会和实际产生一定误差,一些数据收集不完整,又或者是一些数据是无关多余的。因此,这就需要通过各种方式来提取所需的数据。就当前来看,有许多数据清洗技术,然而这些数据只适用于较强结构化的数据,大数据又是非结构性,因而并不能起到很好的作用。而且利用该技术也无法处理大量数据,这就难以体现大数据的实时性。因此,在大数据清洗技术的研究方面还需要进一步研究。大数据有非常多的来源,将收集到的各方数据融合在一起对于数据分析相当重要。数据融合就是收集到的数据源是不一样的,这些数据要通过不同表象来表达实体,这就需要将数据转换成为对同一个表象的表达,减少相关数据产生冲突的过程。在移动通信网络当中,数据的多源性比较普遍,因而对数据进行统一十分必要,让各数据之间产生关联。这就要使结构化和非结构化数据发生关联,再以数据融合来提取关键数据。经过一系列处理之后,就要分析所获得的大数据,并挖掘出新的数据。要将移动通信网络中的大数据分析和挖掘出来就要从数据表示和存储两个方面给予充分考虑。其中,要借助先进的挖掘工具,并改善数据开发环境。另外一项大数据处理关键技术是利用可视化来进行数据分析。众所周知,移动通信网络有着十分庞大的数据量,其挖掘结果也是大数据,通过可视化分析这些大数据可以让人们对这些数据更加容易的理解,进而更深入来分析这些数据;并且对数据进行可视化分析,能够促进人机交互的开展,利用人机交互来处理大数据可极大的提升数据处理能力和工作效率。当然,移动通信网络当中大数据的处理不仅仅局限于上述挑战,安全问题也是大数据处理所面临的重要问题,因此需加强数据管理,不断提升数据处理技术水平,最终实现大数据有效管理。

3云计算

经分析可以看出,移动通信网络大数据处理有两大趋势,主要是数据量骤增以及分析深度加剧。这对于移动通信网络大数据的处理来讲无疑是一大挑战。而云计算的出现则让移动通信网络大数据处理有了新的思路。2004年,Google就提出了MapReduce技术来作为处理大数据分析和处理的计算模型,此举一出立刻引起了广泛关注。MapReduce技术包含了三个层面,即分布式文件系统、并行编程模型以及并行执行引擎。MapReduce技术的出现引起了各方面关注,而在运行中,慢慢发现其很多不足之处,譬如不支持Schema、没有存取优化以及依靠蛮力来处理数据等等。针对MapReduce当中的不足,研究人员进行了深入研究,对其性能进行了相应提升,并对易用性进行了一定的改进,经过实践证明,MapReduce是分析和处理大数据的一种有效工具,但是在进行大数据处理过程中,MapReduce依旧有着缺陷和不足。就大数据处理模式角度而言,流处理和批处理是其中最为重要的模式。MapReduce只可以运用批处理模式来处理大数据。然而实际状况是,众多的社交网站和电子商务均需要进行在线处理,而MapRe-duce却只能爱莫能助。综上,移动通信网络所产生的数据量不断增多,这些数据为社会带来了便利,然而也面临着大量数据要处理的现实问题。对此应用大数据处理关键技术来解决越来越多的数据难题,尽管还存在一些不足,但相信在科技的发展下这种情况会得到有效改善。

作者:贾丽华 单位:沈阳电信工程局

大数据处理论文:大数据时代下的电力自动化系统数据处理

摘 要:我国电力市场发展度较快,电力系统也正逐步向自动化迈进,并且在运行过程中产生了大量数据,我们将其称之为"大数据时代"。本文主要阐述了电力自动系统在运行过程中产生的具体数据情况,并分析了基于大数据时代背景下如何做好电力数据处理工作。

关键词:大数据时代;电力自动化系统;数据处理

电力自动化数据的处理工作中,要针对不同的数据类型以及系统不同部分对数据的不同要求建立起对应的系统数据资源处理体系。通过建立并整合综合数据库、完成电力系统安全防护规范、形成完善的调度数据体现功能等实现对电力自动化系统中数据的有效处理。

一、电力自动化系统的类型分类

1.基础型数据:主要是与电力自动化系统中的电力设施设备属性相关的数据,如,发电机、变压器等电力设施设备的基础数据。对于这些数据一般是电力单位根据相关的数据规划各自进行管理,并通过相关数据服务器对其数据进行数据同步,便于调度中心对这些数据进行集中存储、整理和相关计算。

2.实时数据:大多数是在电力系统运行过程中进行实时采集的数据,其数据量很大,对存储空间的要求比较高。这些数据是在电力系统运行过程中产生的,通过对其进行纠错处理后,能够为调度部门或市场运营提供决策参考依据。目前,我国电力自动化系统在实时数据处理方面比较成熟,对收集到的实时数据不需要进行相关的处理,只需要在数据输入、输出过程中建立一个稳定的接口即可。

3.日常管理的数据:主要是在电力系统运行过程中对各种相关数据进行统计,各部门对在工作中遇到的问题进行相关处理后的数据信息。一般情况下,这些数据只需要在特定的范围内进行同步和共享即可。在电力系统运行过程中,建立这一类型数据同步和共享的数据平台是十分必要的。主要原因表现在以下几个方面:①这些日常管理的数据在某种程度上反映电力系统中电力设施设备的运行情况;②方便电力系统中各个部门对日常管理数据的获取,以便更好的开展部门工作。

4.市场经济数据:随着市场经济的发展,电力系统的经济效益越来越突出,电力系统运行中的相关数据对电力单位的发展具有重要影响,将其作为经济性数据十分有必要。市场经济数据对城市建设规划中的电力规划有很重要的决策参考依据。市场经济数据具有非常大的扩展空间,其数据规划的重点将是实时数据。

二、电力系统化系统中数据的获取

电力系统化系统中数据的获取就是整个数据的采集过程。在电力自动化系统中,主要包括了数据采集、数据处理以及数据转发三个环节。在电力系统中,实现数据传输是进行数据获取与采集的重要目的。在进行数据传输过程中,可以采用有限传输与无线传输两种方式进行。在采用有限传输的过程中,主要通过使用电缆或者光纤进行传输。而在无线传输过程中,则可以使用微波或者无线扩频的方式进行传送。由于有限传输信号稳定,因此,在电力自动化系统当中主要是使用有线传输方式。但是,由于无线传输方式能够减少线路的铺设工作量,而且在较为偏远的地区能够方便的采集数据,而使得其在部分地区得到广泛应用。

三、电力自动化系统中的数据处理

3.1数据共享

数据共享的主要方式主要包括以下几种:(1)内存数据库。利用内存数据库有着安全性高、访问速度快和结构灵活的特点,但是也存在着一些问题,那就是其开放性较低。(2)利用网络进行通讯。网络通讯的方式有UDP、TCP、IP等,在对数据进行打包发送的过程中,网络通讯的方式相应速度较快,而且数据在处理的过程中,使用的是二进制的方式,这种方式在编程的时候较为复杂。(3)直接内存访问。利用直接内存访问的方式进行共享,有着传输速度较高、进入的速度较快的特点,但是在数据处理的过程中,对于整个系统的安全性会造成一定的影响。电力自动化系统使用的是DCOM技术来进行内存数据库的访问的,例如,远程主机在进行数据共享的过程中,可以使用网络映射的方式将远程主机进行映射,使其映射到本地的磁盘中,这样是便于数据的下载与更新的。

3.2数据流

数据流也是电力自动化系统运行中十分重要的组成部分,在数据处理中扮演着关键性得角色。随着计算机技术和网络技术的快速发展,数据流呈现出了连续性、顺序性和实时性,整个过程的起点是在数据进入到了系统中开始,而数据在流动的过程中,那么信息的流动策略就会与整个系统的功能有着紧密的联系。随着电力自动化技术的不断提高,电力系统在运行的过程中,数据量在逐渐的增加,整个系统结构也变得越来越复杂,必须要对相应的数据量进行科学的分析,这样才能够合理的部署,提高数据传输的效率,使数据流在运行的过程中,能够充分的保障其性、安全性和实时性。数据流技术在处理的过程中,一定要将接口的统一性进行相应的处理,在这样的情况下,就要充分的解决各个子系统之间的在接口统一性上的问题。

3.3电力自动化系统中的数据整合

电力自动化系统的建立及发展是基于“建立调度综合数据应用与交换平台,规范和整合调度系统数据”的基本要求,通过数据让你过河、功能完善等方式使得不同的专业技术以及信息安全技术在系统中得到应用和体现。同时,电力自动化系统的整合工作必须基于国家电网调度系统的数据整合原则及基本工作框架进行。当前,系统建设的主要目标在于建立一个综合数据库、形成一个与电力二次系统安全防护要求相一致的信息交换体系,实现通用调度数据的体现。在具体的实施过程中,可以采取如下步骤进行:(1)基于既有系统开发多种分散数据的采集与整合工具,形成统一数据规格的管理规范,建立一个基于对象的数据处理数学模型,进而实现系统信息的相互关联,实现信息区域的管理中心。(2)利用通用调度数据展现技术给电力自动化系统用户提供便捷的数据分析、加工及理途径。同时,开发并实现基于用户自定义规则的调度数据综合处理信息系统,实现对数据的重复利用。(3)开发横向调度数据接口技术,通过完善并统一对外调度接口的方式,避免出现数据多重交叉的以及重复输出问题。(4)形成上、下级纵向调度数据的标准接口,构建起广域范围中的金字塔式形式的立体数据体系。

四、智能电网

1.智能电网中的网络拓扑结构

智能电网中的网络拓扑结构具有坚强、灵活的特点,能够有效的解决电力系统中能源和生产力分布不均匀的问题,满足电力企业大规模生产运输过程中产生大规模数据的处理功能,实现资源的优化配置,减少电能损耗。同时,智能电网中的网络拓扑结构能够有效的应对一些自然灾害,如雨、雪等。

2.开放、标准、集成的通信系统

智能电网能够对电力自动化系统进行及时有效的监控,主要在其具有识别故障早期征兆的预测能力和对故障做出相关的相应的能力。智能电网是电力自动化企业的发展方向,能够为电网规划、建设和运行管理提供的数据信息,有利于大数据时代下电力自动化运行系统的稳定、安全和高效的运行。

结语

自动化系统的正常运行,一定要充分考虑到系统运行中数据信息的数量信息,便于数据的维修和存储空间的无限扩展。文章主要是分析了自动化系统的数据类型,并且对其进行了详尽的分析,对于相关问题进行了阐述,给电力自动化系统提供了更加广阔的空间,并探究了智能电网在电力自动化运行系统中运行的优势和未来的发展方向。

大数据处理论文:大数据处理平台比较研究

摘要:大数据环境下,传统的数据处理方式不再适用,以云计算技术为支撑的大数据处理平台应运而生。比较了开源Hadoop和Spark平台各自的优缺点,发现各自的适用范围:Hadoop适用于数据密集型任务,并广泛应用于离线分析;Spark因其基于内存计算,在迭代计算和实时分析领域占据优势。二者在功能上有较强的互补性,协同使用可以发挥更大效益。

1大数据处理平台

1.1大数据特点

目前,大数据还没有一个标准定义,但是把握大数据的特征,有助于加深对大数据内涵的理解。数据具有的3V特征,即规模大(Volume)、种类多(Variety)、速度快(Velocity)。规模大,意味着数据量不断扩张,数据量级从现在的GB、TB增长到PB、EB甚至ZB级;种类多,指数据类型有结构化、半结构化和非结构化,其中文字、图片、音频、视频等非结构化数据占很大比例;速度快,表示大数据有强时效性,数据快速产生,需要及时处理及分析才能实现大数据的经济价值。 大数据的处理过程为数据抽取与集成、数据分析以及数据解释 [1]。巨量的数据往往也意味着噪声较多,这给数据清洗工作造成困难。传统的关系型数据库处理对象单位通常为MB,适合处理存储结构化数据,而面向大数据的数据库技术能够解决海量的非结构数据存储问题。传统的数据分析方法以算法的率作为重要的衡量指标,而大数据的高速性要求算法必须牺牲一部分性以更高效地处理数据。

1.2大数据处理平台

为从规模巨大、种类繁多、生成快速的数据集中挖掘价值[2],针对大数据的技术和方法应运而生。GFS、NoSQL、ITHbase、MapReduce等云计算技术发展,使大数据有效存储、管理和分析成为可能。但从众多复杂的大数据技术中进行选择,并搭建完备的大数据处理框架难度很高,不利于挖掘大数据中的经济价值。大数据平台能在用户不了解架构底层细节的情况下,开发大数据应用程序。全球经验丰富的科技巨头纷纷提出了建设与应用大数据处理平台:IBM公司推出了云端版InfoSphere BigInsights[3];HP推出了HP Vertica6.1分析平台[4];Google提出的GFS、MapReduce等云计算技术催生了大数据处理平台的事实标准Hadoop。目前,Google使用的是自己开发的Caffeine[2];Facebook结合自身需求实现了Corona、Prism。完备、高效的大数据处理平台为大数据应用提供一站式基础服务,支持应用系统从清洗、集成、分析到结果可视化展现全过程建设,降低了用户技术门槛[5]。

2大数据处理平台比较

Hadoop的支撑技术(MapReduce等)成熟,实现了海量数据分布式存储和批量处理,应用广泛,成为大数据处理平台的事实标准。Spark以其近乎实时的性能和相对灵活易用而受到欢迎,它同Hadoop一样都是Apache旗下的开源集群系统,是目前发展最快的大数据处理平台之一。

2.1Hadoop与Spark比较

2.1.1Hadoop及特c Hadoop是由Apache开发的开源云计算平台,实现在大量计算机组成的集群中进行分布式存储和计算。Hadoop框架最核心的技术是HDFS和MapReduce。HDFS是可部署在廉价机器上的分布式文件系统,采用主/从结构,将大文件分割后形成大小相等的block复制3份,分别存储在不同节点上,实现了海量数据存储。MapReduce编程模型实现大数据处理,它的核心是“分而治之”[1]。Map任务区将输入数据源分块后,分散给不同的节点,通过用户自定义的Map函数,得到中间key/Value集合,存储到HDFS上。Reduce任务区从硬盘上读取中间结果,把相同K值数据组织在一起,再经过用户自定义的Reduce函数处理,得到并输出结果;将巨量资料的处理并行运行在集群上,实现对大数据的有效处理。 Hadoop具有如下优点[69]: (1)高扩展性。Hadoop的横向扩展性能很好,海量数据能横跨几百甚至上千台服务器,而用户使用时感觉只是面对一个。大量计算机并行工作,对大数据的处理能在合理时间内完成并得以应用,这是传统单机模式无法实现的。 (2)高容错性。从HDFS的设计可以看出它通过提供数据冗余的方式提供高性。当某个数据块损坏或丢失,NameNode就会将其它DataNode上的副本进行复制,保障每块都有3份。所以,在数据处理过程中,当集群中机器出现故障时计算不会停止。 (3)节约成本。首先,Hadoop本身是开源软件,免费;其次,它可以部署在廉价的PC机上;“把计算推送给数据”的设计理念,节省了数据传输中的通信开销。而传统的关系型数据库将所有数据存储起来,成本高昂,这不利于大数据产业发展。 (4)高效性。Hadoop以简单直观的方式解决了大数据处理中的储存和分析问题。数据规模越大,相较于单机处理Hadoop的集群并行处理优势越明显。 (5)基础性。对于技术优势企业,可以根据基础的Hadoop结合应用场景进行二次开发,使其更适合工作环境。比如,Facebook从自身应用需求出发,构建了实时Hadoop系统。 Hadoop系统局限性 [1011]:①不适合迭代运算。MapReduce要求每个运算结果都输出到HDFS,每次初始化都要从HDFS读入数据。在迭代运算中,每次运算的中间结果都要写入磁盘,Hadoop在执行每一次功能相同的迭代任务时都要反复操作I/O,计算代价很大。而对于常见的图计算和数据挖掘等,迭代计算又是必要的;②实时性差。Hadoop平台由于频繁的磁盘I/O操作,大大增加了时间延迟,不能胜任快速处理任务;③易用性差。Hadoop只是一个基础框架,精细程度有所欠缺,如果要实现具体业务还需进一步开发。MapReduce特定的编程模型增加了Hadoop的技术复杂性。

2.1.2Spark及特点 Spark的整个生态系统称为BDAS(伯克利数据分析栈),包括Tachyon、Spark Streaming、Spark Core、MLlib等。其核心框架Spark是为了实现大数据的快速处理而设计的,可以用来构建低延迟应用。Spark以RDD(弹性分布数据集)为基础,实现了基于内存的大数据计算。RDD是对数据的基本抽象,实现了对分布式内存的抽象使用。由于RDD能缓存到内存中,因此避免了过多的磁盘I/O操作,大大降低了时延。Tachyon是分布式内存文件系统,类似于内存中的HDFS,基于它可以实现RDD或文件在计算机集群中共享。Spark没有自己的文件系统,通过支持Hadoop HDFS、HBase等进行数据存储。Spark更专注于计算性能,其特点如下[1113]: (1)高速性。Spark通过内存计算减少磁盘I/O开销,极大缩小了时间延迟,能处理Hadoop无法应对的迭代运算,在进行图计算等工作时表现更好。高速数据处理能力使得Spark更能满足大数据分析中实时分析的要求。 (2)灵活性。较之仅支持map函数和reduce函数的Hadoop,Spark支持map、reduce、filter、join、count等近80多种操作类型。Spark的交互模式使用户在进行操作时能及时获得反馈,这是Hadoop不具备的。Spark SQL能直接用标准SQL语句在Spark上进行大数据查询,简单易学。尽管在Hadoop中有Hive,可以不用Java来编写复杂的MapReduce程序,但是Hive在MapReduce上的运行速度却达不到期望程度。

2.1.3Hadoop与Spark特点比较分析 Hadoop具有高扩展性、高容错性、成本低、高效性、不适合迭代运算、实时性差、易用性差等特点,与之相比,Spark最突出的特点是高速性和灵活性,基于这些特点分析总结如下:Hadoop更注重存储性能,而Spark更专注于计算,可以形象地将二者的处理方式比作“大砍刀”和“剔骨刀”,前者可以胜任更加繁重的任务,但难免粗糙,后者则胜在快速、灵巧上。

2.2Hadoop与Spark应用场景比较

2.2.1Hadoop应用场景 Hadoop的高扩展性、高容错性、基础性等优点,决定了其适用于庞大数据集控制、数据密集型计算和离线分析等场景。针对Hadoop的局限性,为提高Hadoop性能,各种工具应运而生,已经发展成为包括Hive、Pig、HBase、Cassandra、YARN等在内的完整生态系统。HBase新型NoSQL数据库便于数据管理,Hive提供类似SQL的操作方式进行数据分析,Pig是用来处理大规模数据的高级脚本语言……这些功能模块在一定程度上弥补了Hadoop的不足,降低了用户使用难度,扩展了应用场景。

2.2.2Spark应用场景 与Hadoop不同,Spark高速、灵活的特点,决定了它适用于迭代计算、交互式查询、实时分析等场景,比如,淘宝使用Spark来实现基于用户的图计算应用[11]。但是,其RDD特点使其不适合异步细粒度更新状态的应用[1],比如,增量的Web抓取和索引。RDD的特点之一是“不可变”,即只读不可写,如果要对RDD中的数据进行更新,就要遍历整个RDD并生成一个新RDD,频繁更新代价很大。

2.2.3Hadoop与Spark的互补竞争关系 Hadoop与Spark同榇笫据处理平台,必然在市场中存在一定的竞争替代关系,二者在功能上有较强的互补性。Hadoop解决了如何将大数据储存起来的问题,Spark在此基础上考虑的是更快速、易用地实现大数据分析,这点从Spark仍采用HDFS作为文件系统就可看出。它们适用于不同的应用场景,有时协同工作会达到更理想的效果,在Spark和Hadoop的许多发行版(如CDH、MapR、InfoSphere BigInsights)中,它们都已经互相支持实现。

3结语

本文分析了大数据的3V特点,论述了大数据处理与传统数据处理的不同,指出了传统处理方式在大数据环境下的局限性。通过分析常用的大数据处理平台,并分析Hadoop和Spark的核心技术,对其优缺点进行了归纳。Hadoop实现了海量异构数据的存储和处理,虽然在处理速度和易用性方面存在缺陷,但由于它的基础性还是得到广泛应用,企业可根据自身应用特点进行改进。虽然Spark不适合异步细粒度更新状态的应用,但在处理性能和易用程度上较Hadoop优势显著,发展也十分迅速。通过比较两者的优缺点,可以发现它们在功能上有较强的互补性,协同使用可以带来效益优化。目前Spark和很多Hadoop发行版都已经互相支持。期望本文对大数据处理平台的选择、利用和研发有所启发。

大数据处理论文:大数据处理技术在智能电网领域中的应用研究

【摘要】 文章首先对智能电网和大数据处理技术进行了简介,进而分析了智能电网的大数据特点,提出了大数据处理技术在智能电网领域中的具体应用。

【关键词】 大数据处理技术 智能电网 具体 应用

前言:随着我国工业的高速发展以及居民生活的丰富化,目前我国的电力行业取得了巨大的发展,跨区联网的规模处于不断扩大中。而就电网结构而言,也处于不断复杂的趋势下,存在的不稳定因素也越来越多,使用中的风险以及故障的机率特增加了很多。进而大数据分析处理技术得以在电网中使用,实现了电网管理的智能化,提升了电网使用的稳定性和安全性。基于此,文章围绕大数据处理技术在智能电网领域的应用为中心,分三部分展开了细致的分析探讨,旨在提供一些该方面的理论参考,以下是具体内容。

一、智能电网和大数据处理技术简介

1.1智能电网

所为智能电网指的是以基本的物理电网为基础,通过应用目前的现代信息技术、通信技术以及计算机处理技术等技术,同时和传感测量技术一控制技术进行结合,进而形成的一种高度集成的新型电网。智能电网在电网运输的安全性和性上都于很大的保障,同时从功能上观察,也具备电网实时信息的处理、分析、集成、安全以及显示等诸多功能[1]。

1.2大数据处理技术

所谓大数据处理技术就是对数量庞大的数据进行分析和处理的技术。目前主要使用的大数据处理技术都是基于互联网的云处理技术的,在社会中的各行各业中均有得到了广泛的应用。

二、智能电网的大数据特点

2.1规模大

就智能电网所产生的大数据而言,其首先存在的一个特点即规模大。在电网的不断发展过程中,其负荷节点和电机节电会不断增加,再加之电网和负荷之间的双向交互因素的影响,就会大大增加电网数据的量,M而所产生和需要储备的数据也就随之大量增加[2]。

2.2速度快

因为在电网的运作过程中,负荷的波动具有极大的随机性,因此在电网的随时监测工作上所产生的随机性就很大。而电网一旦出现故障,导致的进一步事故发展的速度很快,并且造成的事故损失也会很大,因此智能电网的大数据也具有速度快的特点。

2.3多样性

多样性也是电网所具备的一个特点之一。因为智能电网在运作过程中,所涉及到的面很多,因此其所产生的数据,包括内部数据、外部数据等多个方面的数据,其种类十分繁多。

三、大数据处理技术在智能电网领域中的具体应用

3.1支持基建决策

首先大数据处理技术在智能电网的基建决策中起着十分重要的作用。例如可以通过大数据处理技术对电网基建地的天气系统数据进行细致的剖析,并且和电网企业的发电机数据进行综合分析。进而根据企业所累积的数据以及天气系统所提供的风速、风向以及气温、气压湿度等数据作为基础数据,并采用数据建模技术,对这些因素可能导致的对电力的影响,进行模式运算,得出电网基建的位置[3]。

3.2进行客户分析

其次在智能电网中,大数据处理技术还被广泛的应用于对客户的分析工作中在电网的运作过程中会产生大量的用户数据,而通过对这些数据的分析和归类可以对电网用户群体有一个清晰的认识,进而就可以展开针对性营销,对于提升电网企业的市场竞争力具有重要的意义。

3.3实现协同化管理

从整体上观察,对于电网企业而言,其在市场中的运作并不仅仅只涉及到电网企业一家,和市场的诸多行业均有一定的涉及,因此要保障电力企业的发展就必须和其他行业的企业做好协同工作。通过大数据处理技术的应用可以提升行业之间的联系,进而可对行业的前景有一个动态的了解。而这不仅仅局限于电力企业一家,同时对其他和电力行业密切相关的企业也有十分巨大的影响,可促进电力企业的内外共同发展。

结束语:综上所述,智能电网指的是以基本的物理电网为基础,通过应用目前的现代信息技术、通信技术以及计算机处理技术等技术,同时和传感测量技术一控制技术进行结合,进而形成的一种高度集成的新型电网。其在自身的大数据上具有规模大、速度快以及种类多样的特点。而大数据处理技术在智能电网领域支持基建决策、进行客户分析、提升智能控制以及实现协同化管理等多个方面都有十分广泛的应用,是保障智能电网运作稳定性和安全性的一个基本技术。

大数据处理论文:基于人脸识别的智能大数据处理系统的研究

摘 要:构建一个基于人脸识别的智能大数据处理系统,将图片中提取的人脸数据特征上传到HBase分布式数据库中进行存储,使用Mahout提供的推荐、分类等数据挖掘算法进行数据挖掘,使用Echarts框架将挖掘结果直观显示给用户。

关键词:大数据;数据可视化;数据挖掘;数据预处理

1 概述

面对互联网络的海量数据,如何提取有用的信息并进行数据分析和挖掘就显得尤为重要。一般置于商场和公共场所的数字标牌广告机只具有信息显示和信息功能,无法了解用户更多行为,运用先进的人脸识别技术和视频智能分析技术提供一套完善的解决方案,能够智能统计和分析用户状态,帮助了解用户的喜好。

基于人脸识别技术设计一个对人脸信息进行智能处理的系统,利用人脸识别技术统计商家数字标牌内容的观看人数、观看人的性别、年龄等信息,基于收集的数据利用大数据分析技术辅助产品提供者制定更加精准、人性化的推广方案和内容。

2 关键技术简介

2.1 Hadoop分布式数据处理平台

Hadoop是基于MapReduce数据集计算框架对原始的数据集进行处理的平台,可以快速、高效的海量数据进行快速处理。

2.2 HBase分布式数据

HBase是基于Hadoop平台的分布式的开源数据库,是一种基于列存储的、非关系型的数据库。

2.3 Mahout数据挖掘工具

Mahout是Apache旗下的一款数据挖掘工具,可以运行在Hadoop平台上对数据进行处理,包含了诸多的挖掘算法,例如:聚类、分类、推荐等,对数据处理提供了极大的便利性。

2.4 Echarts数据可视化工具

Echarts商业报表技术是一个纯的JavaScript的图表库,其中包含了诸多的商用图表,例如:折线图、柱状图、散点图、K线图、饼图等等,提供了简洁、直观、生动、可交互的数据可视化图表。

2.5 Face++人脸识别技术

Face++人脸识别技术可用于对图片中人脸的检测、微笑分析以及性别、年龄、种族、面部器官等坐标数据的获取。

3 系统功能描述

基于人脸识别的大数据智能处理系统首先通过人脸识别技术收集信息,利用大数据处理技术分析用户对内容的喜好,为不同性别、年龄、情绪状态的用户提供更加人性化的内容,在不同时段投放不同内容作出参考依据,为用户带来更好体验同时为投资者带来更丰厚的回报。具体包括人脸识别和数据分析两部分内容。

3.1 人脸识别

(1)人脸检测:通过摄像头获取人脸轮廓,提取特征生成特征数据库。

(2)表情检测:通过摄像头判断当前人脸是否注视摄像头,可识别睁眼、闭眼、眨眼等动作。

(3)姿态检测:通过摄像头判断当前人脸是平视、抬头、低头、左右转头等。

3.2 数据分析

通过人脸特征的提取,对其中的信息进行分析,根据统计数据,给出推荐的广告位置和投放时间等信息,为商家提供参考依据。

4 系统构建

4.1 系统设计

针对系统的功能描述,构建分布式集群环境,通过图片预处理、数据挖掘以及数据可视化三大核心模块,完成系统的构建。

(1)图片预处理

在数据处理前期对图片进行预处理,利用Face++人脸识别技术,提取人脸信息,并将其上传到HBase分布式数据库中进行存储。

(2)数据挖掘

使用Mahout开源的数据挖掘框架,进行参数设置后调用推荐、分类算法进行数据挖掘工作,获取挖掘结果,并将其存放到数据库中。

(3)数据可视化

从前台获取数据库中存储的挖掘结果,使用Echarts可视化工具进行数据显示。

4.2系统实现

(1)人种兴趣图

鼠标放在某一区域时会显示该人种所占的比例,点击下载图标时可将整个图表以图片的形式保存下来。

(2)数据分布图

查看每个区域的数据分布情况,直观明了。

5 结束语

本系统可以快速的对大量的人脸数据进行处理并提取出有效信息,在数据可视化平台进行数据展示,给用户以直观、生动的数据感受。同时,用户可以对相关结果进行下载、打印等操作。

大数据处理论文:Spark 2.0平台在大数据处理中的应用研究

摘要摘要:Spark分布式框架具有利用数据集内存缓存、启动任务的低迟延、迭代类运算、实时计算的支持和强大的函数式编程接口等特征。描述Spark 集群环境的搭建过程,将Spark 应用到预测森林植被中,对基于RDD和基于Data Frame接口的Spark随机森林算法的性能差异进行比较。实验结果表明,基于Dataset结构的随机森林法预测效果好、执行时间短,可以广泛使用。

0引言

数据爆炸式增长和隐藏在这些数据之后的商业价值催生了一代又一代的大数据处理技术。2004年Hadoop横空出世,由Google公司提出的开源的MapReduces的大数据处理框架拉开了其在企业应用的序幕,它被视为解决高性能处理大数据的有效方案。但是MapReduces框架不仅存在单点故障,而且对实时数据和流式数据访问能力弱,导致基于MapReduces框架的Hadoop平台应用推广受到较大影响。

Apache Spark是另一种分布式、开源计算框架,目的是简化基于计算机集群的并行程序的编写。Spark不仅可以发挥MapReduces对大数据的处理能力[1],还可以充分利用数据集内存缓存、启动任务的低迟延、迭代类运算、实时计算的支持和强大的函数式编程接口[2]。Spark是Apache的顶级开源项目,功能不断完善。现在近期版本为Spark 2.10,它集成了基于RDD和DataFrame(Dataset)两种编程接口。为了简化编程,方便更多人使用,同时进一步提高数据处理速度,Spark 3.0版本会摒弃直接面对用户的基于RDD编程接口。目前,Spark分布式框架在基于机器学习和迭代处理的大数据分析上有广泛应用。

1Spark2.0 基本原理

Spark继承了MapReduces的线性扩张性和容错性,同时对它作了一些重量级扩展,主要包括核心数据结构:RDD(Spark 3.0以后使用Data Frame、Dataset)。

RDD是Spark的核心数据结构,是一种基于内存弹性分布式数据集[3]。利用RDD可以把一部分数据,包括中间结果缓存在内存中,为后续计算所重复利用,不需要像其它计算结构需要反复访问磁盘,节省了大量时间。与Hadoop MapReduce相比,其实验的性能要快100倍,访问磁盘的性能快10倍[4]。基于DataFrames/Dataset的高层API,利用PipeLine可以方便用户构建和调试机器学习流水线,完成高效的数据处理。RDD(DataFrames、Dataset)数据结构解决了MapReduces存在的很多问题。

(1)解决了MapReduces启动迟缓问题[5]。利用Spark采用的有向无环图的任务调度机制,可以对多个Stage的Task进行串联或并联Excutor,无需将每个Stage的中间结果保存到HDFS,不需要访问磁盘,因此可以节省时间。尤其在计算机集群的环境下,可以避免运算时过量的网络和磁盘IO开销。

(2)支持迭代计算。迭代计算需要访问相同的数据集,采用基于内存的RDD/DataFrame/Dataset结构可以避免重新计算和从磁盘加载。

(3)支持实时计算。基于Spark构建Spark Straming 是在Spark基础上的二次开发,主要是将其实时、流水任务离散化成一系列的DStream的数据窗口[6],最小窗口选择只需要0.5~2s,满足大多数的准实时计算场景。

(4)性能优化。Dataset API建立在Spark SQL引擎之上,它可以利用Catalyst来优化逻辑计划和物理查询计划。而且采用特殊的Encoder,不仅可以有效序列化JVM object,还可以直接被Spark的许多操作,如Filter、Sort、Hash等使用,从而提高执行速度。

2Spark2.0在预测森林植被中的应用

目前,Spark支持4种运行模式。本地单机模式、集群模式、基于Mesos、基于YARN、基于EC。本文的Spark分布式集群基于YARN,即Hadoop2。

2.1Spark分布式集群h境搭建

实验环境所需的软硬件设备如下:

软件:操作系统采用Ubuntu Server 16.10 版本,Hadoop 2.7 版本,JDK 1.8 版本,虚拟软件VMware Station Pro 12;硬件:1 台联想台式机,CPU 是主频3.4GHz的Intel的酷睿i7,超频4.2 GHz,硬盘容量1T,内存16GB。

Spark集群环境的搭建过程如下:

(1) 安装3台虚拟机,OS版本ubuntu server 16.10 版本,并通过Hostname、Interfaces、Hosts文件分别设置主机名(Master、Slave1、Slave2)、IP地址,以及DNS映射关系,执行sudo ufw disable、Ping分别关闭防火墙以及检验3台虚拟机互通无阻。

(2)在每台虚拟机上安装JDK、Scala、Hadoop、Spark并配置相关的Java环境变量。

(3)在每台机器上执行安装openssh-server服务,执行ssh-keygen生成SSH 密钥文件,保障相互直接建立不需要密码的SSH可信通道。

(4)修改Spark目录下conf/core-site.xml、mapred -site.xml、 yarn-site.xml、hdfs-site.xml、hdfs-env.sh、masters、slaves文件,确保能够正常启动Spark。

2.2随机森林算法预测森林植被实现

在Spark机器学习中,用于分类的算法有很多,其中效果较好的有SVM和随机森林算法。随机森林(Random Forest,RF)是由 Leo Breiman 将 Bagging 集成学习理论[7]与随机子空间方法[8]相结合,于2001年提出的一种机器学习算法[9]。RF利用Bootstrap重抽样方法从原始样本中多次随机抽取不同特征的子集数据组成训练样本,构建多棵、合理、独立的子树,然后融合多棵决策树的预测结果。在大数据背景下,RF不仅能够与Spark和Map Reduce的并行处理特征结合,预测效果好,而且基于Dataset 的执行时间要比基于RDD的少。

为了更加深入地了解RF性能,尤其是测试效果,需要在实践中进行检验。本实验数据采用Kaggle大赛的数据Forestcover-Type-Prediction,记录了美国科罗拉多州不同地块森林植被特征:海拔、坡度、与水源的距离、遮阳情况和土壤类型,并给出了地块的已知森林植被类型,共54特征,有581012个样本[10]。本实验主要比较基于RDD和基于Data Frame[Row]/Dataset API接口的Spark随机森林算法的性能差异。关键代码及参数如下:

2.3性能分析

通过对决策树、随机森林模型的impurity、maxDepth、maxBins、minInfoGain、numTrees(只有随机森林才有此参数)、maxMemoryInMB等参数进行调试,对比其性能,找到参数及模型。下面分别从训练时间、参数、预测效果的Accuracy 3个方面进行比较。

2.3.1寻找参数训练时间比较

由表1可以发现,随机森林算法的训练时间,无论是基于RDD数据结构还是基于Datase结构,都要比决策树算法的训练时间长。实验过程中的数据也显示,随着随机森林算法的树深度的加大和树数量的增加,训练时间明显延长。

2.3.2寻找模型参数

从表2中可以发现,与决策树的参数相比较,随机森林算法的参数深度相近,桶数数量相差很大,该数据为调试参数有一定的参考意义。

2.3.3预测效果Accuracy比较

由表3可知,与决策树的Accuracy相比,随机森林算法的Accuracy明显要高(无论是训练数据、交叉数据,还是测试数据)。这说明多棵树的评价效果比单棵树的预测效果好。

3结语

Spark实现了分布式计算框架,它是采用分布式处理大规模数据的最有效途径。在搭建好的实验环境下,对基于RDD和基于Data Frame[Row]/Dataset API接口的Spark随机森林算法的性能差异进行了比较,相对而言,基于RDD接口的随机森林算法的执行效率较差。并且将随机森林算法与决策树算法比较,更好地体现了随机森林算法良好的预测效果,但是训练的时间进一步延长了。如何在集群环境中针对数据的特性,利用Spark平台快速找到相应的模型并通过调整模型参数使预测效果达到,将是下一步研究的重点。

大数据处理论文:大数据以及大数据处理技术在医院信息化建设中的应用

摘要:在大数据技术不断发展的情况下,其在实际生活当中也具有了更广的应用范围。目前,医院积极开展了信息化平台的建设,要想有效的达成目标,就需要做好大数据技术的应用。在本文中,将就大数据以及大数据处理技术在医院信息化建设中的应用进行一定的研究。

关键词:大数据;大数据处理技术;医院信息化建设;应用

在现今信息化时代背景下,各行业也大力开展了信息化建设。在医院中,实现信息化平台的建立与应用已经成为了医院加强管理的重要突破口。其中,数据挖掘可以说是大数据当中的核心技术,通过该技术的应用,将在有效实现医院信息化建设的同时提升工作效果。

1 数据挖掘技术

数据挖掘技术,即在从不、随机以及大量的数据当中将其中不为人知且具有潜在作用知识、信息进行提取的过程。从医院角度考虑,其关键数据挖掘技术有:建立数据关联模型,了解哪些疾病在哪类病患身上容易并发;对成像仪器(如 B 超、CT 等)的影像数据进行挖掘等。这部分数据的获得,对医院的发展具有十分重要的意义,首先,在医学领域当中,其具有较多的数据资源,且数据库在复杂程度以及规模上不断发展。在该种情况下,从大量数据当中做好有用信息的提取则成为了非常重要的一项工作。其次,在医院信息系统中,也具有着大量的临床信息以及管理信息,如何从这部分数据当中挖掘出有价值、深层次的知识,则是医院发展当中的重要课题。而数据挖掘技术则能够从海量数据当中提取有价值的信息,在对未来行为进行预测的情况下做出具有前瞻性的决策,能够有效实现医院管理能力的提升。

2 应用现状

2.1 现有建设问题

目前,我国广泛通过计算机的应用实现信息系统的建立,且有医院逐渐对微机局域网进行了建设,并实现部分子系统的开发,如机关事务处理系统以及门诊住院收费系统等。而在大多数医院中,其在对系统数据进行处理时,仅仅限于删除、查询、修改以及统计这几方面工作,对于这部分工作而言,其仅仅属于医院数据库当中较低层次的应用,并没有对数据实现深层分析与集成,也不能够自动获取医学知识,并因此对系统的实际应用效果产生了较大的影响。在该种情况下,则需要医院加强信息化建设,在以系统数据库作为数据源的基础上通过数据仓库技术的应用对信息分析系统进行建立,也正是医院现阶段发展中非常重要的一项任务。

2.2 应用情况

目前,我很多医院都已经逐步建立起了医院信息管理系统,且在数据挖掘急速的应用方面也获得了一定的发展,在医院经营目标管理、财务物资管理、医院质量管理以及经营决策管理方面都具有着十分积极的作用。举一个简单的例子,通过数据挖掘技术的应用,医院则能够在联系就诊疾病分类情况的基础上对科室建设进行确定,如风湿性关节炎、慢性支气管炎等病症发病率近几年逐渐减少,而部分慢性非传染病如糖尿病、高血压以及心脑血管疾病等发生率逐渐增加等。在做好这部分信息把握之后,医院则可以更有目的的实现相应设备的购置,并建立起同其配套的科研中心或者重点实验室。而在该技术在医院信息化建设实际应用的过程中,也存在着一定的问题,其主要表现为:及时,在部分医院中,其信息管理系统的实现目标更多为日常业务,如结算、挂号以及收费等,分析功能较为有限,从普通的查询工具以及报表当中也能够获得,并没有对数据挖掘技术的分析功能进行充分的应用;第二,在医院不同业务部门中,具有大量常用的数据,但在实际存储方式上则具有着较大的差异,如FoxPro、Oracle以及Acess等。该种情况的存在,则需要在根据信息源的不同对不同的分析应用进行开发,使医院对数据综合应用的广度与深度以此获得发展;第三,医院在实际对信息系统进行应用时,该系统是公司在联系具体科室需求的基础上订制的,并不能够使数据库的设计统一进行实现,不仅不同字段在长度、格式以及类型方面无法统一,且部分字段在设计当中也存在不合理的情况。而在对数据仓库进行建立时,不同数据源数据也是实际决策分析工作开展的关键,如果以该方式对数据信息进行挖掘,则往往会存在问题。

3 应用建议

就目前医院信息化建设当中在数据挖掘技术应用方面存在的不足,在未来工作中,可以从以下方面做好应对与优化:

3.1 明确建设理念

通常情况下,从系统功能角度分析,医院信息化建设可以分为业务信息以及管理信息系统,在现今医院信息系统中,都以联机的方式对相关事务进行处理,在该处理方式中,管理层只具有数据汇总以及报表生成等较为简单的功能。而在信息管理系统当中数据不断增多的情况,如何通过这部分数据的应用推动医院工作进一步与开展,则成为了现阶段医院发展当中需要重点解决的问题。对此,在医院信息化建设当中,就需要先明确基础指导理念,通过挖掘技术的科学运用实现自身数据库的构建:首先,要从日常业务入手进行变革,加强信息流以及资金流等信息的收集,在信息收集完毕之后在存储以及传输过程中其这部分数据的电子、网络化进行实现,做好数据的积累与存储。同时,医院的决策者以及管理者也需要做好数据挖掘技术以及数据仓库技术的应用,通过深入理解分析对数据库当中有价值的信息与知识进行获取,以此不断实现医院经营管理水平的提升。

3.2 掌握应用原则

要想在工作当中做好数据挖掘技术的应用,首先,就需要做好该技术应用流程的把握,在实际对数据挖掘技术进行运用时,其常用步骤有目标的确定以及模式发现等方面。其中,模式发现可以说是现阶段医院数据信息工作开展中的核心内容,在该内容中,其将可以在科学运用数据挖掘算法的基础上对供决策应用的各类规则以及模式进行获得;其次,要积极探索可视化操作。在技术应用中,能够实现挖掘模型以及相关数据的可视化处理,也将因此影响到数据的解释以及以及挖掘能力。在该种情况下,医院则能够充分应用可视化数据技术,以此使用户在数据剖析方面具有更为清晰的特点,如可以将数据库当中多为数据实现向多种图形的转变,以此在数据潜在规律以及内在本质揭示方面发挥更大的作用。

3.3 挖掘综合信息

医院在运行当中,患者在治疗过程中将留下较为复杂且各异的治疗记录。在该种情况下,通过应用数据挖掘技术,医院则能够从新的视角观察相关数据,并在做好数据观察的同时深入的挖掘用户综合信息。如医院可以从具体科室、病人身份以及出院时间等方面观察医院最近一段时间的工作情况,并在住院时间的基础上绘制病人在院内的住院时间频谱图,以此对其分布规律以及集中趋势进行观察,此外,还可以将科室为基础,对病人构成以及住院变化方面的规律以及相关因素在住院方面的影响进行积极的研究,通过数据挖掘技术在该过程当中的应用,则能够在做好患者数据把握、深入分析的基础上为医院决策提供服务。

3.4 提升患者满意度

在医院发展中,其服务质量以及患者的满意程度十分关键,不仅将对人的健康水平具有直接的联系,同时也是医院能够获得较好生存发展、是否具有较高生命力的重要问题,将直接对医院经营成败产生影响。通过数据挖掘技术的应用,则能够在医院提升患者满意度方面作出更大的贡献。如医院在工作当中可以做好门诊就诊人次与各类医院设备应用情况的分析,在对医院医疗服务质量进行反映的基础上将其作为管理人员决策的重要的依据,在对医疗成本进行降低的基础上实现医院综合能力的提升。

4 结语

在网络、信息技术不断发展的情况下,使我们都身处在信息化时代当中。在信息化时代中,医院在工作当中需要能够做好大数据技术的重视与应用,在提升自身管理水平的基础上获得更好的发展。

大数据处理论文:基于大数据的综合数据处理平台方案设计研究

摘要:在大数据的发展时代背景下,我国的各行各业都在致力于将人、物、机等三元世界在网络空间中进行交互、融合,以获得互联网上的大数据资源。在大数据资源的潮流趋势之下,文章主要围绕大数据的研究现状、作用意义展开,在此基础上探索综合数据处理平台,并对其平台方案的设计进行研究,以促进我国信息化社会的建设。

关键词:大数据;综合数据处理;平台方案设计;研究

随着互联网、物联网以及云计算等IT技术的进一步发展,我国社会的各行各业都迎来了新的发展机遇和挑战。在大数据的时代背景下,探索综合数据处理平台的方案设计研究,不仅能够改变我国的经济发展增长方式,而且还能够让各行各业的发展跟上时代潮流的发展步伐,提升我国产业经济的国际竞争力,促进我国综合国力的进一步提升。

1 大数据的概念及其作用、意义解析

大数据是一个高度抽象、凝练的概括词,各行各业的专家、学者大多都是根据自己的理解来对大数据进行定义,因此,迄今为止,人们对大数据都没有统一、标准的定义,大数据的概念还处于仁者见仁、智者见智的状态。

大数据指的是所涉及的资料规模很大,无法通过目前的主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营者进行决策的资讯,这是维基百科对大数据的定义。可以看出在这概念中,维基百科对大数据的解释主要侧重点是强调大数据资源的规模量大的特点,并说明了大数据的功能作用是撷取、管理、处理以及整理相关的信息资源以供企业使用。从维基百科对大数据的定义来看,大数据所服务的对象主要是企业经营者,但就笔者看来,这一定义无可避免地带有了维基百科本身的局限性。大数据并不仅仅是为企业经营者服务的,任何行业包括我国的基层政府、公、检、法等部门都可以使用大数据资源来建立综合数据处理平台,以此对相关的决策、政策进行分析,为促进我国社会的发展贡献力量。

在大数据的飞速发展过程中,其展现了自身的独特作用和功能,对大数据进行精细化的研究,不仅有助于捍卫我国的网络空间的数字主权,维护我国的社会稳定,推动社会与经济的可持续化发展。而且大数据在发展的过程中还能够极大的推动国民经济核心的产业信息化升级,突破当前科学、技术的限制,带动诞生出数据服务、数据材料、数据制药等战略性新兴产业。纵使大数据具备了众多的功能和作用,极大地促进了我国经济社会的发展,但大数据给我国经济社会的发展所带来的挑战也是不容忽视的。大数据由于其数据类型、数据结构以及数据内在模式都极其的复杂;数据本身、数据模型以及数据学习的不确定性;数据模式、数据行为以及智慧的涌现性等现状使得人们在对大数据的使用中存在着诸多的挑战。基于大数据的这些功能作用以及面临的挑战特点,对大数据的综合数据处理平台方案进行设计研究具有重要的现实作用。

2 基于大数据的综合数据处理平台的方案设计研究

在大数据的时代背景下,建立综合数据处理平台的首要任务是要明确平台建设的目标。通过运用管理学学科的相关知识对这些目标进行层次的划分,将目标进行细化处理,使其成为一个个可供实践操作的小目标。其次是根据这些目标的需要,结合相关的互联网、物联网技术以及数学分析、建模思想等,构建综合数据处理平台的总体架构,初步搭建综合数据处理平台。是对综合数据处理平台的内涵及外延进行填充处理,如对综合数据处理平台进行技术架构、网架架构以及安全架构等等,并采取相关的措施对其进行管理维修,以方便使用。

2.1 基于大数据的综合数据处理平台设计的目标分析

由于大数据本身所具备的特殊性,构建基于大数据的综合数据处理平台,首先需要的是明确构建这一平台的目标。在笔者看来,构建基于大数据的综合数据处理平台的目标主要有以下几方面:一是提供各种类型的数据信息,在大数据概念、内涵中都已经明确了其功能作用,大数据主要是为社会各行各业的发展需要提供多元化、便捷化、高速化的服务。构建基于大数据的综合数据处理平台的目标之一就是收集、分析、整理各种类型的数据资源,并将其分门别类地置于综合数据处理平台上,为广大用户群体提供充足的数据资料,方便其决策使用。二是创建新型的共享数据库,实现综合数据处理平台上数据的共建共享。在当前的社会发展中,各大数据库使用的仍然是点对点的数据共享,这一复杂的网状结构既使得同样的信息和功能重复出现,又使得数据库系统中存在大量的信息和功能冗余,这极大地阻碍了数据库功能作用的发挥。而建立的新型综合数据处理平台,采用的是开放式架构体系,其能够有效地实现各系统之间的耦合,这既能够简化数据库中的网状结构,节省数据库的空间,又能够实时完成新型数据库中数据资源的共建、共享,_到提供信息资源和进行数据服务的目的。

构建综合数据处理平台第三方面的目标是建立制定数据交换使用的标准。俗话说无规矩不成方圆,在构建基于大数据的综合数据处理平台时,需要在其目标制定阶段就推出统一的数据交换标准,以保障后续工作的有序化开展。为了更好地满足社会各界对于综合数据处理平台的各项业务开展的需要,需弥补当前数据库中数据资源标准缺乏的不足,保障同一类型的数据不会存在多个数据源头或者是多个数据格式,更好地实现数据的共享。在进行综合数据处理平台方案的设计时,要预先设置统一的数据访问和数据交换的标准,避免数据的重复建设,实现数据适应业务需要的灵活化发展,满足人们日益增长的数据使用、业务变化需求,促进大数据综合数据处理平台的建设和发展。

在明确了这些平台目标之后,还需要基于大数据的综合数据处理平台,在方案设计研究中一步一步地对这些目标展开进一步的细化,使其成为可操作、实时性强的小目标。并在此基础上构建一个综合数据处理平台方案设计研究的目标体系,为基于大数据的综合数据处理平台的建成做好必要的准备工作,为后续的平台设计、研究、建设做好铺垫。

2.2 基于大数据的综合数据处理平台方案设计的总体构架分析

在大数据的理念、技术支撑之下,可以构建基于服务总线、数据库级共享模块以及应用级模块的综合数据处理平台。在具体的方案设计研究中,分别对这三大模块进行分解、细化,使其成为更小的子系统,然后对各子系统中的各个要素部分进行设计和处理。将所有的要素部分进行糅合,以此建立数据信息交互的综合数据处理分析平台。其中,基于大数据的综合数据处理平台方案设计中的服务总线的主要功能是完成信息的路由、转发、服务、注册等,并且服务总线同时与其他同级平台进行连接,以达到数据信息资源共享的目标。服务总线模块的方案设计是整个综合数据处理平台的主体部分,如果将其比作生物人的话,服务总线就相当于人的大脑,对整个平台的运转进行指挥、调节、控制。

数据库级共享模块的作用是实现数据资源的存储、交换,并达到共享的目的。在具体的方案构架中,数据库级共享模块主要是通过对数据库和共享数据库进行直接访问的方式展开,以完成各种类型的,大批量实时数据、静态数据、统计分析数据、结构化数据、非结构化数据以及半Y构化数据等的共享。数据库级共享模块还可以主动地对被抽取的数据、被动接收的数据进行共享数据库的构建,以不断地满足各大数据平台的提供者和用户对数据资源的储存、交换,实现综合数据处理平台的作用。

而在应用级共享模块的建设时主要是要将其与服务总线进行连接,并在其进行标准的服务接口时,对数据库中的数据资源进行共享数据加工、共享数据交换、共享数据服务以及共享流程服务等工作。应用级共享模块主要是通过这些工作来实现整个综合数据处理平台各系统之间的相互交流,相互协调合作,以实现各大数据平台数据的交换和服务的共享。也可以这样说,应用级共享模块在整个的综合数据处理平台中居于信息共享平台的中枢、核心层,是实现大数据交换、服务、共享的关键板块。

2.3 基于大数据的综合数据处理平台设计的技术构架分析

基于大数据的综合数据处理平台设计的主要技术是计算机技术、互联网技术、云计算处理技术以及信息通信、信息通讯等技术,进行综合数据处理平台的构建离不开这些现代化技术的支撑。基于大数据的发展,综合数据处理分析平台中的硬件构架主要有防火墙、交换机、数据库服务器、光纤交换机、硬盘阵列以及应用服务器等。

综合数据处理分析平台中的各大硬件构架在使用过程中所凭借的具体技术支撑有所不同,各硬件构架在整个综合数据处理分析平台中的地位也有所区别。其中,数据库服务器主要采用的是固定分区方式,对数据库中的数据进行存取、访问控制、对数据进行管理、集成数据分析服务、对信息进行调度以实现共享等等。此外,数据库服务器还能够对硬件、软件以及其他的受控件产生的故障进行探测,并同时将故障主机上的应用迅速切换至其他的设备上,较大限度地保障数据业务使用的连贯性。

应用服务器作为连接交换机、光纤交换机的主要载体,在整个的综合数据处理分析平台上处于核心设备地位,主要负责数据共享方面的业务。包括基于消息队列的共享、基于共享数据库方式的共享以及基于共享服务和业务流程级别的信息共享等。应用服务器能够保障资源的灵活性使用,并根据实际情况的需要,对信息资源进行相关的实时性调整。但为了更好地发挥应用服务器在整个综合数据处理平台上的作用,在使用应用服务器时,好对应用服务器进行双机集群处理。

2.4 基于大数据的综合数据处理平台设计的网架架构分析

网架构架是整个数据平台得以正常运转的关键技术支撑,没有网络架构,综合数据处理平台其他模块的构架都是纸上谈兵。当前,我国计算机网络使用得比较普遍的是广域网和局域网,在绝大多数的行业领域,使用得最为普遍的是局域网。局域网主要是利用以太网技术作为网架架构,这在一定程度上能够满足平台内部的网络使用需求,实现内部数据资源的网络共享。但在进行综合数据平台处理时,可以有意识地多加入广域网的使用,以实现更广范围内的行业和平台之间信息的横向沟通交流。这样也可以实现更大范围内的数据资源共享,满足人们对于大数据时展的数据需求,促进整个经济社会的信息化发展。

2.5 基于大数据的综合数据处理平台设计的安全构架分析

计算机网络安全一直以来都是社会各界人士关注的重点。近些年来,黑客入侵、用户信息资料泄露影响了网络环境安全,给网络用户的生活带来了极大的困扰。在构建基于大数据的综合数据处理平台方案分析时,要充分地考虑到平台各个方面、各个层级体系的安全性能,构建完备的安全服务与安全防护体系,保障平台与用户进入口之间信息交换的安全性。

笔者认为,有如下的具体做法可以用来构建综合数据处理平台中的安全架构体系:一是强化防火墙技术系统,对数据库的访问入口进行严密的限制、控制,并对服务器的区域边界、区域之间的访问进行严格的控制,以保障平台数据资源使用的安全性。二是对各硬件、软件进行防病毒系统保护。在各数据库终端和服务器上都部署相应的安全管理区域,对各用户的访问端口进行病毒扫描,定期对病毒管理系统进行优化升级。借此进一步提高相关系统的监控管理能力,提高综合数据处理平台系统的安全性。三是对应用管系统和审计系统进行安全管理,无论是核心交换机还是终端、服务器都要对恶意用户的不正当行为进行过滤和警告,尤其是要严格禁止不法用户的非法访问、恶意攻击以及蠕虫传播等行为。要以此保障整个综合数据处理平台各系统之间各类型数据资源的安全性能,促进整个平台安全构架的建设。

3 结语

在探索综合数据处理平台方案设计研究的过程中,笔者发现大数据的处理技术还存在着一些亟待解决的问题。当前,大数据的存储成本比较高,资源的利用率比较低,大数据系统的吞吐率也还比较低,非线性迭代算法还需要做进一步的优化等,这些都是目前大数据平台所存在的系列问题。在大数据时代背景下,构建综合数据处理分析平台既需要相关的工作技术人员采取相应的措施、方法来解决大数据自身所面临的问题和挑战,也需要不断地引进、开发新的技术,解决在构建综合数据处理平台过程中所产生的新问题。这从一定程度上来说增加了综合数据处理平台的方案设计难度和数据平台的建立难度。

大数据处理论文:关于云计算大数据处理技术在智能电网中分析与应用浅析

摘要:随着我国经济的高速发展,我国的电力行业的快速发展,随着科学技术的长足进步,使得现代化的智能电网取得一定的发展。随着智能电网系统的构建,随着发电、输电、用电等全方面的管理工作随之开展,越来越多的现代化技术也逐步应用到电力系统之中,特别是现代化云计算平台的使用,使得大量的数据得到积累和存储,从而推动了大数据存储和管理技术的研究和发展。在现代化智能电网而言,既是机遇也是挑战。本文主要通过对智能电网系统具体的应用原则,从而探索其中面临的困难和挑战。

关键词:智能电网 大数据处理技术 应用现状 面临困境

在经济发展和科学技术的进步时期,为人类带来了效益的同时也造成了严重的资源浪费,因此在这一时代背景下各国都加强了对智能电网的研究和建设工作。在智能电网的管理过程中,对于大量数据的管理、处理、存储等方面的问题困扰使用者,这也是现阶段需要及时改善的内容,因此本文以此为背景,对其应用和挑战进行分析和研究。

1 智能电网云计算大数据处理技术的应用现状

1.1 智能电网的大数据

在智能电网中,大数据的产生和存在主要由以下三个方面的原因[1]。一方面是对于电网运行以及设备数据方面的内容,这方面的数据也是智能电网的主要内容,同时也是程序最复杂的部分;第二方面是对于电能的营销数据,这也是企业发展最橹匾的部分,很多企业都对这部分内容投入大量的人力、物力投入;第三个方面是对于电力企业的管理数据。在这三方面形成了严密、系统的整体,但是很多专家和学者都不会采用分层划分的方式,因此导致多数学者倾向于数据内部的层次划分。大数据力求通过整合数据内部的结构为主要特点,对数据的相关信息进行有效的细化分析,从而分析出结构性数据以及非结构性数据两个不同的部分。同时对于非结构数据而言,无法利用数据库的二维模式进行编辑,这种类型的数据呈现出高速发展增长态势。在电网系统中,对于智能电网数据而言,非结构数据占据极大的比重。

1.2 大数据处理技术的复杂性

随着全世界的科学技术的发展,对于大数据的研究和应用不断发展和深入,大数据的应用和科学的发展都对科学和经济的发展具有重要的影响[2]。现阶段的国家、企业之间的竞争都是围绕大数据进行的控制和管理工作。但是对于云计算平台自身而言,其实用性存在较大的劣势,对于大数据的分析和挖掘等方面无法得到充分的满足。随着大数据的多元化发展方向,对于数据的发掘以及处理方面都得到了及时的提高,从而有效利用复杂的混合计算模式,从而实现智能化电网的大数据技术的局限性突破和发展。

2 智能电网中云计算大数据处理技术的具体应用和分析

2.1 智能电网中大数据的传输和存储技术

当前信息化技术的发展使得电网系统地智能化发展取得了一定的成效,在电力系统的运行过程中,需要对各个环节的相关数据和设备的监测数据进行详细的记录,这个过程中所产生的海量数据,使得监控系统承担着比较大的压力,对于智能电网的进一步发展有着一定的阻碍作用[3]。在电网数据的传输方面,通过利用数据压缩的方式可以减少数据的传输量,保障数据传输效率的提升。这样导致越来越多的数据压缩技术被应用到智能电网中,能够降低数据存储的空间,但在这个过程中会造成一定的资源浪费。在数据的存储方面,通常情况下使用的方式是分布式文件保存,实现对于大量数据的存储,但是在对于实时数据的处理方面存在着一定的缺陷。

在智能电网中,非结构化数据占到了比较大的比重,有着十分重要的作用,在存储方面要将这些海量的非结构化数据进行有效转化,是当前智能电网大数据处理技术所面临的困境。

2.2 大数据的实时处理技术

大数据处理技术在当前的智能电网进程中有着比较重要的作用,在大数据技术的应用中,处理速度是一个重要的衡量指标,如果数据的规模过大,所需要的处理时间就比较长,当数据规模超过处理技术的承受能力,会对电网的正常运行造成一定的影响,这就需要保障数据传输、分析以及处理的速度。大数据云计算系统虽然能够为智能电网提供品质快速的服务,但是也有可能会造成网络堵塞现象,会使得电网的服务器运行受到影响。

2.3 可视化分析技术

智能电网在运行过程中会产生大量的数据,而对这些数据进行及时有效的处理,同时在有限的显示屏内展示给用户,这也是当前智能电网大数据处理所面临的严峻挑战。同时还要保障智能电网数据网络的质量,对整个网络系统进行定期的检测和维护,如果出现故障,要结合出现故障的现象采用相关的技术进行分析处理,在根源上解除故障,保障数据网络正常运转。

3 结语

通过上述的分析,在当前提倡绿色低碳经济发展理念以及网络信息技术飞速发展的基础上,智能电网的建设和发展已经成为一种必然的趋势,在智能电网应用中的云计算大数据处理技术主要包括存储和传输技术、实时处理技术以及可视化分析技术,文章对这集中主要的技术进行了研究和分析,最终得出这几种技术在智能电网中有着非常重要的作用,可以对电网系统的戴亮数据进行及时的存储、传输、收集以及处理,有效的弥补了传统处理技术的不足,使得电网数据处理的效率和质量得到了大幅提升,但是也存在着一定的不足,这就需要相关的工作人员进行不断的努力和创新,探索出一种有效的解决方法,促进我国智能电网的稳定健康发展。

大数据处理论文:云时代背景下大数据处理在电子信息风险中的应用

2016年,雅虎事件爆发,数以亿计的客户信息遭到泄露。除去雅虎公司自身存在的问题,该事件同时也折射了传统的电子信息风险管理还有待健全和完善。在云时代背景下,大数据处理得到有效的发掘和利用,为电子信息的风险提供了另一种思路和方向,提高了电子信息风险的可预见性,对于完善电子信息风险管理体系和促进该行业的健康发展具有极为重要的意义。

【关键词】云时代 大数据 电子信息

1 云时代及云时代背景下的大数据

云时代即为云计算时代,它是一种基于互联网的计算方式,表现为众多技术的积累和组合,利用共享的软硬件资源和信息,使用户能够根据自身需求访问计算机和存储系统。云计算普及后,越来越多的用户选择将各类信息传输到计算机的“云端”,从而汇聚到大数据中。而大数据这个词语无疑是时下最热门的IT词汇之一,人们越来越认识到每天大量产生的数据本身就蕴藏着无穷的资源与财富。其实,大数据这个概念很早之前就已经出现了,然而受到科技发展的局限性,大数据并未得到有效利用,因为只有海量的数据而不进行处理是没有用处的。随着互联网技术尤其是云计算的不断发展与普及,使得大数据的处理、分析和利用成为可能。云时代背景下的大数据处理其核心价值在于它的预测功能,可以为用户提高工作效率和生产力提供解决方案。大数据处理也已在众多行业包括一些新兴行业中发挥着巨大的作用。

2 案例分析

2016年的雅虎事件将雅虎这家享誉全球的科技公司推上了风口浪尖,有超过5亿雅虎用户的账户信息被黑客攻击窃取,并且该事件的最早发生事件可能追溯到两年前,甚至更早。网络黑客以高价出售其窃取的有效信息,这些信息包括用户的账户名、密码、密码保护以及一些邮件地址等。对于此次事件,尽管雅虎公司做出了诸多解释,然而这一事件的发生及后期的事件j酿,使得雅虎公司形象大跌。类似事件受影响较为严重的公司还包括LinkedIn、MySpace以及Tumblr等知名公司,其每家公司的单一网站遭受的损失平均超过亿元。随着信息时代的不断发展,电子信息蒙受损失的事故不断涌现,其中既包括经济损失,也包括非经济型如政治类、军事类的损失。从雅虎事件到近期欧洲各国提款机遭远程攻击等来看,信息爆炸时代,电子信息风险变得常态化、多样化以及复杂化。如何防范电子信息风险,合理进行电子信息的风险管理成为大家普遍关心的问题。

3 大数据处理对电子信息风险的意义

据称,雅虎事件的主要原因是其旗下使用的服务器安全漏洞太多。虽然雅虎公司在电子信息风险管控中存在很多失误,但不可否认的是,以往众多公司采用的传统形式的电子信息风险管控方式在如今这个时代背景下已然显得有些捉襟见肘。而要想实现电子信息风险管理的智能化、可预期化,云时代下的大数据利用便为其提供了无限的可能。目前,已有很多领域接受并利用大数据技术,并取得了一些突破性的进展。比如电商领域,天猫等通过大数据分析得出消费者的消费心理及关注点,从而在网页浏览时及时地推送消费者所关注的商品信息等。而风险控制仍未充分开始利用它的力量。因此,探讨大数据处理在电子信息风险管理上的应用对于促进其健康发展,弥补传统风险管理手段的不足,建立完善的风险防范体系有着重要的现实意义。

4 云时代背景下大数据在电子信息风险中的应用

电子信息风险管理,是指通过相应的监控管理技术识别以及评估电子信息可能存在的风险,继而实现对电子信息风险的控制与消除,并以低的成本使风险损失程度降低的管理活动。传统的电子信息风险控制措施主要有数据备份、定期系统检查、系统还原以及安装并提高防火墙等级等,但这些措施并不能对风险进行很好地控制。大数据技术提供的基于预测功能的应用,为电子信息有效的风险管控提供了一种新的思维管理方式,使得系统在运行的过程中实现电子信息风险的事前、事中及事后管理与控制的目标。

4.1 建立风险预测模型,做到事前预判

大数据处理技术在风险管理的事前控制中,通过收集运行常规数据,以及各类非结构化的数据,再由云计算整合大数据运算出风险事前控制的预测计算模型,从而得到一个高度可行的预测方案,对风险发生前电子信息运行的外部环境、自身存在的风险等进行预判,提前预知风险的发生,让电子信息在发生危机之前就拉响警报,实时的预判和动态提示可提醒相关人员注意提前控制和规避风险,做出合理的反应和决定,保护电子信息免受损失。例如百度的百度云和奇虎360的360云安全服务系统都是通过通过云端大数据库对数据信息处理进而实现对外部环境的识别,电子信息在遭遇黑客攻击前,便可及时提示用户不要对某些网页、信息进行浏览和下载,或在用户的终端禁止某些病毒类文件,以防黑客有机可乘。如瑞星的近期云管家产品每天拦截木马攻击的次数达100次。

4.2 大数据处理在事中风险控制的应用

在风险发生的过程中,大数据的应用可以为用户采取应急措施提供相应的便利。云技术背景下的大数据风险应急管理技术可以云端所有的数据库,实时在线对相应的风险进行快速的分析并处理,诸如360的云端快速扫描、全盘扫描以及特定盘的扫描等,从而快速的去除相应的风险。此外,在应对电子信息风险管理上的漏洞,大数据分析技术还可以整合风险管理涉及的各个部门提供的有效信息,并提出合理的风险决策,使相关部门和人员可以及时的通力协作,信息共享,保障风险应急处置的及时性和工作效率。对个人来说,大数据还可以为风险的应急处理提供更加便捷灵活的手段。

4.3 大数据处理在风险事后中的应用

大数据基础上建立的风险发展趋势预测,还可以模拟风险发生后可能产生的结果,并合理估算风险事故中产生的各项损失,基于云计算的大数据处理将为风险事故在发生后提供的处置方案,以较大限度减少或消除用户的损失。此外,事故的处理与信息反馈是大数据处理的另一项重要的功能。通过相应的信息数据反馈从而不断地更新和修正数据库产生的模型,将风险管理体系进行进一步的优化和健全,防止下次事件的发生。

5 结语

云计算为大数据在电子信息风险管理的应用提供了可能。有报道称,大数据的价值在被夸大,但无可否认的是,大数据处理已经在很多行业卓有成效。因此,云时代背景下的大数据能够有效地提升和优化电子信息的风险管理体系,降低风控成本,并实现在线实时监控,具有很好的发展前景。与其说大数据提供了一种技术上的支持方案,不如说它提供了一种风险管理的思维,激发了新的价值增长点,让人们从另一个方向去解决电子信息风险管理出现的问题。这对于完善电子信息风险管理体系以及促进该行业的健康发展具有极为重要的意义。

大数据处理论文:基于R语言的大数据处理平台的设计与实现

摘 要: R语言是一种基于统计、运算和绘图的数据处理方式,其能够较为理想地进行大数据处理工作。因此,设计基于R语言的大数据处理平台。当平台的用户请求层向技术层发送大数据处理指令,技术层随即开始工作,其处理结果也将反馈至用户请求层。技术层由大数据管理模块、大数据处理模块和R语言控制模块组成,大数据处理模块的EP1C6Q240C8芯片通过借鉴大型数据库内容,进行大数据的挖掘工作,并将其挖掘结果提供给大数据处理模块进行大数据的筛选、汇总、转换和标准控制。经大数据处理模块处理后的大数据,将通过串口通信电路回传给用户请求层。R语言控制模块为整个平台制订处理标准。软件方面利用R语言的类聚性能设计技术层挖掘功能图和大数据向量化处理代码。实验结果表明,所设计的平台能够对大数据进行高性能的处理。

关键词: R语言; 大数据处理平台; EP1C6Q240C8; 数据挖掘

0 引 言

网络时代的来临,使大数据不可避免地吸引到了各界的关注。大数据处理平台要求其处理方式应具有超强的决策能力,以应对大数据海量、多样性的特点[1?3]。R语言是一种基于统计、运算和绘图的数据处理方式,与普通处理方式相比,R语言能够实现更加复杂的数据处理,且处理效果较为理想。根据R语言的以上优势,设计基于R语言的大数据处理平台,使大数据处理平台具有较高的处理性能[4?6]。

科研组织也曾研究出一些较具特点的大数据处理平台,但这些平台的处理性能均有待提高,如文献[7]提出基于Jaql的大数据处理平台,该平台利用Jaql编辑处理语言缩减大数据传输量,最终提高平台处理性能,但由于Jaql编辑处理语言的处理能力有限,无法高效完成海量大数据的转换工作,致使整个平台的处理性能不高。文献[8]提出基于OPENMP的大数据处理平台,OPENMP是一种基于分布处理、集中管控的处理方式,其对大数据的兼容性较强,处理效率较高,但扩展性能较差,致使整个平台的更新能力欠佳,无法应对大数据的实时变化。文献[9]提出基于PR的大数据处理平台,该平台利用PR隐形并列的处理方式,将大数据特点进行剖析,只提取出其中的关键信息点,达到缩减大数据内存的目的,进而降低平台处理压力,但该平台的处理效率不高,大数据信息较易丢失。

基于上述大数据处理平台的缺陷,提出基于R语言的大数据处理平台,以实现大数据处理平台对大数据的高效解析、增强平台各项处理性能。

1 基于R语言的大数据处理平台设计

1.1 平台总体设计

基于R语言的大数据处理平台由用户请求层、技术层和多种大型数据库组成,如图1所示。

由图1可知,当用户请求层向技术层发送大数据处理指令,技术层随即开始工作,其处理结果也将反馈至用户请求层。技术层由大数据管理模块、大数据处理模块和R语言控制模块组成,技术层是基于R语言的大数据处理平台的重点设计部分。平台为技术层提供了多种大型数据库,技术层在实现大数据处理的过程中会借鉴这些大数据库的处理结果,保障平台处理性能。

1.2 大数据管理模块设计

大数据管理模块能够进行大数据的挖掘和供给工作,其进行大数据挖掘的主要借鉴对象有地方资源库、大数据档案库以及网络大数据地址。供给工作是指大数据管理模块将挖掘出的大数据进行分类、挑选后,将其按一定顺序供给大数据处理模块进行大数据的处理工作。大数据管理模块的核心控制元件选取了某公司设计的EP1C6Q240C8芯片。EP1C6Q240C8芯片的成本不高,且资源较多,是一种能够实现实时高效编辑的控制芯片。EP1C6Q240C8芯片拥有先入先出队列模式,其数据传输量高达36 b,传输速率较高可达300 MHz,能够有效减少基于R语言的大数据处理平台的大数据丢失率,并为平台的后期更新工作提供了技术支持。EP1C6Q240C8芯片结构图如图2所示。

由图2可知,EP1C6Q240C8芯片主要由逻辑阵列块和I/O块组成。逻辑阵列块中的锁相环是一种高性能反馈控制电路,锁相环能够根据挖掘信号实现基于R语言的大数据处理平台对大数据信号的分类,并可对分类后的大数据实施主动追踪。M4K存储器为平台提供大数据的分类存储区域。I/O块的主要作用就是实现大数据的传输工作,包括EP1C6Q240C8芯片的内部传输,以及大数据管理模块与大数据处理模块的通信传输。

1.3 大数据处理模块设计

大数据处理模块的主要工作是进行大数据的筛选、汇总、转换和标准控制。筛选是指将挖掘到的大数据中的不正常信息和错误格式筛选出来,常用的筛选方式有填补空缺法、标准值替换法、异常值隐藏法等。大数据处理模块进行的筛选工作是其及时流程,这程不能忽略,必要时应进行多次筛选,以保障基于R语言的大数据处理平台的率。汇总是指大数据处理模块将筛选后的大数据汇总并构建数据库的过程。在这一过程中,大数据在数据库中的、高效分类匹配是其应重点解决的问题。大数据处理模块利用R语言解决了这一问题。转换是统一大数据格式的过程,大数据处理模块利用A/D转换电路实现这一过程。

标准控制是指利用各项标准管控大数据处理的过程,基于R语言的大数据处理平台的常用标准有解压缩标准、维度标准、常规数值标准等,这些标准能够实时控制大数据处理模块对大数据的压缩、筛选、删除、替换等工作,是实现平台高性能的保障。

1.3.1 A/D转换电路设计

由于大数据管理模块挖掘出的大数据的格式并不统一,故需首先对大数据进行格式转换。A/D转换电路的转换性能直接影响着基于R语言的大数据处理平台的各项性能,故在A/D转换电路的设计中,应尽可能保障其转换的效率和率。

选用某公司设计的TLC5510I转换器作为A/D转换电路的核心元件。TLC5510I转换器是一种能够进行高速A/D转换的8位高阻抗并行A/D转换器。拥有了TLC5510I转换器,A/D转换电路便能够缩减掉其复杂的外接电路,减轻了设计难度,并间接节约了基于R语言的大数据处理平台的运行成本。图3是TLC5510I转换器结构图。

由图3可知,A/D转换电路经由TLC5510I转换器转换大数据格式,TLC5510I转换器主要由基准分压器、时钟发生器、采样比较器、采样编码器和数据锁存器组成。控制开关将根据大数据的内存状态对基准分压器中的三种电阻进行控制。时钟发生器会输出三种计时信号,这三种计时信号会直接传输给采样比较器,经由采样比较器按顺序依次传递给采样编码器和数据锁存器。

1.3.2 串口通信电路O计

经大数据处理模块处理过的大数据,需要一个传输性能较为完善的串口通信电路将处理后的大数据传输到用户请求层,所设计的串口通信电路简图如图4所示。

图4中,串口通信电路的传输芯片选用EP1C6Q256芯片,该芯片的工作电压范围是[1.43 V,1.58 V],能够在[0 ℃,85 ℃]的环境下工作。其拥有5 980个逻辑块,能够高效、且稳定地进行大数据传输。EP1C6Q256芯片控制着大数据的高性能输入和电源的稳定供电,使串口通信电路能够直接将处理后的大数据输入到用户请求层,提高了基于R语言的大数据处理平台的整体效率。

1.4 R语言控制模块设计

R语言控制模块通过调取Java类加载器,为基于R语言的大数据处理平台提供所有技术支持,即制订平台的处理标准。Java类加载器是一种能够将大数据按需存储到内存中的虚拟设备,其独立于算法编译器,可以对大数据进行选择性处理。图5是Java类加载器结构图。

图5中,启动类加载器为R语言控制模块调用刚挖掘出的大数据进行读取,这部分大数据不能修改,只能对其进行R语言算法处理;扩展类加载器能够调用大数据处理结果,R语言控制模块可对其进行直接修改;应用程序类加载器是基于R语言的大数据处理平台的基础加载器,该加载器在日常工作中常处于休眠状态,当启动类加载器和扩展类加载器无法调用大数据时,应用程序类加载器便会启动并接手上述工作。

2 基于R语言的大数据处理平台的软件设计

技术层对大数据的挖掘工作是整个基于R语言的大数据处理平台的运行基础,为了保障技术层挖掘出的大数据拥有较高质量,平台利用R语言的类聚性能,设计了技术层挖掘功能图,如图6所示。

由图6可知,技术层挖掘功能图主要有预处理、分类和热点实现三种功能。预处理功能主要进行大数据预处理,其根据R语言向技术层中的大数据处理模块写入特征算法,将大数据向量化,即将一维数据格式变换成向量格式,并对向量格式的大数据进行分类。预处理功能对大数据进行向量化的代码设计为:

分类功能包括大数据的分类挖掘和类聚挖掘,单一结构的大数据会直接进行大数据类聚挖掘,对于结构较为复杂的大数据,软件将先对其进行大数据分类挖掘,将热点状态不一致的大数据分开存储,进行类聚挖掘。热点实现功能包括热点跟踪和热点展示,原则上这两个功能是能够同时进行的,但出于对基于R语言的大数据处理平台各项性能要求的考虑,软件首先对分类后的大数据进行热点跟踪,验证其无误后,再对大数据进行热点展示。

3 实验分析

大数据处理平台的性能主要包括大数据写入和读取效率、大数据挖掘吞吐量以及大数据处理效率。为验证所设计的基于R语言的大数据处理平台的性能,现进行实验。实验选取性能较高的基于Hadoop的大数据处理平台和基于OPENMP的大数据处理平台,与本文平台进行对比。大数据写入和读取效率、大数据挖掘吞吐量的实验结果如图7~图9所示,大数据处理效率实验的处理时间结果如表1所示。

由图7~图9可知,大数据写入效率、大数据读取效率和大数据挖掘吞吐量的变化与大数据处理平台的处理线程数有一定关系,在特定范围内,处理线程数越多,平台的性能就越高,若超出特定范围,过多的处理线程数将导致平台性能下降。

因此,在实际应用中应选择适合的处理线程数。虽受处理线程数影响,但本文平台的大数据写入效率、大数据读取效率和大数据挖掘吞吐量性能均高于基于Hadoop的大数据处理平台和基于OPENMP的大数据处理平台。且根据表1数据能够得出,本文平台拥有较高的大数据处理效率。以上实验结果表明,本文平台能够对大数据进行高性能的处理。

4 结 论

本文设计了基于R语言的大数据处理平台。当平台的用户请求层向技术层发送大数据处理指令,技术层随即开始工作,其处理结果也将反馈至用户请求层。技术层由大数据管理模块、大数据处理模块和R语言控制模块组成。大数据处理模块的EP1C6Q240C8芯片通过借鉴大型数据库内容,进行大数据的挖掘工作,并将其挖掘结果供给大数据处理模K进行大数据的筛选、汇总、转换和标准控制。经大数据处理模块处理后的大数据将通过串口通信电路回传给用户请求层。R语言控制模块为整个平台制订处理标准。软件利用R语言的类聚性能,设计技术层挖掘功能图和大数据向量化处理代码。实验结果表明,所设计的平台能够对大数据进行高性能的处理。

大数据处理论文:试论智能电网大数据处理技术的应用现状及面临的挑战

摘要:随着我国经济的高速发展,我国的电力行业的快速发展,随着科学技术的长足进步,使得现代化的智能电网取得一定的发展。随着智能电网系统的构建,随着发电、输电、用电等全方面的管理工作随之开展,越来越多的现代化技术也逐步应用要电力系统之中,特别是现代化云计算平台的使用,使得大量的数据得到积累和存储,从而推动了大数据存储和管理技术的研究和发展。在现代化智能电网而言,既是机遇也是挑战。本文主要通过对智能电网系统具体的应用原则,从而探索其中面临的困难和挑战。

关键词:智能电网 大数据处理技术 应用现状 面临困境

在经济发展和科学技术的进步时期,为人类带来了效益的同时也造成了严重的资源浪费,因此在这一时代背景下各国都加强了对智能电网的研究和建设工作。在智能电网的管理过程中,对于大量数据的管理、处理、存储等方面的问题困扰使用者,这也是现阶段需要及时改善的内容,因此本文以此为背景,对其应用和挑战进行分析和研究。

1 智能电网大数据处理技术目前的应用现状

1.1 智能电网的大数据

在智能电网中,大数据的产生和存在主要有以下三个方面的原因[1]。一方面是对于电网运行以及设备数据方面的内容,这方面的数据也是智能电网的主要内容,同时也是程序最复杂的部分;第二方面是对于电能的营销数据,这也是企业发展最为重要的部分,很多企业都对这部分内容投入大量的人力、物力;第三个方面是对于电力企业的管理数据。在这三方面形成了严密、系统的整体,但是很多专家和学者都不会采用分层划分的方式,因此导致多数学者倾向于数据内部的层次划分。同时对于非结构数据而言,无法利用数据库的二维模式进行编辑,这种类型的数据呈现出高速发展增长态势。在电网系统中,对于智能电网数据而言,非结构数据占据极大的比重。

1.2 大数据处理技术的复杂性

随着全世界的科学技术的发展,对于大数据的研究和应用不断发展和深入,大数据的应用和科学的发展都对科学和经济的发展具有重要的影响[2]。现阶段的国家、企业之间的竞争都是围绕大数据进行的控制和管理工作。但是对于云计算平台自身而言,其实用性存在较大的劣势,对于大数据的分析和挖掘等方面无法得到充分的满足。随着大数据的多元化发展方向,对于数据的发掘以及处理方面都得到了及时的提高,从而有效利用复杂的混合计算模式,从而实现智能化电网的大数据技术的局限性突破和发展。

2 智能电网大数据处理技术所面临的挑战

2.1 智能电网中大数据的传输和存储技术

当前信息化技术的发展使得电网系统的智能化发展取得了一定的成效,在电力系统的运行过程中,需要对各个环节的相关数据和设备的监测数据进行详细的记录,这个过程中所产生的海量数据,使得监控系统承担着比较大的压力,对于智能电网的进一步发展有着一定的阻碍作用[3]。在电网数据的传输方面,通过利用数据压缩的方式可以减少数据的传输量,保障数据传输效率的提升。在数据的存储方面,通常情况下使用的方式是分布式文件保存,实现对于大量数据的存储,但是在对于实时数据的处理方面存在着一定的缺陷。

在智能电网中,非结构化数据占到了比较大的比重,有着十分重要的作用,在存储方面要将这些海量的非结构化数据进行有效转化,是当前智能电网大数据处理技术所面临的困境。

2.2 大数据的实时处理技术

大数据处理技术在当前的智能电网进程中有着比较重要的作用,在大数据技术的应用中,处理速度是一个重要的衡量指标,如果数据的规模过大,所需要的处理时间就比较长,当数据规模超过处理技术的承受能力,会对电网的正常运行造成一定的影响,这就需要保障数据传输、分析以及处理的速度。大数据云计算系统虽然能够为智能电网提供品质快速的服务,但是也有可能会造成网络堵塞现象,会使得电网的服务器运行受到影响。

2.3 可视化分析技术

智能电网在运行过程中会产生大量的数据,而对这些数据进行及时有效的处理,同时在有限的显示屏内展示给用户,这也是当前智能电网大数据处理所面临的严峻挑战。利用可视化技术能够有效的处理这些数据,并逐渐的用于智能电网中,该技术运用的是高度集成技术、高分辨率的图像以及交互工具给用户提供的数据处理结果[4]。同时还要保障智能电网数据网络的质量,对整个网络系统进行定期的检测和维护,如果出现故障,要结合出现故障的现象采用相关的技术进行分析处理,在根源上解除故障,保障数据网络正常运转。

3 结语

现阶段,随着信息化技术的普及应用,我国电力系统的智能化进程有着比较好的效果,大数据处理技术成为当前智能电网中维护电网安全稳定运行的主要措施。云计算为智能电网的数据处理、传输、存储提供了的平台,保障了智能电网中的大数据可以得到及时有效的处理,为电网的树立运行提供一定的保障作用。但是随着技术的进一步发展,以及智能化程度的进一步加深,大数据处理在传输、存储等方面存在着一定的局限性,受到了比较严峻的挑战,因此需要相关的工作人员进行不断的努力和创新,探索出一种有效的解决方法,促进我国智能电网的稳定健康发展。