引论:我们为您整理了13篇大数据云计算技术范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。
篇1
1.2云计算的发展
云计算可以像电力资源一样提供弹性的按需服务,事实上它是集合了一系列的服务提供给用户。云计算的核心可分为三个层次,分别为基础设施层、平台层、应用层,如图2所示。云计算将基础设施、软件运行环境、应用程序抽象成服务,具有可靠性高、可用性强、规模可伸缩等特点,满足了不同企业的发展需求,各个云服务提供商根据各自服务对象的差别分别开发了各具特色的云服务。(1)基础设施即服务层基础设施即服务(InfrastructureasaService,IaaS)层通过部署硬件基础设施对外提供服务,用户可以根据各自的需求购买虚拟或实体的计算、存储、网络等资源。用户可以在购买的空间内部署和运行软件,包括操作系统和应用程序。消费者不能管理或控制任何云计算基础设施,但能控制操作系统的选择、存储空间、部署的应用,也有可能获得有限制的网络组件(如防火墙、负载均衡器等)的控制。云服务提供商为了使硬件资源得到更有效的利用,引入了Xen、KVM、VMware等虚拟化技术,使得云服务商可以提供更个性化的IaaS服务。亚马逊弹性云计算(AmazonElasticComputeCloud,AmazonEC2)是亚马逊Web服务产品之一,AmazonEC2利用其全球性的数据中心网络,为客户提供虚拟主机服务,让使用者可以租用云服务运行所需应用的系统。(2)平台即服务层平台即服务(PlatformasaService,PaaS)层是指云计算应用程序开发和部署的平台,包括应用设计、应用开发、应用测试和应用托管,都作为一种服务提供给客户。开发者只需要上传代码和数据就可以使用云服务,而无需关注底层的具体实现方式和管理模式。鉴于PaaS平台的重要意义,国内外厂商根据各自的战略提出了相应的PaaS平台,国外的如GoogleAppEngine(GAE),通过GAE,即使在重载和数据量极大的情况下,也可以轻松构建能安全运行的应用程序。国内也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)软件即服务层软件即服务(SoftasaService,SaaS)层是为云计算终端用户提供基于互联网软件应用服务的平台。随着Web服务、HTML5、AJAX、Mashup等技术的成熟与标准化,SaaS应用近年来发展迅速,典型的SaaS应用包括GoogleApps、SalesforceCRM等。国外云计算平台比较成功的应用案例有:亚马逊电子商务网站根据用户的购买行为和搜索技术搭建Hadoop集群,构建推荐系统;Twitter社交网站搭建Hadoop分布式系统用于用户关联的建立。国内云计算平台的成功案例有:阿里巴巴目前整个集群达到1700个节点,数据容量达到24.3PB,并且以每天255TB的速率不断攀升;2013年,华为推出国内首个运营云平台,目前为止与该平台签订协议的ISV有3000多家。
1.3云计算相关技术
(1)分布式文件系统分布式文件系统(GoogleFileSystem,GFS)[3]是Google公司针对云计算过程处理海量数据而专门设计的。一个GFS集群由一个主节点和多个从节点组成,用户可以通过客户端访问文件系统,进行正常的文件处理工作。在云计算中,海量数据文件被分割成多个固定大小的数据块,这些数据块被自动分配到不同的从节点存储,并会在多个节点进行备份存储,以免数据丢失。主服务器管理文件系统记录文件的各种属性,包括文件名、访问控制权限、文件存储块映射、块物理信息等数据。正是通过这个表,文件系统可以准确地找到文件存储的位置,避免数据丢失,保证数据安全。图3是GFS的体系结构示意,每一个节点都是普通的Linux服务器,GFS的工作就是协调成百上千的服务器为各种应用提供服务。(2)分布式并行数据库BigTableBigTable[4]是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。很多Google的项目使用BigTable存储数据,这些应用对BigTable提出了不同的挑战,比如对数据规模的要求、对时延的要求。BigTable能满足这些多变的要求,为这些产品成功地提供了灵活、高性能的存储解决方案。BigTable采用的键是三维的,分别是行键(RowKey)、列键(ColumnKey)和时间戳(Timestamp)。行键和列键都是字节串,时间戳是64位整型;值是一个字节串,可以用(row:string,column:string,time:int64)string来表示一条键值对记录。(3)分布式计算框架MapReduceMapReduce[5]是Google公司提出的大数据技术计算框架,被广泛应用于数据挖掘、海量数据处理以及机器学习等领域,由于其并行化处理数据的强大能力,越来越多的厂商根据MapReduce思想开发了各自的云计算平台,其中以Apache公司的Hadoop最为典型。MapReduce由Map和Reduce两个阶段组成。用户只需要编写简单的map()和reduce()函数就可以完成复杂分布式程序设计,而不用了解计算框架的底层实现。MapReduce的数据分析流程如图4所示。分布在不同服务器节点上的海量数据首先通过split()函数被拆分成Key/Value键值对,map()函数以该键值对为输入,将该键值对进行函数处理,产生一系列的中间结果并存入磁盘。MapReduce的中间过程shuffle()将所有具有相同Key值的键值对传递给Reduce环节,Reduce会收集中间结果,并将相同的Value值合并,完成所有工作后将结果输出给用户。MapReduce是一个并行的计算框架,主要体现在不同的服务器节点同时启动相同的工作,并且在每个独立的服务器节点上又可以启动多个map()、reduce()并行计算。
2基于云计算的大数据处理
目前大数据处理的基本流程如图5所示,整个流程经过数据源的采集,用不同的方式进行处理和加工,形成标准的格式,存储下来;然后用合适的数据计算处理方式将数据推送到数据分析和挖掘平台,通过有效的数据分析和挖掘手段,找出大数据中有价值的信息;最后通过可视化技术将信息展现给人们。
2.1数据采集存储
大数据具有不同结构的数据(包括结构、半结构、非结构),针对不同类型的数据,在进行云计算的分布采集时,需要选择不同的数据采集方式收集数据,这也是大数据处理中最基础的一步。采集到的数据并不是都适合推送到后面的平台,需要对其进一步处理,例如来源不同的数据,需要对其进行加载合并;数据存在噪声或者干扰点的,需要对其进行“清洗”和“去噪”等操作,从而保障数据的有效性;数据的格式或者量纲不统一的,需要对其进行标准化等转换处理;最后处理生成的数据,通过特定的数据库,如NoSQL数据(Google的BigTable,Amazon的Dynamo)进行存储,方便进行下一步的数据读取。由于传统的数据仓库无法适应大数据的存储要求,目前基于云计算的数据仓库都是采用列式存储。列式存储的数据具有相同的数据类型,可以大大提高数据的压缩率,例如华为的云存储服务MOS(MassiveObjectService)的数据持久性高达99.9%,同时提供高效率的端到端保障。
2.2数据计算模式
这一环节需要根据处理的数据类型和既定目标,选择合适的计算模型处理数据。由于数据量的庞大,会消耗大量的计算资源,因此,传统的计算技术很难使用大数据的环境条件,取而代之的是分而治之的分布式计算模式,具有代表性的几种计算模式的特点见表1。采用批处理方式计算的Hadoop平台,例如,Facebook拥有全球最大规模的Hadoop集群,集群机器目前超过3000台,CPU核心更是超过30000个,可以存储的数据量能够达到惊人的40PB;采用流处理方式计算的Storm平台分布式计算的时延比Hadoop更小;实时处理方式计算的Spark是一种基于内存的计算模式,例如,Yahoo运用Spark技术在广告营销中实时寻找目标用户,目前在Yahoo部署的Spark集群有112台节点和9.2TB内存;交互处理方式计算的Dremel在处理PB级别的数据时耗时可以缩短至秒级,并且无需大量的并发。
2.3数据分析挖掘
数据分析挖掘环节是从海量数据中发现隐藏规律和有价值信息的过程,这个环节是大数据处理流程最为有价值和核心的部分,传统的数据分析方法有机器学习、商业智能等。传统的数据挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云计算环境下都得到了大幅度的并行优化,在大数据的背景下,计算速度得到了很大程度的提升。现在新兴的深度学习是原始机器学习的一个新领域,动机是在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,这种新的数据分析挖掘技术已经在计算机视觉、语音识别、自然语言处理等领域有了成功的应用。
2.4数据解释展现
将挖掘出来的复杂信息进行数据解释和展现是整个大数据处理流程的最后一个环节,数据分析的结果需要向客户进行恰当的展现。与传统的数据输出和文本展示等方式不同,现在绝大部分的企业都通过引进“数据可视化”技术来展示大数据分析的结果信息,这种方式以图像、动画等方式,形象地向客户展现数据处理分析的结果,也容易被客户理解和接受,更为先进的是,现在逐步形成的“交互式可视化技术”,大大地方便了数据与人之间的“亲密交流”。目前面向大数据主流应用的可视化技术见表2。
3大数据和云计算的未来挑战
大数据需要超大存储容量的计算能力,云计算作为一种新的计算模式,为大数据的应用研究提供了技术支持,大数据和云计算的完美结合,相得益彰,发挥了各自的最大优势,为社会创造了巨大的价值。虽然国内大数据和云计算的研究还是处于初步阶段,但随着研究的不断进行,所面临的问题也越来越多。在大数据向前不断迈进的阶段里,如何让我们对大数据的研究朝着有利于全人类的方向发展成为了重中之重。
3.1重要战略资源
在这个信息社会里,大数据将会成为众多企业甚至是国家层面的重要战略资源。国家层面要将大数据上升为国家战略。奥巴马在2012年3月将“大数据战略”上升为最高国策,像陆权、海权、空权一样,将数据的占有和控制作为重要的国家核心能力。大数据资源也会成为各种机构和企业的重要资产以及提升企业社会竞争力的有力武器。在大数据市场里,客户的各种数据信息都会为企业创造价值,也会在促进消费水平、提高广告效应等方面扮演重要的角色。
3.2数据隐私安全
大数据如果运用得当,可以有效地帮助相关领域做出帮助和决策,但若这些数据被泄露和窃取,随之而来的将是个人信息及财产的安全问题得不到保障。2011年索尼公司遭到黑客攻击,造成一亿份客户资料泄露,经济亏损约1.71亿美元。为了解决大数据的数据隐私安全问题,Roy等在2010年提出了一种隐私保护系统,将信息流控制和差分隐私保护技术融入到云计算平台中,防止MapReduce计算过程中的数据泄露问题。在数据更新飞速的情况下,如何维护数据的隐私安全成为大数据时代研究的重点方向。
3.3智慧城市
人口的增长给城市交通、医疗、建筑等各方面带来了不小的压力,智慧城市就是依靠大数据和云计算技术,实现城市高效的管理、便捷的民生服务、可持续的产业发展。在刚刚结束的“两会”的政府工作报告中,总理也特意强调了智慧城市发展的重要性,目前国家智慧城市试点已遍布全国各地,多达409个。智慧安防、智慧交通、智慧医疗等都是智慧城市应用领域。智慧城市的建设也趋使大数据人才的培养。据预测,到2015年,大数据将会出现约100万的人才缺口,全球将新增440万个与大数据相关的工作岗位来填补这个空缺。
篇2
1 安全隐私保护基本需求
云计算平台中存储数据信息的时候可以合理使用不同种类数据,例如,图片、视频、邮件等。从用户方面来看,不同种类数据具备不同安全保护情况,其中不同信息数量能够合理、安全运行机密性数据,数据敏感程度和重要程序决定数据安全性。利用强大加密算法来处理所有数据,会大量消耗处理时间和系统资源,以至于降低云计算服务质量以及工作效率。但是如果使用简单加密算法处理数据,会出现泄漏数据信息的风险,所以,需要对不同数据资源提供不同安全隐私保护。
2 云计算用户数据隐私保护
2.1 分析云计算数据安全隐私保护
传统信息安全方式就是确定系统之间的物理边界,但是云计算会共享在多租户情况下没有明确物理边界,例如,多台虚拟服务器公用一台服务器,虚拟服务器来源于不同逻辑服务器,传统硬件基础安全以及物理隔离方式已经不能负荷虚拟设备中虚拟环境遭受攻击的问题,不需要路由就能够在不同虚拟机上进行信息通讯,所以,传统入侵检测技术、防火墙已经没有很大作用。对于不同云计算用户来说具备不同的云计算安全性和需求。不少用户在本地存放和应用敏感数据,利用私有云或者内部云在云上存储数据信息,也有的用户在云中存放所有数据信息,用户隐私和数据安全主要就是依据云服务提供的安全措施,从而合理科学执行云计算安全措施和安全策略。
2.2 云计算数据安全隐私保护模型
有机结合虚拟化、多租户、动态性的基本特点建立云计算数据安全隐私保护模型,如图1所示。云计算数据安全隐私保护系统主要包括数据和隐私的安全手段、安全属性(不可抵赖行、完整性、机密性)、安全访问、安全要点、安全密码、安全保障等设施。密码能够为安全隐私保护系统提供基础密码服务,例如,加密技术、密码设备、PKI证书签名、密钥管理等。
云计算大数据隐私安全实际上就是整个生命周期中隐私和数据的安全性。数据和隐私的安全性能够生成安全,在安全环境基础上存储重要隐私和数据避免数据被窃取和泄漏。传输过程中数据和隐私的安全性就是传输安全,基本上都是使用加密方式进行传输。在安全地方存储数据和隐私是存储安全,例如,在加密保护、易失性存储区、防止数据篡改区域存储数据。安全转移或者销毁,合理应用相关技术室来保证数据安全,避免泄漏数据。整个生命周期中的数据和隐私不可抵赖性、完整性、机密性上体现安全性,利用安全措施或者手段来确保生命周期中所有数据安全性。
安全访问数据和隐私主要就是控制主体访问客体数据。维护云计算数据安全隐私主要形式就是访问控制,访问控制根本就是确定访问权限,保证在具备安全系统环境基础上能够尽可能共享资源,依据访问控制来保护用户隐私和云计算数据安全,基于此检测是否具备合法的数据和隐私访问,也就是控制读、写、增加、查询、修改、删除等相关操作。云计算基础上建立安全密码监管、密码体系、密码运行等相关机制,可以在一定程度上促进密码技术的发展。有机结合云计算业务和云计算基础上的密钥保存、安全加密、密钥分发、密钥协商等技术,系统应用的时候还应该包括密钥分割技术、密钥恢复技术、端加密技术、智能卡、USB-KEY、防篡改模块等。现阶段已经具备相对比较成熟的上述技术,应用在云计算中,还应该有机结合多用户、动态性的特点来研究以及部署业务。实际安全保护中很少应用数据库访问、多方计算、数据挖掘、保密分析技术等,云计算的发展建立了新应用密码环境,如同态计算、密文检索等。可以利用备份、快照、等方式来存储云计算数据。
3 结束语
综上所述,限制云计算技术发展以及应用关键就是数据安全以及隐私保护,本文主要分析了云计算大数据安全和隐私保护,建立了云计算大数据安全和隐私保护基础模型,以此提出生命周期保护云计算大数据安全和隐私保护的策略。
参考文献
[1]肖人毅.云计算中数据隐私保护研究进展[J].通信学报,2014,35(12):168-177.
[2]黄汝维,桂小林,余思等.云环境中支持隐私保护的可计算加密方法[J].计算机学报,2011,34(12):2391-2402.
[3]李瑞轩,董新华,辜希武等.移动云服务的数据安全与隐私保护综述[J].通信学报,2013,34(12):158-166.
[4]何明,陈国华,梁文辉等.物联网环境下云数据存储安全及隐私保护策略研究[J].计算机科学,2012,39(5):62-65,90.
篇3
大数据概念可以从四个维度去解,即三个V和一个C。三个V分别指的是数据量大(Volume)、数据种类多(Variety)和数据增长速度快(Velocity),最后一个C指的是处理、升级或利用大数据的分析手段比处理结构化数据要复杂的多(Complexity)。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像Map-Reduce一样的并行计算框架将复杂的计算任务分配到“云”中成百上千的节点。
1.2大数据与云计算
大数据本身就是一个问题集,云计算技术是目前解决大数据问题集最重要最有效的手段。云计算提供了基础的架构平台,大数据应用在这个平台上运行。目前公认为分析大数据集最有效手段的分布式处理技术,也是云计算思想的一种具体体现。
云计算是分布式处理、并行处理和网格计算的发展,或者说是这些计算机科学概念的商业实现。云计算将网络上分布的计算、存储、服务构件、网络软件等资源集中起来,基于资源虚拟化的方式,为用户提供方便快捷的服务, 实现了资源和计算的分布式共享和并行处理,能够很好地应对当前互联网数据量高速增长的势头。
1.3大数据与Hadoop
Hadoop是一个Apache的开源项目,主要面向存储和处理成百上千TB直至PB级别的结构化、半结构化或非结构化的大数据。Hadoop提供的Map-Reduce能将大数据问题分解成多个子问题,并将它们分配到成百上千个处理节点之上,再将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。
Hadoop项目包括三部分,分别是Hadoop Distributed File System(HDFS)、Map Reduce编程模型,以及Hadoop Common。Hadoop具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点,同时能支持海量数据的存储和计算任务。这些特点让Hadoop被公认为是新一代的大数据处理平台。 Hadoop同样具备出色的大数据集处理能力,在获取、存储、管理和分析数据方面远远超越传统的数据库软件工具。Hadoop经常在构建大数据解决方案时被用作基础构架软件。
二、大数据技术综述
大数据处理不仅仅是Hadoop,许多特定的数据应用场景是需要实时分析和互动反馈的,这时候就需要利用包括内存检索、流处理和实时计算等其他技术。而云计算的分布式存储和计算架构开启了大数据技术研究的大门,打造健全的大数据生态环境,所有这些技术结合在一起,才是一个完整的大数据处理系统。
2.1分布式计算框架
MapReduce是Google开发的一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于1TB)的并行运算,使云计算环境下的编程变得十分简单。
MapReduce将数据处理任务抽象为一系列的Map(映射)和Reduce(化简)操作对。Map主要完成数据的分解操作,Reduce主要完成数据的聚集操作.输入输出数据均以〈key,value〉格式存储.用户在使用该编程模型时,只需按照自己熟悉的语言实现Map函数和Reduce函数即可,MapReduce算法框架会自动对任务进行划分以做到并行执行。
Pregel是Google 提出的迭代处理计算框架,它具有高效、可扩展和容错的特性,并隐藏了分布式相关的细节,展现给人们的仅仅是一个表现力很强、很容易编程的大型图算法处理的计算框架。Pregel的主要应用场景是大型的图计算,例如交通线路、疾病爆发路径、WEB 搜索等相关领域。
2.2分布式文件系统
为保证高可用、高可靠和经济性,基于云计算的大数据处理系统采用分布式存储的方式来保存数据,用冗余存储的方式保证数据的可靠性。目前广泛使用的分布式文件系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。
GFS即Google文件系统,是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS的设计思想不同于传统的文件系统,是针对大规模数据处理和Google应用特性而设计的,运行成本低廉,并提供容错功能。
HDFS即Hadoop分布式文件系统,受到GFS很大启发,具有高容错性,并且可以被部署在低价的硬件设备之上。HDFS很适合那些有大数据集的应用,并且提供了数据读写的高吞吐率。HDFS是一个master/slave的结构,在master上只运行一个Namenode,而在每一个slave上运行一个Datanode。HDFS支持传统的层次文件组织结构,对文件系统的操作(如建立、删除文件和文件夹)都是通过Namenode来控制,Datanode用来存放数据块。
2.3大数据管理技术
互联网数据已超出关系型数据库的管理范畴,电子邮件、超文本、博客、标签(Tag)以及图片、音视频等各种非结构化数据逐渐成为大数据的重要组成部分,而面向结构化数据存储的关系型数据库已经不能满足数据快速访问、大规模数据分析的需求,随之而来,一系列新型的大数据管理技术和工具应运而生。
2.3.1 非关系型数据库
NoSQL,也有人理解为Not Only SQL,它是一类非关系型数据库的统称。其特点是:没有固定的数据表模式、可以分布式和水平扩展。NoSQL并不是单纯的反对关系型数据库,而是针对其缺点的一种补充和扩展。典型的NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据、列存储等。而比较流行的,不得不提到Google的Bigtable,它把所有数据都作为对象来处理,形成一个巨大的表格,用来分布存储大规模结构化数据,数据量可达PB级。而HBase是Hadoop团队基于Bigtable的开源实现,使用HDFS作为其文件存储系统。同时,Cassandra(K/V型数据库)、MongoDB(文档数据库)和Redis等一系列优秀的非关系型数据库产品如雨后春笋般问世。
2.3.2 数据查询工具
Hive是Facebook提出的基于Hadoop的大型数据仓库,其目标是简化Hadoop上的数据聚集、即席查询及大数据集的分析等操作,以减轻程序员的负担.它借鉴关系数据库的模式管理、SQL接口等技术,把结构化的数据文件映射为数据库表,提供类似于SQL的描述性语言HiveQL供程序员使用,可自动将HiveQL语句解析成一优化的MapReduce任务执行序列.此外,它也支持用户自定义的MapReduce函数。
PigLatin是Yahoo!提出的类似于Hive的大数据集分析平台.两者的区别主要在于语言接口.Hive提供了类似SQL的接口,PigLatin提供的是一种基于操作符的数据流式的接口.可以说Pig利用操作符来对Hadoop进行封装,Hive利用SQL进行封装。
Google Dremel是个可扩展的、交互式的即时查询系统,用于完成大规模查询结构化数据集(如日志和事件文件)。它支持类SQL语法,区别在于它只能查询,不支持修改或者创建功能,也没有表索引。数据被列式存储,这样有助于提升查询的速度。Google将Dremel作为MapReduce的一种补充,被用于分析MapReduce的结果或者是作为大规模计算的测试。
2.4实时流处理技术
伴随着互联网业务发展的步调,以及业务流程的复杂化,企业的注意力越来越集中在“数据流”而非“数据集”上面,他们需要的是能够处理随时发生的数据流的架构,现有的分布式计算架构并不适合数据流处理。流计算强调的是数据流的形式和实时性。MapReduce系统主要解决的是对静态数据的批量处理,当MapReduce任务启动时,一般数据已经到位了(比如保存到了分布式文件系统上),而流式计算系统在启动时,一般数据并没有完全到位,而是经由外部数据源源不断地流入,重视的是对数据处理的低延迟,希望进入的数据越快处理越好。数据越快被处理,结果就越有价值,这也是实时处理的价值所在。
流计算的数据本身就是数据流,不需要数据准备的时间,有数据流入就开始计算,解决了数据准备和延迟的两个问题。现有的解决方案中,Twitter的Storm和雅虎的S4框架更适合数据流计算的场景。Storm是开源的分布式实时计算系统,可以可靠的处理流式数据并进行实时计算,单机性能可达到百万记录每秒,开发语言为Clojure和Java,并具备容错特性。S4是面向流式数据和实时处理的,所以针对实时性较高的业务,可以很好地对数据做出高效的分析处理,而且系统一旦上线,很少需要人工干预,源源不断的数据流会被自动路由并分析。对于海量数据,它和MapReduce都可以应对,但它能比后者更快地处理数据。
三、思考与展望
以云计算为基础的信息存储、分享和挖掘手段为知识生产提供了工具,通过对大数据分析、预测会使得决策更为精准,这对媒体融合具有重要意义。
篇4
随着互联网的快速发展,人们逐步感受到了“信息大爆炸”,特别是各种移动通讯和物联网的发展,数以亿计的网络用户随时产生数据。目前全球的数据总量达到了ZB规模,大数据成为人们关注的热点话题,生活中的很多方面都可以和大数据技术进行结合,通过大数据技术来为我们服务。
大数据技术虽然给我们的生活带来了巨大的改变,但是大数据技术要求计算机具有相应的大数据处理能力,为此,云计算的概念产生了。云计算是分布式计算、网络存储、负载均衡等相关技术发展融合的产物。云计算通过网络将庞大的计算机处理任务进行分解,把分解后的较小的计算任务交给众多的网络数据计算服务器,经过网络服务器的分析处理之后把结果重新传回给用户。移动云计算是指通过移动互联网以按需、易扩展的方式获得所需的基础设施、平台、软件或应用等的一种IT资源或信息服务的交付与使用模式。[1]
1 大数据技术
现今的世界是一个数据的世界,我们身边到处都充满着数据,比如打电话的语音数据、发短信的文字数据、微信的聊天数据、报纸、杂志、网络购物等等。这么多的数据实时地影响了我们的工作、生活、学习,甚至社会的发展。根据维基百科的定义,大数据(Big Data)是用于数据集的一个术语,是指大小超出了常用的软件工具在运行时间内可以承受的收集、管理和处理数据能力的数据集。[2]美国IBM公司定义了大数据的3V特点,即规模性(Volume)、多样性(Variety)、高速性(Velocity)。规模性表示大数据涉及的数据量巨大,一方面人们的生活中产生了很多的具体数据,另一方面是互联网通信中移动通信的虚拟数据,这些数据的数据量是非常巨大的。多样性表示大数据中数据类型的复杂多样,其中包括最常见的文本数据、图像数据、语音数据和视频数据,除此之外还有很多其他的结构化、半结构化和非结构化的数据。高速性表示大数据技术必须具有实时性,比如实时路况导航、全球股价波动、一些通信业务的处理等等。
大数据技术的发展越来越成熟,大数据的价值也越来越受到人们的关注,对于数据处理的实时性和有效性要求越来越高。大数据在公共服务、商业智能、科学研究等领域发挥着巨大的作用,影响力越来越大,大数据技术的使用一定会给我们带来巨大的价值。社会中的各行各业可以通过大数据技术来完成各项工作,比如大数据在汽车制造业中的应用,福特汽车的产品开发团队曾经就对汽车行李箱的打开形式进行研究。车后行李箱的打开有两种形式手动式和电动式,如果采用电动式,能自动打开、便捷智能,但是这种方式会影响到车门开启有限的困扰。此前采用定期调查的形式并没有发现这个问题,但后来对社交媒体的关注和分析,发现很多用户在谈论这个问题,这对福特汽车以后的产品设计是非常有帮助的。
数据分析是大数据技术的核心,通过对相关数据的分析产生有价值的信息是大数据技术的关键。通过对数据的分析,可以产生有价值的规律和结果并辅助人们进行更为合理的决策。在大数据分析方面除了传统的技术外,人工智能技术邻域的很多方法被用得越来越多,包括统计分析、机器学习、数据挖掘等。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用信息和知识的过程。统计分析就是基于数学邻域的统计学原理,对数据进行收集、组织和解释的科学。机器学习作为人工智能邻域的重要内容,分为监督学习和无监督学习两大类。[3]常见的方法包括聚类算法、预测算法、回归算法、朴素贝叶斯算法、支持向量机算法等。这些算法往往需要较大的计算资源和较强的计算能力,云计算正好满足了大数据技术在这个方面的需求。
2 移动云计算技术
云计算已经发展成为IT行业的一个热门技术,目前的主要云计算设备和服务都是针对PC机而言的,但是随着无线路由的快速普及以及无线终端设备的大量出现,将云计算运用于移动环境是必然的发展趋势。根据相关的数据统计,全国的移动电话用户累计达到10亿以上,现有的终端计算能力、存储容量都是非常有限的,已经难以满足很多用户的需求,而云计算恰好能给用户提供服务。云计算是一种新型的应用模式,通过网络按需实现软件处理能力、存储资源等。[4]移动云计算正是基于云计算的概念出现的,它结合了移动网络和云计算的概念。移动云计算通过移动的终端用户进行网络互连,并以按需、易扩展的方式获得所需的基础设施、平台等相关的网络资源和信息。
云计算的一个主要优点就是在“云端”提供了大容量的存储空间和高速的计算能力。即使客户端的移动设备本身性能不够,但是只要能进行数据的输入、输出,就可以和云端进行交互,让云端提供计算和处理服务得到客户想要的结果。移动云计算的特点是终端硬件及系统无关性,这是因为终端不进行真正的大量计算和数据的存储,而是通过移动网络把数据和计算任务上传到云端让云端来进行计算和处理。移动云计算还消除了计算的地域性限制,普通的云计算由于终端设备的地理位置固定,给很多的实际应用带来不便,但是移动云计算可以通过移动网络进行数据传输和计算。如果移动网络有足够的带宽,那么移动云计算就能实现实时的数据计算,让客户在终端或者手机上看到最及时的处理结果。
移动云计算中比较成熟的应用有移动云存储。目前,很多公司推出了自己的移动云存储服务,在移动云上可以存放照片、文档、邮件、视频等相关内容。传统的存储方法是客户在存储资料时,都是通过U盘或是硬盘等存储设备。这种存储方式有明显的缺c,当U盘或是硬盘丢失、损坏或是忘记随身携带等,都可能造成想要取出存储资料却取不出来的状况。移动云存储是把资料上传到网络上的移动云存储服务器,只要能上网可以随时随地取出存储资料,不用担心资料的丢失或损坏。基于移动云计算的移动商务是商业发展的新模式。随着移动终端设备的大量使用,很多商务都是在网络上进行操作的,例如购物网站、微信支付等。除此之外移动云计算在医疗、邮件推送、远程教育等方面都有着非常成功的应用。
3 大数据与移动云计算
本地单机的数据处理模式成本越来越高,而且扩展性比较差,并且随着要处理的数据量不断增加特别是对于大数据的应用,相应的处理性能会遇到瓶颈,在这种情况下,出现了云计算技术。云计算具备了较好的弹性,在动态调配资源、支持多用户按需工作等特点正好符合了大数据的应用需求。云计算以其高可靠性、强大的计算能力和海量的存储空间成为解决大数据问题的重要技术,但是云计算不能在动态系统中进行应用,这使得移动云计算成为云计算新的发展方向,特别是移动终端可以方便地通过无线网络上网来使用移动云计算提供的各种服务。
大数据的落脚点在于“数据”,提供了对数据操作的各种方法,包括对数据的采集、分析、挖掘、存储等。移动云计算更多体现在“计算”,看重的是通过互联网产生的计算能力,移动云计算中很多的相关技术正是大数据技术的基础。大数据技术首先要有大量的存储数据,存储数据的传统方法是数据库技术,但是现在的数据量越来越大,已经超过了传统数据库的存储模式,而移动云计算正好给这些数据的存储提供了空间。其次是对大量数据的初步操作包括数据的提取、标注、表达等,移动云计算通过互联网可以把这些任务进行分解,分成许多较小的数据处理任务并分配给网络中的很多移动终端用户,让他们在空闲的时候处理这些任务。最后是对移动云上存储的大量数据进行分析,分析的手段包括数据过滤、数据分类、数据聚类等,移动云计算同样可以像上边那样把任务进行分解并在网络中寻找空闲的处理设备辅助完成这些任务。
基于移釉萍扑慵际豕钩傻拇笫据系统,能够提供大数据处理所需要的相关技术。大数据与移动云计算的结合,将是相得益彰,相互都可以更好地发挥作用。移动云计算为大数据提供强大的存储和计算能力,更加迅速便捷完成大数据的处理任务,而大数据的相关业务能为移动云计算找到更多更好的实际应用。
大数据和移动云计算在气象领域的应用,以前的气象服务信息大多只是将气象的监测数据提供给用户,由用户自己去综合使用,这显然仅仅是气象预报产业中的初级阶段。现在,人们通过移动网络可以及时获得气温、紫外线指数、感冒指数、晨练指数、洗车指数等更精细化的气象信息,并利用大数据分析软件可以获得更多的用户想知道的数据信息,体现出单一数据无法表达的价值和效益。
社交网络是现在人们沟通的主要形式之一,用户通过移动终端使用社交网络,伴随着用户的社交过程会产生大量的数据,通过大数据的分析技术可以发现一个人和另一个人是怎么样联系上的,另外也可以通过两个人的社交关系,找到让他们进行联系的渠道。不管我们在使用微信朋友圈还是微博账户,软件系统经常会提示我们哪个人可能是我们的朋友或者是同学,给你一个加入好友的提示,这就是大数据与移动云计算相结合应用的一个实例。
地图导航古已有之,而发展到今天的电子地图导航更成为人们出行旅游的指南针。用户使用移动终端比如手机、平板电脑通过移动互联网把自己的实时地理位置信息传送到网络上,由此可以进行打车、聚会、餐饮、购物、汽车导航等应用。大数据技术通过分析可以知道在哪些地方,什么样的服务是在这个地理位置上的人最需要的,移动云计算把这样的消息出去后,可以给我们提供最便利的服务。比如在商场附近可能有更多的人需要打车,在人烟稀少的地方可能有更多的人需要方向导航等。
医疗行业具有数据量大、复杂性高等特点,医疗行业被认为是最能让大数据分析技术发扬光大的一个传统领域。移动云计算利用移动终端可以随时采集病人的相关数据信息,比如脉搏、血压、照片等,这些数据随着时间的推移将构成海量的数据。此外,医生对于病人的诊断结果也会保存在移动云存储中,当同样类型的病症再次出现的时候,移动终端可以根据大数据的分析技术给病人提出最合理的治疗建议。这样既节省了医生的人力资源,又节省了病人排队等待的时间,更能在第一时间解决病人的病情。麦肯锡的报告中指出,大数据技术可以帮助美国的医疗行业一年创造3千亿美元的附加价值。
大数据利用了移动云计算的方便性,可以随时随地对数据进行处理并提供了及时的服务,移动云计算通过大数据找到了更好的应用方向。没有大数据对于大量信息的积累,移动云计算的计算能力再强也找不到用武之地,同样如果没有移动云计算的强大计算能力,那么大数据积累的大量信息也毫无价值。
4 总结
如果说大数据是巨大的宝藏,那么移动云计算是开发这个宝藏的最有利的工具。没有移动云计算的强大计算能力,那么大数据中的相关数据就是一堆毫无用处的冗余数据。另一方面移动云计算也正是由于大数据的信息量大,本地单机处理能力有限才发展起来的,没有大数据的信息累积,那么移动云计算也得不到完全的发挥,所以大数据与移动云计算是相辅相成的关系。
参考文献:
[1] 赵华, 王海阔. 移动云计算综述[J]. 电脑知识与技术, 2012(1).
[2] 何清. 大数据与云计算[J]. 中国安防, 2014(1).
篇5
一、大数据技术特征以及关键技术
(一)特征
大数据技术相较于以往的信息技术,具有明显的优势特征,首先是大数据技术可以在短时间内完成对特定目标的信息搜集、运算、分析等,并且还能及时给出分析结果,大大提高了信息处理效率。另外应用大数据技术之后还可以简化信息计算流程,用较少的时间从大量数据信息中找到有价值的数据信息,这对企事业单位来说能够大幅提高工作效率,而且还能帮助企业合理制定发展策略,促进企业实现可持续发展目标。
(二)关键技术
计算机系统中,大数据关键技术有云计算和数据备份技术,云计算技术指的就是通过建设网络云平台,将需要处理的数据信息供任务发放机制划分为若干个小程序,然后给每个服务器系统发送适量的小程序,之后分支服务系统会把数据计算结果传递到网络云平台上,由云平台负责处理各项数据结果,然后用户就能收到数据处理的反馈结果,由此来看,通过运用云计算技术之后就能在短时间内保质保量地完成巨大数据量的运算处理任务,满足用户多样化的网络服务需求,而且还能突破计算机硬件设备的性能限制,不过随着云计算技术的不断发展,也有很多问题逐渐暴露出来,例如用户的隐私信息被泄露、信息资源被人窃取、病毒攻击等,导致大数据技术无法给计算机信息安全带来保障。而数据备份技术指的就是为了避免在计算机系统出现失误的时候造成重要数据丢失,把所有或者是部分数据集合从主机硬盘复制到其他存储介质的经过,基于互联网时代背景下,个人隐私信息保护工作遭遇了挑战,此时数据备份技术的作用就得以凸显出来,在企事业单位应用大数据技术时,应该对重要信息做好数据备份工作,不论对个人来说,还是对企业而言,一旦数据泄露都会带来严重损失,今后还应加强对数据备份技术的研究力度,确保能够最大限度降低信息丢失概率。
二、大数据技术应用现状
调查结果显示,现在很多行业在发展的过程中都引用了大数据技术,比如交通、医疗等,而且随着计算机信息安全管理工作扮演着越来越重要的角色,也对大数据技术提出了运用需求,因为在大数据技术的帮助下,能够有效促进计算机安全防御体系转型升级。比如通过运用大数据技术,可以提高流量监测平台的构建质量,帮助监测人员及时获取网络日志、流量使用状况等信息,这样就能全面掌握计算机系统的运行情况,避免流量异常问题发生。不过大数据技术在计算机信息安全中的运用现状不容乐观,一方面是大数据技术在计算机信息安全管理工作中的应用时间比较短,而且应用方式也单一,导致大数据技术的应用价值没有充分体现出来。另一方面,大数据技术在计算机信息安全管理工作的应用过程中还面临着不少技术障碍,例如信息分辨不够清晰、信息筛选准确度低等问题,造成计算机信息安全管理工作频繁出现漏洞,据此需要尽快采取措施来解决大数据技术的应用难题。[1]
三、大数据技术在计算机信息安全中的具体运用策略
(一)建立完善的安全制度体系
对计算机信息安全管理工作来说,完善的安全制度管理体系能够发挥重要导向作用,促进计算机信息安全管理工作目标实现,但是现在很多企事业单位的信息安全制度体系都比较陈旧,导致大数据技术的应用价值难以发挥出来。比如有的细则条例内容和实际的技术标准存在很大差异,这样大数据技术在应用的过程中就会受到很大限制。所以为确保大数据技术的积极效用能够在计算机信息安全管理工作中体现出来,当务之急就是要结合大数据技术的应用情况与技08术特征,完善现有的安全制度体系。比如,实际情况允许的情况下,可以根据需要在计算机系统中建设防火墙,不过在选择防火墙结构时,应当和系统运行情况、信息安全防护需求等相结合,这样在计算机系统工作的时候,就能利用大数据技术筛选出有用的网络信息,而且信息的准确度也很高,可以给发展战略的制定提供有利参考。[2]另外,众所周知人是计算机信息安全工作的主体,即使有大数据技术的帮助,也需要加强对相关技术人才的培养,所以还应该调整当前安全制度体系中的人才培养目标,全面提高信息安全管理人员的数据计算能力、信息处理分析能力等。
(二)搭建安全服务后台
为提高大数据技术在计算机信息安全系统中的应用效率,应该搭建完善的安全服务后台,所谓安全服务后台,指的就是一种信息安全载体,它同时囊括数字认证、自动监控及预警、授权处理等多个功能,通过对计算机信息进行集约化处理之后,就可以给计算机信息安全提供一个全方位的安全保护。另外,安全服务后台还能在计算机系统运行过程中,迅速感知安全隐患,并且还能辨别隐患类型,找到隐患的所处位置,方便安全管理人员及时处理。现在,基于计算机信息安全管理视角下构建的安全服务平台还能发挥更多效用,一是可以提高异构数据的处理效率,因为计算机系统工作过程中,会有庞大数据量产生,而且各种数据信息都保存在后台安全服务中心,例如流量数据、各种日志信息等,不仅有着繁多的数据类型,还有着大量的异构数据,但是在大数据技术的帮助下,安全服务后台便能快速完成对用户数据、各种信息的归类整理,还能给出分析结果,从而大大减轻了系统运行压力。[3]二是基于大数据技术的特征,能够将决策经验提炼、知识库数据匹配等功能增加到安全服务后台中,这样就能增强计算机系统的机器学习能力。三是方便技术人员在安全服务后台中引用数据备份技术,从而计算机数据信息可以实现加密管理,大幅提高了计算机信息安全管理工作质量。
(三)对计算机信息安全趋势实施预测
在繁杂的网络时代背景下,计算机系统会遭受各种突发性的网络攻击,而且这种攻击也难以准确预测并进行防范,所以计算机信息安全管理工作就面临着巨大挑战。在过去,网络技术不够先进,而且技术理念也比较陈旧,像“被动防御、事中控制”一直是计算机信息安全管理体系所遵循的理念,虽然能够在一定程度上减少对系统的破坏,但是计算机信息安全仍然面临着紧张局势。通过运用大数据技术,可以实现预测系统风险的目标,比如大数据技术具备很强的数据挖掘能力,那么就能对计算机安全信息实施挖掘、分析,然后从数据分析结果中预估计算机系统的安全风险潜在情况,并且还能对安全风险分布情况进行详细划分,比如可以明确知道网络攻击的目标是什么、信息安全防御系统的漏洞等,之后再整理成安全趋势预测总结报告,让计算机系统围绕着安全趋势预测报告来优化调整安全防御方案,保证不同安全设备之间都可以密切关联,如果网络攻击一旦出现,就能迅速进入协同联动运行状态中,再根据制定的运行策略来实施防御策略,这样信息安全隐患就可以被及时解除。
(四)制订智能安全运维计划
篇6
计算机信息技术的发展为人们的生活提供了巨大的便利,目前随着时代的发展,人们对计算机存储空间的要求也在不断提高,越来越多的网络公司开始进行这一方面的研究,旨在为广大用户提供更加优质的服务。在这一背景下,大数据得到了广泛的应用,不仅为人们的生产生活提供巨大的便利,同时对于促进计算机信息处理技术的发展具有积极意义。
1大数据下计算机信息处理技术概述
大数据主要是通过信息术实现对数据的保存和处理,使用户通过计算机得到所需的信息数据。目前,随着信息量的与日俱增,大数据技术发展迅速,同时对数据的要求也在不断提高。在实际数据处理过程中,技术层面的不足导致计算机信息处理技术无法满足时展的需要。如果计算机处理技术发展缓慢,则会对信息处理的稳定性和安全性造成严重影响,因此采取有效的措施提高计算机处理水平十分重要,为用户提供更好的数据服务。结合实际情况分析,目前尚不具备一套完善的、处理效率较高的处理系统和软件,难以满足广大用户对数据信息的使用要求。在大数据的背景下,计算机处理技术的特点主要体现在自动化水平高、数据精确等方面,现如今计算机处理技术不仅包括检索技术、信息数据库,同时还包括安全技术、通信技术等多项技术[1]。目前计算机处理技术也面临着诸多问题。第一,日常生活需要使用一系列的智能终端设备,其形成的数据会上传到互联网中,大量的数据对于计算机处理技术来说具有一定的挑战。第二,大数据在计算机信息处理技术中的类型繁多,形成信息的数据来源也存在明显差异,所以数据结构之间的差异较大,主要表现在图片、视频、文字以及信息等,均为不同信息类型。第三,信息具有非常快的传播速度,目前因为我国社会、经济的迅速发展,人们的生活节奏变得越来越快,因此对信息数据传输速度的要求也在不断提高,若想确保传输水平,提高计算机处理技术应用水平至关重要[2]。现如今,越来越多的企业开始将计算机信息处理技术应用于数据管理以及办公中,有助于提高工作的质量和效率,实现了工作人员、软件和硬件的有机结合。
2大数据在计算机信息处理技术中的运用
2.1信息采集加工技术
长此以往,信息的采集加工都是各行各业以及广大用户关注的一大重点问题,信息采集及加工的合理性、科学性对于个人、企业以及社会的占具有重要的影响。在大数据时代背景下,计算机信息处理技术的常见问题便是信息的采集加工问题,信息处理水平无法满足大数据发展的需要,因此需要紧跟时展的潮流,不断提高计算机信息处理能力。第一,工作人员在使用计算机信息处理技术的过程中,需要实现对各类信息的全面整合,在确保信息数据准确和完整的基础上,才可以继续展开后续的处理工作。在对信息进行采集的过程中,工作人员需要明确信息源,对其进行全面追踪,采取有效的监管措施,之后将完成采集的数据信息存储于计算机数据库中,确保数据信息的准确性和完整性,为后续加工处理工作的进行提供便利。第二,需要提高数据信息的加工水平,结合用户的要求进行加工,实现对用户的同步传输。并且这一流程中,全程都需要保证传输数据信息的准确性和安全性,提高加密管理水平,以防信息发生泄露等不良情况。
2.2信息处理技术
传统模式下计算机信息处理工作多通过计算机的硬件设备和软件设备完成。为了进一步提高信息处理的安全性和稳定性,需要采用先进的设备进行信息处理。但是因为受到技术因素、经济因素的制约,导致计算机信息处理水平低下。在大数据的背景下,计算机信息处理技术需要通过云技术实现,具有较高的工作效率和准确性,对云技术进行合理应用,实现计算机硬件和网络的分离,但是相互的运行不受到其他影响,提高硬件设备的运行水平,并且建立大数据信息网络有助于对大量数据信息的有效处理。
2.3信息存储技术
对计算机信息处理技术来说,信息存储技术是其重要组成部分。在大数据的时代背景下,需要进行处理和存储的信息类型繁多、数量巨大。为了能够紧跟时展的步伐,则需要不断强化信息存储技术,提高存储水平,这样才能够确保计算机处理工作的有序进行。数据信息的存储量和存储水平是评估计算机信息处理水平的重要指标,先进高效的存储技术能够高效对各类信息进行有效存储,保证信息的完整性和安全性,符合时展的要求。
2.4信息处理安全技术
任何一项技术的应用都需要保证其具有一定的安全性,安全性极易受到一系列其他因素的影响,因此计算机信息处理技术也面临着一定的挑战,主要体现在数据信息的安全性方面。为了确保数据信息使用全过程的安全性,则需要不断提高信息处理安全技术水平。并且在信息处理的过程中,进行全面的监测和追踪,这样才能确保信息传输的稳定性。在数据跟踪监测的作用下,有助于及时发现其中存在的问题,采取有效的措施及时解决,避免安全风险问题的发生。
2.5信息传播技术
传播技术主要指完成用户信息的收集后,使用数据库查询相关数据,将数据传播至用户,该项技术的核心为确保用户能够阅读所需内容。但是结合现状分析,互联网传播速率对传递信息的类型和体量有一定的影响,所以在计算机信息技术传播环节,需要使用多种方法保证传播的准确性和时效性。为用户提供相关信息时,首先需要了解用户的要求,结合用户提供的信息,通过数据库查找相关数据进行推送,这样才能够保证准确找到自己需要的信息。
3大数据时代背景下计算机信息处理技术面临的机遇和挑战
3.1面临的机遇
首先,在数据挖掘方面面临的机遇。数据发掘指的是对各种数据进行深入分析,了解数据与数据之间的关联性。数据挖掘的主要流程包括数据准备、规律分析以及规律体现。有助于提供工作的决策水平,尤其是企业在数据挖掘的过程中,能够及时了解数据信息中存在的问题,通过科学合理的方法解决问题。通过对数据挖掘技术的合理应用,企业管理者能够准确掌握数据中存在的隐藏信息,例如潜在消费人群等,进而根据实际情况制定科学合理的措施,不断提高自身的竞争优势[3]。例如可以使用关键词检索的方法了解消费群体的习惯和行为,同时通过总结和分析了解其心理趋向,为企业制定相关措施提供重要的参考依据,能够生产出满足消费者要求的全新产品。其次,有助于促进物联网的发展。物联网是社会发展的必经之路,其融合诸多先进技术,是新兴产业发展的重要活力来源,得到了各行各业的广泛应用。在大数据时代背景下,物联网技术中形成的产业数量也在不断增加,例如养老系统也在逐渐趋于完善,手机转账等多种便利功能均是大数据的重要成果,并且各项软件的功能也在不断趋于完善,这也体现了物联网对人们生产生活带来的便利。
3.2面对的挑战
首先,对信息安全的要求在不断提高。大数据的时代背景下,计算机得到了普遍的应用,多数用户都会将数据信息存储在计算机系统中,同传统模式中的纸质文件保存存在明显的差异。但是因为网络安全问题愈发突出,如果在存储信息的过程中没有采取有效的安全措施,则会导致信息被窃取、遗失或者泄露等不良情况发生。用户在浏览相关网页信息的过程中,如果缺乏对信息真实性的辨别能力,极易为一些不法分子创造可乘之机。进而导致严重的财产损失。为了能够避免上述问题的出现,用户对信息安全的重视度也在不断提高,政府也出台了多项法律法规加强对信息安全的保护。其次,对专业人才的需求越来越高。为了紧跟时展的步伐,计算机信息处理技术对于人才的需求也在不断提升。在大数据的时代背景下,先进技术需要专业人才对其进行使用,因此对技术性、专业性人才的需求不断提高,但是培养技术性人才花费的时间较长,所以人才匮乏问题对计算机信息技术发展产生较大的影响[4]。最后,信息筛选工作水平低下。对收集数据进行分析十分重要,通过分析才能够发挥其真正的功能和价值。在大数据时代背景下,信息数量繁多,类型丰富,其中包含着有价值的信息和无用信息,因此需要对信息进行筛选才能将价值高的信息挖掘出来。但是结合现状分析,目前数据分析仍存在一定的不足,主要表现在处理速率低下,数据分类缺乏准确性等方面。
4结语
综上所述,大数据的出现对于计算机信息处理技术的发展具有重要的作用,但是在大数据时代的背景下,计算机信息处理技术也面临着巨大的机遇和挑战,现如今人们对计算机信息数据的安全性愈加重视,因此计算机信息处理技术也需要紧跟时展的步伐,不断优化和完善安全体系,保证信息数据的完整性、安全性和准确性,不断提高计算机信息处理的水平。
[参考文献]
[1]刘丽凤.试论基于大数据视域下计算机信息处理系统的优化设计[J].电脑知识与技术,2020(5):12-13.
[2]钱春燕.“大数据”时代背景下的计算机信息处理技术研究[J].数字化用户,2019(6):162.
篇7
上海科技网拥有IDC、IP-VPN、ISP、ICP和CPN等互联网特许经营牌照,并通过了ISO20000信息服务流程管理体系和ISO27001信息安全管理体系,以及信息系统安全等级保护三级。
篇8
大数据生态繁花似锦
近年内,随着越来越多的设备接入互联网,当下一年所产生的数据往往是以往数年的总和。而据Global Cloud Index预计,截止至2020年互联设备数量将达到500亿,众多爆发式增长的设备预计在2017年便会产生高达7.7 ZB的互联网数据。在这个大背景下,各个机构都积累了足够多的数据,从而对数据进行分析并产生指导实践的见解也成为了企业提高竞争力的迫切需求。在这个需求刺激下,开源大数据技术生态圈得到了飞速发展――在数据的整个生命周期中,从收集到处理,一直到数据可视化和储存,各种开源技术框架林立。
在开源大数据处理上,出于对成本和数据量的考虑,横向扩展已经必不可少,因此在这个领域涌现出大量优秀的集群计算框架,其中大家首先想到的就是Hadoop。Hadoop天生高贵,由雅虎原工程师Doug Cutting在Google论文的启发下建立,也是时下生产环境部署最多的计算框架。然而,随着内存成本的降低和对不同处理类型需求的增加,缺乏对内存有效利用及资源调度粒度的不够,业内涌现出大量优秀的计算框架并占据一席之地,整个大数据生态繁华似锦。
开源IaaS发展
如上文所述,随着接入互联网的设备增多,企业IT基础设施往往需要承受以往数倍的压力,从而对原有的资源组织方式提出了严峻的挑战。在这个前提下,云计算得以快速发展并在各行各业落地,更成为许多创业公司的立足之本。而作为云计算的一种重要形式,IaaS服务有各种开源和商业云平台方案,作为当前最成功的云计算平台,AWS更是吸引了众多的关注和模仿,如果说云计算发展到如今的火爆,除了IT技术的发展趋势,更重要的是背后顶级云计算厂商的大力支持和推广。我们最早听到IaaS概念可以追溯到1983年,一家在现在看来非常厉害的公司Sun Microsystems就提出了“网络是电脑”的概念,但是由于概念太超前,在当时并没有引起重视。
随着Amazon推出其弹性云计算,并在IaaS领域大获成功,Google、微软、VMware、IBM等IT巨头们大举跟进,纷纷涉足云计算领域,云计算的热潮汹涌而至。在这期间,开源IaaS领域发展同样迅猛,从最早的Eucalyptus、OpenNebula、CloudStack等到我们熟知的OpenStack,百花齐放,百家争鸣,一时云计算领域热闹非凡。当然,随着众多大型厂商的支持、社区的壮大以及生态的不断完善,OpenStack如今大放异彩,开始逐渐占据主导。不是说OpenStack现在完美无缺,只是在当下的开源IaaS领域,OpenStack已经毫无争议地成为最受关注的云计算技术,并逐渐成为开源IaaS领域的代名词。
容器技术异军突起
Docker,时下最火的容器技术,从诞生到进军生产环境,每一步的技术演进都受到了巨大的关注。其实,谈及容器技术,其实Docker并非首创,早在十数年前,容器技术便已有雏形,但是以Solomon Hykes为首的一帮工程师敏锐的发现了容器技术在云计算领域的巨大潜力,随后迅速技术转型,开始投向容器技术并且从一开始就走开源路线,这位身上流著美国与法国的血统,喜欢网咖打电玩,酷爱摩托车的年轻人开始了一段非凡的浪漫之旅。
无论是版本的迭代还是进军生产环境,Docker这三年来的发展可以说是如鱼得水,当然,期间也受到过质疑,比如CoreOS与Docker的标准之争就在容器圈引起了不大不小的轰动,最后以Solomon和CoreOS的创始人Alex Polvi握手言和告终。之后随着Docker版本的更新,在网络和安全、存储等领域的短板被逐渐补足之后,Docker的集群能力得以完善。
容器引擎领域,虽说有CoreOS团队开源的rkt项目,但是和Docker相比,在用户以及社区活跃度方面都有很大差距。容器的编排,可以说在目前Docker领域受到的关注度前所未有,从Mesos到Kubernetes,围绕两种技术的编排之争超乎想象。由于背后都有大批的厂商支持,短期内,这两种技术都将得到迅速的发展,某一方不会形成压倒性优势。另外,从Docker公司的角度,背后的动作也有对编排的考量,综述所述,容器生态中,围绕Docker的生态之争才刚刚开始。
Docker短板补足
生产级实践备受关注
如上文所述,在Docker版本的更新过程中,自身的一些技术缺陷得到了弥补,Docker在安全、存储以及网络领域的短板得到逐步的解决,Docker进军生产环境已经成为大势所趋。国外,在Docker应用领域有着比较先进的经验。国内目前真正将Docker应用在生产领域的很少,其中应用在核心业务的就更少,Docker从诞生到现在,已经3年时间,如果继续炒作Docker的优越已经毫无意义。当下,开发者们最为关心的是如何让Docker真正落地,如何在生产环境中使用Docker,急需这个领域有一些第一个吃螃蟹的企业出来分享他们的经验和教训。为此,2016 Container峰会聚焦生产级实践,邀请了在金融、教育、制造、证券等领域已经应用Docker的企业技术负责人到场,给我们谈谈他们在生产环境中是如何使用Docker的,大规模部署Docker的经验和跨过的坑。
OpenStack式微?
无可否认,Docker的发展热度在一定程度上掩盖了OpenStack的光芒,但是作为开源IaaS领域的首选平台,IaaS如何和Docker和谐发展,或者如何借势Docker弥补OpenStack在技术领域的短板,已经成为很多开发者关注的焦点。
篇9
值得一提的是,SAP Ariba和SAP SuccessFactor均源自SAP在云计算领域的收购,前者擅长于供应商管理,后者擅长于人力资源与绩效管理。近日,SAP又在云计算领域进行了一个收购,收购了瑞士电子商务平台供应商Hybris。
孙小群认为,相比甲骨文公司的融合应用,对原有应用进行全部重写体系庞大,SAP的云计算更容易被客户所接受。在孙小群看来,SAP云服务并非对传统管理软件的取代,实现与原有预置系统的无缝对接是其一大优势。她举例说,如果一个公司进行了一些并购,可以通过SAP的SaaS服务使得被并购公司的IT系统与原有系统进行无缝对接。
孙小群认为,当前炙手可热的大数据应该与云计算结合起来。她说:“大数据处理要解决好三个问题:其一,要解决时间的问题,实现实时的数据分析;其二,要解决距离的问题;其三,要解决好多重数据源的问题。”也就是说,大数据处理要做到“在对的时间找到对的数据,把它传递给对的人”。基于此,SAP正在构思将大数据和云计算结合起来的实时云。
为此,不久前SAP了SAP HANA企业云,并宣布SAP所有业务线的云应用最终都将迁移至 SAP HANA云平台上。“HANA内存计算技术对SAP的云技术来讲是如虎添翼。”孙小群说。
或将建立数据中心
孙小群指出,尽管云计算领域热闹非凡,但是真正赢利的企业却很少。她认为,能否做好运营是云业务能否赚钱的关键。她指出,自2004年进入云计算领域以来,SAP一直在学习怎么做好运营,目前SAP在Saas方面拥有众多国际标准,在确保企业数据安全的同时保证实时的服务。然而,说到运营,受政策所限,SAP这样的外资企业是不允许在我国境内建立数据中心的。为此,微软近日借助本土企业世纪互联来落地其公有云Windows Azure成为业界关注的一个焦点。
篇10
紫云1000可以作为企业云计算基础架构的一部分。“企业不用自己再对各类软硬件进行集成。”陈炜表示,“客户使用云计算机就像使用一台PC一样方便。与传统IT系统的部署相比,云计算机的部署时间可以缩短90%。”从各项技术指标看,紫云1000确有过人之处:单台紫云1000的CPU处理器数量可以从6个扩展至65535个,存储空间可由20TB扩展到85PB,吞吐量达到1.2GB/s,数据检索速度达到30亿条/秒。紫云1000从架构上区分主要包括两层:最底层是标准化的硬件,其上是紫光股份拥有自主知识产权的虚拟化模块、大数据模块和快速部署模块。紫云1000作为一个云计算平台,可以支持各类应用模块,比如邮件、即时通信、语音系统、个人网盘、数据共享等。
陈炜将紫云1000的特色归纳为以下四个方面:第一,软硬件一体化,从而大大降低了IT系统的整体拥有成本;第二,具有快速、无限的扩展能力,其分布式的大数据处理架构保证系统可随客户数据和业务的增长而实现线性扩展;第三,具有很高的可用性,其元数据服务器采用主备双机热备技术,在主机发生故障时,备机可自动接替其工作,而数据节点也采用冗余备份机制,任意一个节点出现故障,数据也不丢失,服务不会停止;第四,具有高效性,数据处理速度非常快,数据可在不同节点之间动态移动,同时保证各节点的动态平衡。
篇11
[6]李卫,李济汉,张云勇,等.电信运营商云业务发展现状分析与建议[J].互联网天地, 2013(3):715.
[7]曲悦.浅谈云计算在图书馆建设中的价值及问题[J].价值工程,2012(9):203204.
[8]马锡坤,于京杰.医院数据中心存在的问题及对策[J].中国医学教育技术,2013,4(27):215217.
[9]邬贺铨.大数据时代的机遇与挑战[J].信息化参考,2013(2):16.
篇12
2.1大数据的定义及其主要特征
在业内,大数据和其他新兴学科一样还没有一个统一的定义和界定标准。一般情况下认为:大数据是由一些异构数据所组成的集合,能够运用较为方便合理的算法及工具从中找出有价值的信息,并为人类带来社会和经济效益。它又被称为海量数据、大资料,这指的是其波及的数据量范围广大,以至于在合理时间内根本就没有办法通过人工获取、管理等方式整合成为人类所能明晰、解读的信息。这些数据来源广泛,比如监控视频、网上交易记录等。尽管还没有一个统一规范的定义,但大量的这些数据都被称为大数据。大数据具有如下四个特性:①数据发展速度和处理速度要求快;②大数据的多样性,其数据来源丰富,格式又包括有多种不同的表现形式,如声音、视频、图片等;③数据的存储和计算量比较大;④大数据的信息巨大导致其价值密度相对较低,因此要想真正的找到有价值的数据难度较大。
2.2大数据时代下的思维变革
①在利用大数据去解决一些特殊的问题时,能够处理更多的信息而不再依赖简单的随机采样。②为了分析处理更多的问题,需要对数据泛化,因为在大数据的简单算法之下有可能比先前复杂的算法更加方便有效。③大数据的背景下,人们更加聚焦于事物之间的相关关系而不是其因果关系。
2.3MapReduce框架
MapReduce是谷歌推出的一种计算编程模型,其主要目的是对庞大的数据进行并行处理。因此,MapReduce就把数据并行处理的任务分解成MAP和REDUCE这两个核心操作,这种设计理念在一定程度上受到一些编程语言如高阶函数的影响。
3大数据处理的关键技术
3.1数据备份技术
大数据时代背景下,数据的安全备份工作非常重要。安全备份是数据容灾的基础和前提,是为了预防偶然情况而采取的一种安全保护手段,备份的核心工作是恢复数据,根本目的是数据的再利用。它具体指的是如果出现一些突况从而致使存储在系统中的数据、文件等丢失或者说损坏的时候,系统能够准确而迅速的将数据进行恢复。
3.2云计算技术
假如把形式多样的大数据比作在高速公路上运行的各种汽车,那么这条高速公路就是云计算,云计算是大数据技术的核心内容。正是基于云计算在海量信息储存、分析以及应用管理等方面的支持,大数据才能够在社会中广泛应用。谷歌的各种大数据信息技术和应用平台就是在云计算的基础上建立起来的,而其中最为典型的就是以MapReduce(批处理技术)、UFS(UIT云存储系统)、BigTable(分布式数据库)为代表的大数据以及在此基础上建立的数据处理平台。
3.3Hadoop
在大数据时代背景下,人们对数据的分析、应用和管理都提出了更高的要求,传统的数据处理技术与关系型数据库已经不能满足时代的发展要求。为了能够给大数据的分析处理提供一个更高、更好、更可靠的平台,Apache基金会研发了一个开源平台Hadoop,这个平台用Java语言编写,已经发展成为一个包括HBase(分布式数据库)和HDFS(分布式文件系统)等功能在内的完整系统,成为当下相对主流的大数据应用平台。
4大数据技术应用所带来的信息系统的安全隐患以及应对策略
大数据之下,海量的信息数据一般都存储在一些分布式的网络节点当中,管理相对混乱和分散,而且系统也没有办法独立掌控用户交易数据的场所,因此很难分辨用户是否具有合法的身份标识,这就非常容易致使一些不法客户肆意窃取、篡改他人信息;另外,大数据存储系统中含有大量的个人隐私信息及各种数据记录,在大数据信息的挖掘利用中,怎样能够确定一个信息的开放和保护尺度,是当前大数据发展过程中面临的又一难题。为了充分合理的利用大数据并对一些风险进行预防,在此,我们特提出以下四点建议:①建立健全相关政策,国家需要加强顶层设计,有力的确保数据储存安全;②积极探索相关技术,加强对个人安全隐私信息的保护力度;③增强计算机防火墙的安全防护能力,有效抵御网络黑客,确保网络环境安全;④深化云计算安全领域改革,充分适应信息化的发展要求,确保云端数据安全。
5案例分析-对A公司大数据及其信息管理系统的研究
A公司实施信息化已有多年,每年在信息化方面,都会投入了大量的人力和物力,并已搭建了公司的局域网和广域网。不过,由于在初期的信息化建设中,公司是以服务支持软件应用为主,还没有站在一个更高的角度来开展信息化工作,因此也就没有真正实现大数据的应用,更没有制定较为系统的信息化规划,各信息及系统没有集成,信息孤岛现象严重,具体表现为系统中的业务流程尤其是在工程、营销、生产和财务等环节存在严重的断层现象。此外,由于标准不一,系统没有整合、较为分散,这就给系统的集成带来了很大的困难,信息不能共享;数据也缺乏标准化,无论是自行开发,还是从国外市场上买来的即时软件,一般都不注意数据的标准化,或数据标准自成一体,应用项目上得越多,数据的不一致性就越严重;系统开发没有标准化,A公司在建设信息系统的过程中没有使用相对一致的开发、应用平台及工具,不利于降低系统维护成本、技术人员培训成本等。为了克服这种现象,A公司认识到,要解决这些问题必须对系统进行集成,并建立健全信息化建设的统一标准。为此,A从公司的战略入手,结合公司的业务发展状况,深入分析了企业发展对大数据信息化建设的需求。而要配合好这些行动,首先要做的就是建立客户关系管理系统,记录客户信息,使公司拥有一个全面的客户信息资源库,包括客户的基本信息、交易记录等。其次,通过分析,A公司对所要应用的每一套信息数据系统都提出了详细的业务需求,通过对比国内外相关的信息系统,在综合考虑需求满足程度及成本等因素下,该公司选择了一套国外的成熟软件产品进行分步实施。再次,A公司通过对业务流程的分析,从业务的角度提出了企业的信息流程,明确了系统间所需要的的集成关系。为了较好的整合现有及未来的系统,实现信息的集成、共享与流转,减少手工的干预,A公司提出了信息技术架构及其整合方案,包括应用系统的组成与结构、信息模型、信息和数据在应用系统之间的分布与流向、信息技术标准和规范等。同时,该公司还分析了目前在市场上较为主流的系统集成的技术和产品,在尽量确保现有投资,同时又兼顾未来系统方便集成的原则指导下,该公司选择了最合适的产品和技术对现有的系统进行分步整合。最后,A公司认为,对信息化的规划建设来说还有一个十分重要的问题,即大数据在信息系统中的实施及资源配置计划。只有明确了信息系统建设的时间表和优先顺序,才能更好地指导信息系统的实施。因此,A公司在综合分析了公司的未来战略、发展方向、业务及系统现状后,提出了大数据信息系统实施计划。在该实施计划中,不仅安排了实施的时间表,还给出了系统实施的大概预算及主要的产品供应商,同时提出系统实施需要注意的主要问题等,为以后几年的信息数据化网络建设提供了一个很好的依据和参考。
篇13
1 云计算与大数据概述
云计算是利用计算机的强大运算能力,将待计算的数据分成许多个小部分,然后利用多组服务器对每个部分分别进行计算分析,最后将计算的结果汇总并反馈给企业用户。云计算处理方式可以使计算机能够处理数据量很大、结构较为复杂的数据分析,而且使得数据处理的范围更加广泛,处理结果更加准确可靠。大数据则是计算机数据采集中常用的一种方法,其主要作用是从海量数据当中快速搜寻对数据分析有价值的信息,并将其保存。鉴于大数据只是一种数据采集方法,如果缺乏对应的数据处理方式,大数据的作用也无法体现出来,所以在此,可以将云计算和大数据相结合。大数据是从海量数据当中采集数据,而云计算则需要大量的数据作为运算基础,所以云计算与大数据的结合可以使双方都能充分发挥该有的作用。
2 在线交互平台存在的问题
2.1 企业用户验证及企业用户信息问题
当前的在线交互平台的企业用户验证体系还不够完善,在企业用户进行登陆时需要经过多次验证,严重影响企业用户的体验感,而且还会使得企业用户的账号安全得不到保障。此外,由于平台中存在多种应用方式,所以企业用户信息就会遍布各个应用,而且有许多应用的服务功能相近,这就使得平台的资源被浪费,企业用户的体验感下降,还不便于平台管理[2]。
2.2 数据类型问题
在线交互平台的信息类型有许多种,主要可以分为两大类:结构化信息以及非结构化信息。由于编码方式或者保存格式的不同,少部分数据会不同于寻常数据,出现异构的现象。而在线交互平台每天都有着海量的信息交流,这些资源都是通过网络进行,所以每天会有大量的信息资源,而且是以非结构化数据为主,再附带着一些异构数据。以当前的数据分析处理技术,无法将这些非结构化数据及异构化数据很好地处理。
2.3 数据缺乏深入分析
随着在线交互平台的推广以及人们见识的不断增长,企业用户们对在线交互平台的要求也越来越高。在线交互平台一定要根据企业用户的实际需求对交互平台的资源以及个性化功能进行调整,使得企业用户在交互平台的体验感不断提升,这就要求平台对信息的处理以及数据的分析更加深入。而当前的数据分析还停留在表面,数据分析技术不成熟,许多非结构数据和异构数据并不能得到很好的处理,不利于企业用户信息的反馈以及企业用户体验的优化。
2.4 服务器资源分配不合理
在线交互平台中有许多个服务器,每个服务器都分配有一定的资源,这些服务器分别负责各个应用模块的正常运转。有的应用比较受欢迎,每天的访问量十分庞大,这就使得对应的服务器的负载很大,严重时甚至发生瘫痪;而有的应用比较冷门,每天的访问量很少,对应的服务器经常空出大部分负载,造成资源浪费,但是由于这些系统是长期开放的,随时都可能有企业用户登陆,所以就算在平时很少有人使用,也要开启服务器,而且需要定期进行维护,增加了维护的成本[3]。
3 应用模型的构建
为了有效解决目前在线交互平台所存在的问题,提高在线交互质量,特构建在线交互平台应用模型。该应用模型利用了云计算和大数据,主要由三大部分组成:企业用户个性化服务层、数据分析处理层以及配套硬件设施层。
3.1 企业用户个性化服务层
根据不同企业用户的需求,设置专门的企业用户个性化服务功能。每个企业用户都可以对当前的页面进行个性化设计,便于企业用户对平台功能的使用。平台的服务功能主要有信息管理服务、信息咨询服务、交互服务等等。平台会因为每个企业用户所设计的个性化服务不同而提供不同的内容。对于信息咨询者而言,在线交互平台会将企业用户所咨询问题的答案及时反馈给企业用户,包括问题产生的原因、问题的具体解决办法等。对于在线交流的企业用户而言,平台可以为参与企业用户提供交流的平台,并配有信息咨询服务,方便企业用户在交流过程中遇到问题时可以及时询问解答。在线交互平台是信息资源集中的地方,为了便于企业用户快速查询信息资源,要尽量保证信息资源具有唯一性,将冗杂信息及时清理,避免重复信息,减轻服务器的负担,也便于信息资源的及时更新[4]。
3.2 数据分析处理层
在线交互平台的数据分析处理层主要应用了云计算和大数据技术,支持各种数据的分析处理,包括计算机文件、图片、视频短片、地形数据等。经过处理后的数据及时保存在数据库当中,并定期对数据进行整体更新,实现数据库与外界实际情况对接,提高数据的实用价值。利用服务器平衡负荷可以有效提高服务器的利用率,扩大在线交互教育平台的企业用户容量。将负载较大服务器上的企业用户转移一部分到空闲服务器上,让多个服务器共同分担负载,既能减轻服务器负担,提高空闲服务器的利用率,还能缩短在线交互平台信息反馈的等待响应时间,提升企业用户的体验感。
大数据技术在在线交互平台的应用可以将杂项去除,用各种算法对数据进行分析,并挑选出具有典型特征的数据作为样本组,为数据的进一步处理做准备。在挑选出样本组数据之后,利用云计算的方式对数据进行进一步处理,运用相关运算法则,以离线数据作为参考,对当前的样本组数据进行进一步分析,并将数据及时反馈给平台。经过进一步分析处理之后的数据可用来制作索引,方便企业用户查询。
3.3 配套硬件设施层
利用云计算可以有效解决当前平台的配套硬件设施管理问题。对这些硬件设施实行统一动态管理,可以提高硬件的使用效率,将资源利用率最大化,并可以提高硬件的实用性和可靠性。当其中某个硬件发生故障时,会有其他硬件暂时代替该硬件的工作,直到维修工作完成。
4 结束语
近年来,网络技术发展十分迅速,许多在线交互平台随之出现。以目前的情况来看,在线交互平台的应用还存在许多的问题。将云计算和大数据技术应用到在线交互平台,构建在线交互平台模型,可以有效解决这些应用问题,并提高平台的数据处理能力,提升平台企业用户的体验感,为在线交互平台的普及应用打好基础。
参考文献
[1]程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908.
[2]吴涛,金义富,张子石.云计算时代虚拟学习社区的特征分析――以未来教育空间站为例[J].电化教育研究,2013,34(01):57-61.