引论:我们为您整理了13篇大数据技术范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。
篇1
“大数据”是从英语“Big Data”一词翻译而来的,是当前IT界热议和追逐的对象,是继物联网、云计算技术后世界又一热议的信息技术,发展迅速。截至2011年年底,全球互联网总数据存储量已达100亿TB以上,并且以59%以上的年增长率递增。麦肯锡公司在2011年的报告(Bigdata:the Next FrontierforInnovation)中,对这种密集型数据爆炸的现象称为“大数据”时代的到来。大数据领域出现的许多新技术,是大数据采集、存储、处理和呈现的有力武器。
1 大数据概念
大数据概念的前身是海量数据,但两者有很大的区别。海量数据主要强调了数据量的规模,对其特性并没有特别关注。而大数据对传播速率、体积、特征等数据的各种特性进行了描述。目前对大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。大数据的特点一般用“4V”概括,即:Volume:数据量大,目前大数据的最小单位一般被认为是10~20TB的量级;Variety:数据类型多,包括了结构化、非结构化和半结构化数据;value:数据的价值密度很低;velocity:数据产生和处理的速度非常快。
2 大数据相关技术
2.1 大数据处理通用技术架构
大数据的基本处理流程与传统数据处理流程的主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用并行处理。目前,MapReduce等分布式处理方式已经成为大数据处理各环节的通用处理方法。
MapReduce分布式方法最先由谷歌设计并实现,包括分布式文件系统GFS、MapReduce分布式编程环境以及分布式大规模数据库管理系统Bigrable。MapReduce是一套软件框架,包括Map和Reduce两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。MapReduce的工作原理是先分后合的数据处理方式。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作,以得到最终结果。用户只需要提供自己的Map函数以及Reduce函数就可以在集群上进行大规模的分布式数据处理。MapReduce将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。
2.2 大数据采集
大数据的采集是指利用数据库等方式接收发自客户端(Web、App或者传感器形式等)的数据。大数据采集的主要特点是并发访问量大,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站的并发访问量在峰值时达到上百万,这时传统的数据采集工具很容易失效。大数据采集方法主要包括:系统日志采集、网络数据采集、数据库采集、其他数据采集等四种。
2.3 大数据分享
目前数据分享主要通过数据集市和开放数据平台等方法实现。开放数据平台可以提供涵盖本地服务、娱乐、教育和医疗等方方面面的数据集合,用户不但可以通过API访问,还可以很方便地通过SDK集成到移动应用当中。在线数据集市除了提供下载数据的功能外,还为用户提供上传和交流数据的场所。数据平台和数据集市不但吸引有数据需求用户,还能够吸引很多数据开发者在平台上进行开发。
2.4 大数据预处理
数据预处理就是对采集的数据进行清洗、填补、平滑、合并、规格化以及检查一致性等处理,并对数据的多种属性进行初步组织,从而为数据的存储、分析和挖掘做好准备。通常数据预处理包含三个部分:数据清理、数据集成和变换和数据规约。
2.5 大数据存储及管理
大数据需要行之有效的存储和管理,否则人们不能处理和利用数据,更不能从数据中得到有用的信息。目前,大数据的存储和管理技术主要分三类:分布式文件系统、数据仓库和非关系型数据库(NoSOL)。
2.6 大数据分析及挖掘
大数据的分析和挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、数据挖掘、统计学、数据库等技术,高度自动化地分析大数据,做出归纳性的推理,从中挖掘出潜在的模式,从而在大数据中提取有用信息。大数据的分析和挖掘与传统的数据挖掘比较有两个特点:一是通常采用并行处理的方式;二是大数据分析对实时处理的要求很高,流处理等实时处理技术受到人们欢迎。常用的方法有:机器学习、数据挖掘、模式识别、统计分析、并行处理。
2.7 大数据检索
①数据库实时检索:在数据仓库或者NoSOL等大数据存储平台上,或者多个不同结构的数据存储平台之间快速、实时地查询和检索不同结构的数据。②实时搜索引擎:对互联网上的大量数据和信息进行即时、快速搜索,实现即搜即得的效果。目前各大搜索引擎都在致力于实时搜索的实现。
2.8 大数据可视化
可以提供更为清晰直观的数据感官,将错综复杂的数据和数据之间的关系,通过图片、映射关系或表格,以简单、友好、易用的图形化、智能化的形式呈现给用户供其分析使用,可通过数据访问接口或商业智能门户实现,通过直观的方式表达出来。可视化与可视分析通过交互可视界面来进行分析、推理和决策;从海量、动态、不确定甚至相互冲突的数据中整合信息,获取对复杂情景的更深层的理解;可供人们检验已有预测,探索未知信息,同时提供快速、可检验、易理解.的评估和更有效的交流手段。可视化是人们理解复杂现象,诊释复杂数据的重要手段和途径。
2.9 大数据应用
①视频搜索;②内容分析;③理赔分析;④社交网络分析;⑤社会分析;⑥社交媒体监控。
篇2
近几年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。2012 年3 月,奥巴马公布了美国《大数据研究和发展计划》,标志着大数据已经成为国家战略,上升为国家意志。从硅谷到北京,大数据的话题传播迅速。
1 大数据时代
随着计算机技术全面融入社会生活,经过半个多世纪的发展,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”这个概念。
1.1 大数据时代产生的背景
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”大规模生产、分享和应用海量数据的时代之所以能够开启,源于信息科技的进步、互联网与云计算技术和物联网的发展。
(1)信息科技的进步。信息处理、信息存储和信息传递是信息科技的三个主要支撑,存储设备性价比不断提升、网络带宽的持续增加,为大数据的存储和传播提供了物质基础。
(2)互联网与云计算技术。互联网时代,电子商务、社交网络和移动通信产生了大量结构化和非结构化的数据,以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来,并随时进行分析与计算。互联网领域的公司最早重视数据资产的价值,他们从大数据中淘金,并且引领着大数据的发展趋势。
(3)物联网的发展。众所周知,物联网时代所创造的数据不是互联网时代所能比拟的,而且物联网的数据是异构的、多样性的、非结构和有噪声的,最显著的特点是是它的高增长率。大数据是物联网中的关键技术,物联网对大数据技术的要求更高,它的发展离不开大数据。
1.2 大数据与数据挖掘
Google、Amazon、Facebook、Twitter,这些称霸全球互联网的企业,它们的成功都具备一个共同的因素,就是收集分析海量的各种类型的数据,并能够快速获取影响未来的信息的能力。“购买了此商品的顾客还购买了这些商品”,这恐怕是世界上最广为人知的一种商品推荐系统了,而创造出这个系统的正是Amazon。Amazon 通过分析商品的购买记录、浏览历史记录等庞大的用户行为历史数据,并与行为模式相似的其他用户的历史数据进行对照,提供出最适合的商品推荐信息。Facebook 可以为用户提供类似“也许你还认识这些人”的提示,这种提示可以准确到令人恐怖的程度,而这正是对庞大的数据进行分析而得到的结果。这种以数据分析为核心的技术就是数据挖掘(data mining)。
从技术角度看,数据挖掘是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程。从商业角度来说,数据挖掘是从庞大的数据库中抽取、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识。大数据概念的提出,将为数据挖掘技术的发展和应用带来一个很大的机遇。
2 数据挖掘
数据挖掘旨在从大数据中提取隐藏的预测性信息,用便于理解和观察的方式反映给用户,作为决策的依据。
2.1 数据挖掘原理
数据挖掘又称为数据库中的知识发现(Knowledge Diseoveryin Databases,KDD),是一个从数据库或数据仓库中发现并抽取隐含的、明显未知的、具有潜在用处的信息的过程。数据挖掘一般流程主要包括三个阶段:数据准备、数据挖掘、结果解释和评价。在数据挖掘的处理过程中,数据挖掘分析方法是最为关键的。
(1)数据准备。数据准备是从海量数据源得到数据挖掘所用的数据,将数据集成到一起的过程。由于数据收集阶段得到的数据可能有一定的污染,即数据可能存在不一致,或有缺失数据、脏数据的存在,因此需通过数据整理,对数据进行清洗及预处理。
(2)数据挖掘。是数据挖掘中最关键的一步,使用智能的方法提取数据模式,例如决策树、分类和聚类、关联规则和神经网络等。首先决定要提取什么样的模型,然后选取相应的算法参数,分析数据从而得到可能形成知识的模式模型。
(3)结果解释和评价。数据挖掘后的结果需要转换成用户能够理解的规则或模式,并根据其是否对决策问题具有实际意义进行评价。
2.2 数据挖掘技术在营销中的应用
无差别的大众媒体营销已经无法满足零和的市场环境下的竞争要求。精准营销是企业现在及未来的发展方向,在精准营销领域,最常用的数据挖掘分析方法包括分类、聚类和关联三类。
(1)关联规则。挖掘关联规则就是发现存在于大量数据集中的关联性或相关性,例如空间关联挖掘出啤酒与尿布效应;时间关联挖掘出孕婴用品与家居装修关系;时间关联挖掘出调味品、纸巾与化妆品的消费等。
此外,关联规则发现也可用于序列模式发现。序列模式发现的侧重点在于分析数据项集在时间上或序列上的前后(因果)规律,可以看作是一种特定的关联规则。例如顾客在购买了打印机后在一段时间内是否会购买墨盒。
(2)分类分析。分类是假定数据库中的每个对象属于一个预先给定的类,从而将数据库中的数据分配到给定的类中。它属于预测性模型,例如在银行业,事先定义用户的信用状况分为两类:信用好和信用坏,对于一个信用状态未知的用户,如果需要确定其信用度,可以采用“决策树”法构建一个分类模型,决策树方法着眼于从一组无次序、无规则的客户数据库中推理出决策树表现形式的分类规则。决策树的非叶子节点均是客户的一些基本特征,叶子节点是客户分类标识,由根节点至上而下,到每个叶子节点,就生成了一条规则,由该决策树可以得到很多规则,构成了一个规则集合,从而进行数据分析。
(3)聚类分析。聚类是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,其目的就是通过相似的方法来收集数据分类。为品牌找客户,回答品牌“谁来卖”是精准营销首先要解决的问题,科学细分客户是解决这一问题的有效手段。聚类可以将目标客户分成多个类,同一个类中的客户有很大的相似性,表现在购买行为的高度一致,不同类间的客户有很大的相异性,表现在购买行为的截然不同。
3 结语
大数据时代背景下“数据成为资产”,数据挖掘技术作为支撑精准营销的重要手段,将它应用于营销行业的决策中,不仅拓展了数据挖掘技术的应用范围,而且大数据时代的数据挖掘技术可以帮助企业获得突破性回报。
参考文献
[1]维克托・迈尔―舍恩伯格;肯尼思・库克耶.大数据时代:生活、工作与思维的大变革[M].周涛译.杭州:浙江人民出版社,2013.
[2]王伟玲.大数据产业的战略价值研究与思考.技术经济与管理研究[J],2015(1).
篇3
关于数据方面的新名词是层出不穷,云计算、物联网的概念还没有完全理解,大数据的概念又频频出现在媒体中,特别是今年“两会”期间,在央视报道中,多次使用大数据进行实时分析。大数据的概念从计算机业界也迅速传播到各行各业,与我们的日常生活也密切的联系在一起。不但中国如此,2012年3月,奥巴马宣布美国政府五大部门投资两亿美元启动“大数据研究与开发计划”,【1】大力推动大数据相关的收集、储存、保留、管理、分析和共享海量数据技术研究,以提高美国的科研、教育与国家安全能力,美国政府以及把“大数据”技术上升到国家安全战略的高度。其他国家也纷纷加大对大数据研究的资金投入,同时,许多大公司企业也将此技术视作创新前沿。
1 大数据概念与特征
但是,到目前为止,业界关于大数据的概念尚未有统一的定义。最早将大数据应用于IT环境的是著名的咨询公司麦肯锡,它关于大数据的定义是这样的:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。另外,被引用较多得到大家认可的还有维基百科的定义:大数据指数量巨大、类型复杂的数据集合,现有的数据库管理工具或传统的数据处理应用难以对其进行处理。这些挑战包括如捕获、收集、存储、搜索、共享、传递、分析与可视化等。【2】
当前,较为统一的认识是大数据有四个基本特征:数据规模大(Volume),数据种类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),即所谓的四V特性。这些特性使得大数据区别于传统的数据概念。【3】
首先,数据量庞大是大数据的最主要的特征,大数据的数据规模是以PB、EB、ZB量级为存储单位的,数据量非常庞大。同时,此类数据还在不断的加速产生,因此,传统的数据库管理技术无法在短时间内完成对数据的处理。第二,数据种类多。与传统的数据相比,大数据的数据类型种类繁多,包括了结构化数据、半结构化数据和非结构化数据等多种数据类型。传统的数据库技术采取关系型数据库较多,结构单一,而大数据重点关注的是包含大量细节信息的非结构化数据,因此传统数据库技术不能适应新的大数据的要求,传统的数据处理方式也面临着巨大的挑战。第三,大数据的产生与存储是动态的,有的处理结果时效性要求很高,这就要求对数据能够快速处理,数据处理速度快也是大数据区别数据仓库的主要因素。数据产生的速度以及快速变化形成的数据流,超越了传统的信息系统的承载能力。最后,数据价值密度低是大数据关注的非结构化数据的重要属性。大数据分析是采用原始数据的分析,保留了数据的全貌,因此一个事件的全部数据都会被保存,产生的数据量激增,而有用的信息可能非常少,因此价值密度偏低。
2 大数据可用性的面临的技术与问题
大数据并不仅仅指其数据量之大,更代表着其潜在的数据价值之大。有研究证明,有效地管理、使用大数据能够给企业提供更多增强企业生产能力和竞争能力的机会,能够给企业带来巨大的潜在商业价值。【4】但不可否认的是,大数据目前也面临很多负面影响。低质量低密度的数据也可能对决策造成致命性的错误。如何把大数据从理论研究到企业应用的转变,还面临很多问题与挑战。
(1)可用性理论体系的建立。大数据的可用性需要完整的理论做支撑,才能解决诸如如何形式化的表示数据可用性、如何评估数据可用性、数据错误自动发现和修复依据什么理论、如何管理数据和数据融合、数据安全性采取何种策略和理论等一系列问题。因此,要建立完整可用性理论体系,构建统一的模型,为大数据的进一步应用提供坚实的理论基础。
(2)高质量数据的获取的能力。大数据技术最基础的对象就是数据,是一切应用和分析决策的前提。因此,获取高质量数据是确保信息可用性的重要因素之一。随着互联网的数据不断增大,物联网的兴起以及复杂物理信息系统的应用,大数据的来源也多种多样,数据模型千差万别,质量也参差不齐,这就为加工整合数据带来非常大的困难。
大数据是对事物最原始的全貌记录,数据量规模很大,但是其中有用的信息非常少,因此,对于处理数据来说,数据并不是越多越好。如何提高数据中的有效数据是非常关键的。大量的数据中如果仅仅包含了少量的错误数据,对分析结果可能不会造成很大的影响。但是如果对错误数据没有有效控制的话,大量错误数据的涌入很可能会得到完全错误的结果。
因此,获取高质量数据的能力是大数据能否进行实用的关键因素,否则只会在浪费人力物力后获得完全无效甚至错误的结果。但是目前还缺乏系统的研究,对于出现的问题还没有很好的解决方案,在获取数据方面的工作任重而道远。
篇4
1 概述
随着产生数据的设备使用数量越来越多,使用范围越来越广,大量的非结构化数据每秒钟都被产生出来,比如视频、照片、社交媒体评论以及网站评述等数据都是这样的数据。这意味着越来越多的数据不能被存储在预定义的结构化表格中,相反,这类数据往往由形式自由的文本、日期、数字适时组成。某些数据源生成速度非常快,甚至来不及分析就进行存储。这也是无法单纯依靠传统数据管理和分析工具来存储、管理、处理和分析大数据的原因。为了从这些大数据中获取和分析特定的需求信息,就需要对大数据的技术进行研究。
2 大数据介绍
大数据近几年来新出现的一个名词,它相比传统的数据描述,有自己的四个特性[1],分别是:Volume(大的数据量)、Velocity(输入和处理速度快)、Variety(数据多种多样)、Veracity(真实有价值)。因此,大数据需要新的处理模式来取代传统的数据处理方法,它同时包含数据量巨大和快速的处理速度两层含义。
云计算是一种大数据的处理技术平台,综合了各种资源之后提供一些虚拟技术服务。这样的方式可以很大程度降低用户维护、处理、使用数据以及其他计算资源的成本。数据单位已不再是用GB,TB能够满足的描述需要,而是步入了PB级别的时代。传统的数据存储方式已经不能满足这些数据的存储和处理,只有依托云平台存储技术的方式来解决这个当前已经面临的问题。
3 大数据技术分析
3.1 大数据的处理方式
大数据的处理方式大致分为数据流处理方式和批量数据处理方式两种。
数据流处理的方式适合用于对实时性要求比较高的场合之中。并不需要等待所有的数据都有了之后再进行处理,而是有一点数据就处理一点,更多地要求机器的处理器有较快速的性能以及拥有比较大的主存储器容量,对辅助存储器的要求反而不高。
批量数据处理方式是对整个要处理的数据进行切割划分成小的数据块,之后对其进行处理。重点在于把大化小——把划分的小块数据形成小任务分别单独进行处理,并且形成小任务的过程中不时进行数据传输之后计算,而是将计算方法(通常是计算函数——映射并化简)作用到这些数据块最终得到结果。
3.2 大数据技术模型
大数据的技术模型目前主要研究的是图1的模型。
图1是一种描述复杂关系的数据结构,它并不像线性链表和树那样看上去结构简单和清晰,但它能描述一些更为错综复杂的层次和关系。对实际关系的描述使用范围和频率都更多更广。采用一些数学方法和算法工具来对图进行处理,是处理大数据的一个前提。存储图结构数据的时候一般选用邻接矩阵或邻接表的方式来进行,这在数据结构这门学科里面已经有所研究。图的两个顶点之间用边进行连接,这个可以看作网络结构里面,相邻两个节点之间有传输消息的通路。一个复杂的网络结构对应出来的也是复杂的图结构,处理的时候需要将该图进行分割处理,采用分而治之的办法来解决问题。
如果节点A和B之间的所有通路都被C阻塞了,就意味着C有向分割了A和B,即A和B在给定条件C时独立。
这种方法就降低了条件限制的复杂性,有效地将问题利用数学模型求解出来。
3.3 大数据处理系统应用
开源是现在很多大型国际IT公司倡导的服务方式,这个理念拥有很多拥护者。虽然它最初的出现和商业搭不上边,但已为具有现展理念的国际大型商业IT公司所接受,他们所认同的是面向服务的开源,进而出现了新的经济增长方式。
目前有一些较为前沿的公司已经研发开源的大数据处理技术,比较典型的是推特研发的Storm系统和谷歌研发的MapReduce模型。前者是以数据流方式进行数据处理而后者是采用批量数据的处理方式。
MapReduce是目前用得比较多的方法,其核心思想就是两个步骤:Map和Reduce。Map过程就是一个映射过程,完成这一步之后再对其进行Reduce过程处理,也即是精简的过程。最后将处理的最终结果进行输出。
3.4 大数据技术发展趋势
传统的关系型数据库和新兴的数据处理技术目前是并存状态,它们之间将来会相互学习,相互渗透,相互影响,互相融合,最终形成对数据分析有利的格局,能够更好地为大数据处理服务,从庞大巨量的数据当中找到需要的数据并对之进行处理、分析乃至决策。
4 结束语
大数据是当今越来越多的数据源每分每秒不断产生新数据后的一个产物,对他它的研究和利用是紧迫的事情。目前研究的一些大数据技术都有其优缺点,技术种类也不是很多,还处于一个上升的阶段。研究大数据的处理、分析、利用技术和方法,对今后这一分支的发展起到关键性的作用,对后来的科技产品乃至我们的日常生活都会带来巨大的影响。
参考文献:
[1] Grobelink M.Big-data computing: Creating revolutionary breakthroughs in commerce, science, and society[R/OL].2012.10.02. http:///eswc2012_grobelink_big_data/
[2] 戎翔,李玲娟.基于MapReduce的频繁项集挖掘方法[J].西安邮电学院学报,2011(4).
篇5
“大数据”的生产与运用是一个“人人为我,我为人人”的互通、共享、多赢过程。检察机关在整合应用其他政府机构、企事业单位、社会组织提供的信息数据服务司法办案的同时,也在办案中生产“大数据”。这些数据既可作为检察机关校准后续办案的内部参照系,同时部分数据亦可对外输出服务社会。前者如在刑事检察中整合同类案件形成案例数据库,用以提升公诉量刑精准度,后者以当前检察机关向社会公众提供的行贿犯罪档案查询服务最为典型。显然作为数据运用者,检察机关“大数据”包括检察工作所涉及的一切有用信息数据。其中,相当一部分数据并非检察机关在司法办案中产出的“原生”数据。如职务犯罪侦查办案中反贪部门调用房产、银行、公安行政机关的信息数据库进行初查;相关业务部门在审查、出庭公诉、诉讼监督、参与社会治理等方面运用信息化、数字化新技术等。
“检察大数据”与上述检察机关运用的“大数据”有本质区别。“检察大数据”专指检察机关司法办案大数据,是检察机关在司法办案中的“原生”案件信息数据,其最核心的特征是相关数据是关于检察业务办案的信息数据。目前,在检察司法办案大数据的撷取、管理、应用方面,最高人民检察院推进的“统一业务应用系统”是国家层面“检察大数据”生成的最重要平台;同时各地检察机关亦多有创新,如北京市人民检察院开发应用的“检立方”系统、上海市闵行区人民检察院试运行的“检察官执法办案全程监控考核系统”、浦东新区人民检察院试运行的“综合管理信息平台一期”、湖北省人民检察院研发的“互联网检务办公室”,南京市鼓楼区人民检察院研发的办公办案软件“移动检务通”等。上述系统平台通过案件管理部门案件受理信息输入及办案人员在办案过程中的流程信息输入,生成、存储、管理与检察机关司法办案相关的各项信息数据,并通过对大数据不同子系统数据的深度分析,进而服务领导决策与司法办案。
当前检察工作中的大数据运用
无论是检察机关的“原生”大数据,还是第三方生成的关联大数据,在当前的检察办案与司法管理工作中都有着极为广阔的应用前景。作为检察机关大数据的核心内容,“原生”大数据即“检察大数据”,在辅助检察办案、服务司法管理中发挥着极为重要的作用。
在“检察大数据”辅助检察办案方面,目前较为典型的如贵州省人民检察机关的“大数据司法办案辅助系统”。司法办案辅助系统运用“实体识别”“数学建模”等大数据技术,通过绘制“犯罪构成知识”图谱,建立各罪名案件数学模型的司法办案辅助系统,为办案提供案件信息智能采集、“要素―证据”智能关联和风险预警、证据材料甄别,以及类案推送、量刑建议计算等智能化服务。目前,贵州省人民检察机关的大数据司法办案辅助系统已进行了三次迭代升级,正在贵州全省4个市(州)院和31个基层院试点运行。
在“检察大数据”服务司法管理方面,上海市闵行区人民检察院的检察官执法办案全程监控考核系统非常具有代表性。该院通过对各职能部门受理、立案(项)、办理的案件以及不依附于自侦、批捕、等主要办案业务的,有完整流程、审查结论及相关法律文书的诉讼监督、社会治理、维护稳定、预防犯罪等检察业务进行梳理,对检察建议、纠正违法等共性的检察业务指标进行归并,形成了较为规范的检察机关司法办案大数据目录和工作指标w系。通过对检察官在执法办案中产生的“原生”大数据的深度挖掘和研判分析,将案件统计、质量监控、专题研判、绩效分析有机融为一体,进而使办案监督管理者能够及时准确找出检察官在办案中存在的司法不规范问题,有效强化对司法办案的绩效考评与内部监控。
除了重视对“原生”大数据的收集整理与挖掘应用,如何发挥好“他山之石”的作用,在检察办案中运用好第三方关联大数据,也是大数据技术与检察办案深度融合的重要内容。除了上述在职务犯罪案件侦查中对房产、银行、公安行政机关等提供的关联数据的常规运用外,当前一些地方检察机关正在进行创新运用第三方大数据方面的积极探索。如江苏省无锡市锡山区人民检察院对接社会治理公共服务管理平台和民情APP,推出检察民情APP的创新做法。自对接平台以来,锡山区人民检察院已查阅近6000条民情信息,从海量数据中了解掌握群众诉求,立足检察职能,从中发现老百姓对征地拆迁、环境保护、社会保障等方面的民生需求,聚焦群众关注的热点民生问题深入挖掘职务犯罪案件线索、诉讼监督线索、执行监督线索及公益诉讼线索,使第三方大数据真正成为辅助检察办案,拓展监督案源的新渠道。
短板
检察大数据系统的提升点
篇6
大数据概念可以从四个维度去解,即三个V和一个C。三个V分别指的是数据量大(Volume)、数据种类多(Variety)和数据增长速度快(Velocity),最后一个C指的是处理、升级或利用大数据的分析手段比处理结构化数据要复杂的多(Complexity)。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像Map-Reduce一样的并行计算框架将复杂的计算任务分配到“云”中成百上千的节点。
1.2大数据与云计算
大数据本身就是一个问题集,云计算技术是目前解决大数据问题集最重要最有效的手段。云计算提供了基础的架构平台,大数据应用在这个平台上运行。目前公认为分析大数据集最有效手段的分布式处理技术,也是云计算思想的一种具体体现。
云计算是分布式处理、并行处理和网格计算的发展,或者说是这些计算机科学概念的商业实现。云计算将网络上分布的计算、存储、服务构件、网络软件等资源集中起来,基于资源虚拟化的方式,为用户提供方便快捷的服务, 实现了资源和计算的分布式共享和并行处理,能够很好地应对当前互联网数据量高速增长的势头。
1.3大数据与Hadoop
Hadoop是一个Apache的开源项目,主要面向存储和处理成百上千TB直至PB级别的结构化、半结构化或非结构化的大数据。Hadoop提供的Map-Reduce能将大数据问题分解成多个子问题,并将它们分配到成百上千个处理节点之上,再将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。
Hadoop项目包括三部分,分别是Hadoop Distributed File System(HDFS)、Map Reduce编程模型,以及Hadoop Common。Hadoop具备低廉的硬件成本、开源的软件体系、较强的灵活性、允许用户自己修改代码等特点,同时能支持海量数据的存储和计算任务。这些特点让Hadoop被公认为是新一代的大数据处理平台。 Hadoop同样具备出色的大数据集处理能力,在获取、存储、管理和分析数据方面远远超越传统的数据库软件工具。Hadoop经常在构建大数据解决方案时被用作基础构架软件。
二、大数据技术综述
大数据处理不仅仅是Hadoop,许多特定的数据应用场景是需要实时分析和互动反馈的,这时候就需要利用包括内存检索、流处理和实时计算等其他技术。而云计算的分布式存储和计算架构开启了大数据技术研究的大门,打造健全的大数据生态环境,所有这些技术结合在一起,才是一个完整的大数据处理系统。
2.1分布式计算框架
MapReduce是Google开发的一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于1TB)的并行运算,使云计算环境下的编程变得十分简单。
MapReduce将数据处理任务抽象为一系列的Map(映射)和Reduce(化简)操作对。Map主要完成数据的分解操作,Reduce主要完成数据的聚集操作.输入输出数据均以〈key,value〉格式存储.用户在使用该编程模型时,只需按照自己熟悉的语言实现Map函数和Reduce函数即可,MapReduce算法框架会自动对任务进行划分以做到并行执行。
Pregel是Google 提出的迭代处理计算框架,它具有高效、可扩展和容错的特性,并隐藏了分布式相关的细节,展现给人们的仅仅是一个表现力很强、很容易编程的大型图算法处理的计算框架。Pregel的主要应用场景是大型的图计算,例如交通线路、疾病爆发路径、WEB 搜索等相关领域。
2.2分布式文件系统
为保证高可用、高可靠和经济性,基于云计算的大数据处理系统采用分布式存储的方式来保存数据,用冗余存储的方式保证数据的可靠性。目前广泛使用的分布式文件系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。
GFS即Google文件系统,是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS的设计思想不同于传统的文件系统,是针对大规模数据处理和Google应用特性而设计的,运行成本低廉,并提供容错功能。
HDFS即Hadoop分布式文件系统,受到GFS很大启发,具有高容错性,并且可以被部署在低价的硬件设备之上。HDFS很适合那些有大数据集的应用,并且提供了数据读写的高吞吐率。HDFS是一个master/slave的结构,在master上只运行一个Namenode,而在每一个slave上运行一个Datanode。HDFS支持传统的层次文件组织结构,对文件系统的操作(如建立、删除文件和文件夹)都是通过Namenode来控制,Datanode用来存放数据块。
2.3大数据管理技术
互联网数据已超出关系型数据库的管理范畴,电子邮件、超文本、博客、标签(Tag)以及图片、音视频等各种非结构化数据逐渐成为大数据的重要组成部分,而面向结构化数据存储的关系型数据库已经不能满足数据快速访问、大规模数据分析的需求,随之而来,一系列新型的大数据管理技术和工具应运而生。
2.3.1 非关系型数据库
NoSQL,也有人理解为Not Only SQL,它是一类非关系型数据库的统称。其特点是:没有固定的数据表模式、可以分布式和水平扩展。NoSQL并不是单纯的反对关系型数据库,而是针对其缺点的一种补充和扩展。典型的NoSQL数据存储模型有文档存储、键-值存储、图存储、对象数据、列存储等。而比较流行的,不得不提到Google的Bigtable,它把所有数据都作为对象来处理,形成一个巨大的表格,用来分布存储大规模结构化数据,数据量可达PB级。而HBase是Hadoop团队基于Bigtable的开源实现,使用HDFS作为其文件存储系统。同时,Cassandra(K/V型数据库)、MongoDB(文档数据库)和Redis等一系列优秀的非关系型数据库产品如雨后春笋般问世。
2.3.2 数据查询工具
Hive是Facebook提出的基于Hadoop的大型数据仓库,其目标是简化Hadoop上的数据聚集、即席查询及大数据集的分析等操作,以减轻程序员的负担.它借鉴关系数据库的模式管理、SQL接口等技术,把结构化的数据文件映射为数据库表,提供类似于SQL的描述性语言HiveQL供程序员使用,可自动将HiveQL语句解析成一优化的MapReduce任务执行序列.此外,它也支持用户自定义的MapReduce函数。
PigLatin是Yahoo!提出的类似于Hive的大数据集分析平台.两者的区别主要在于语言接口.Hive提供了类似SQL的接口,PigLatin提供的是一种基于操作符的数据流式的接口.可以说Pig利用操作符来对Hadoop进行封装,Hive利用SQL进行封装。
Google Dremel是个可扩展的、交互式的即时查询系统,用于完成大规模查询结构化数据集(如日志和事件文件)。它支持类SQL语法,区别在于它只能查询,不支持修改或者创建功能,也没有表索引。数据被列式存储,这样有助于提升查询的速度。Google将Dremel作为MapReduce的一种补充,被用于分析MapReduce的结果或者是作为大规模计算的测试。
2.4实时流处理技术
伴随着互联网业务发展的步调,以及业务流程的复杂化,企业的注意力越来越集中在“数据流”而非“数据集”上面,他们需要的是能够处理随时发生的数据流的架构,现有的分布式计算架构并不适合数据流处理。流计算强调的是数据流的形式和实时性。MapReduce系统主要解决的是对静态数据的批量处理,当MapReduce任务启动时,一般数据已经到位了(比如保存到了分布式文件系统上),而流式计算系统在启动时,一般数据并没有完全到位,而是经由外部数据源源不断地流入,重视的是对数据处理的低延迟,希望进入的数据越快处理越好。数据越快被处理,结果就越有价值,这也是实时处理的价值所在。
流计算的数据本身就是数据流,不需要数据准备的时间,有数据流入就开始计算,解决了数据准备和延迟的两个问题。现有的解决方案中,Twitter的Storm和雅虎的S4框架更适合数据流计算的场景。Storm是开源的分布式实时计算系统,可以可靠的处理流式数据并进行实时计算,单机性能可达到百万记录每秒,开发语言为Clojure和Java,并具备容错特性。S4是面向流式数据和实时处理的,所以针对实时性较高的业务,可以很好地对数据做出高效的分析处理,而且系统一旦上线,很少需要人工干预,源源不断的数据流会被自动路由并分析。对于海量数据,它和MapReduce都可以应对,但它能比后者更快地处理数据。
三、思考与展望
以云计算为基础的信息存储、分享和挖掘手段为知识生产提供了工具,通过对大数据分析、预测会使得决策更为精准,这对媒体融合具有重要意义。
篇7
20世纪80年代,计算机和互联网技术的发展使得数据量飞速增长,大数据是互联网技术发展到一定程度后必然出现的一种现象。
1数据挖掘的概念及功能
1.1 数据挖掘概念
数据挖掘是从大量的随机、模糊并带有噪声的数据集合中通过采用一定的算法对信息进行提取,发现规律和有用的价值信息的过程。一个完整的数据库挖掘系统主要包括了:数据库、数据库服务器、知识库、数据库挖掘引擎、模式评估模块、可视化用户界面。
1.2 数据挖掘方法和步骤
数据库挖掘的主要方法有基于遗传算法,粗集方法,决策树方法和神经网络方法。数据挖掘的一般步骤为:分析问题,判定源数据库是否满足数据挖掘的标准;提取、清洗和校验数据,去除数据中的噪声,得到数据完整、格式统一的数据;创建和调试模型,将选用的数据挖掘算法应用到数据中创建模型,通过数据来对模型进行校验和调整,得到满足使用要求的数据模型;维护数据挖掘模型,随着数据量的增加,需要对模型进行调整和维护,一些关键信息的改变有可能严重模型的精度,模型维护是数据挖掘的重要环节,通过模型维护可以保持模型的活力,不断完善模型。
1.3 数据挖掘的主要功能
数据挖掘的功能主要可以分为五大类:自动预测趋势和行为,关联分析,聚类分析,概念描述,偏差检测。采用数据挖掘技术在大型的数据库中寻找预测性信息,市场预测就是数据挖掘技术在自动预测趋势和行为方面的典型应用;关联分析是采用数据挖掘技术研究数据空中自变量和因变量之间的某种规律,找出数据库中存在的隐藏的关联网;聚类分析通过数据挖掘定义具有共同特征的子集,增强人们对于客观事实的理解和认识,数据挖掘技术避免了传统的模式识别和数学分类方法的片面性,是一个更加先进的聚类分析方法;概念描述建立在聚类分析的基础上,提取对象的特征,形成对概念的描述;偏差检测,数据库中的数据很可能存在着异常记录或者是数据噪声,通过偏差检测提出异常数据。
2数据挖掘技术的应用
数据挖掘技术已经应用在了各个行业中,数据量巨大的互联网行业、天文学、气象学、生物技术,以及医疗保健、银行、金融、零售等行业。通过数据挖掘技术将大数据融合在各种社会应用中,数据挖掘的结果参与到政府、企业、个人的决策中,发挥数据挖掘的社会价值,改变人们的生活方式,最大化数据挖掘的积极作用。以互联网行业为例,探究数据挖掘技术在社交网络中的应用。
互联网时代的信息爆炸给互联网用户的使用需求带来了一定的不便,用户如何快速获取有用信息,网站如何快速定位用户需求成为了研究课题。以社交网络为例,社区中的视频、音频、图片、文字等信息各式各样,每个人的兴趣、习惯不同,要得到的内容也不同。采用数据挖掘技术对社交网络数据分析,通过细分用户,挖掘不同用户的需求,开出出符合不同用户个性特征的服务和产品,满足WEB2.0时代对于网络个性化智能化的要求。
数据的采集和预处理是数据挖掘技术实现的前提,数据的预处理内容主要包括数据收集与录入、数据清洗与净化、用户识别、会话识别、文本提取。数据收集与预处理的系统结构图如图1所示。采集的数据一般会存放在数据库中,数据库中的数据具有组织性、结构性、易存取的特点,数据为了达到数据挖掘的要求还需要进行数据清洗、数据集成、数据转换和数据简化。
数据挖掘器的设计目的是对文本数据的内容进行分析与挖掘,提取能够代表和概括整个文本内容的标签。文本挖掘的步骤包括识别中文词,去除停用词,检测短语,检查同义词,创建单词向量。中文中字、句、段之间都有间隔,只有词之间没有,本文采用机械分词法进行识别处理,通过扫面句中字符串,将其余词典词语进行匹配,识别出词汇。去除停用词是将文本中常用的词汇去除,这些词汇在文本数据挖掘中属于无用词汇,去除后能够减小数据处理的复杂程度。检测短语和检测同义词的方法类似,都是通过类来实现,检测短语通过类PhrasesCache实现,检测同义词通过类SynonymousCache实现,通过词汇和记号词的匹配实现短语和同义词的识别。构建单词向量,通过单词向量来表示一个项目,单词向量是通过文本单词及其权重来构成的,通过单词检索可以得到用户想要获得的文档和信息。
3结语
本文主要分析了大数据的含义和特点,数据挖掘的概念和主要功能,着重探究了数据挖掘技术的主要应用,并结合数据挖掘技术在互联网社交网络中的应用进行了实例分析,通过数据挖掘技术更好的匹配用户想要得到的信息。
参考文献
[1]郭春.基于数据挖掘的网络入侵检测关键技术研究[D].北京邮电大学,2014.
篇8
1 大数据的现状
据权威数据显示,大数据应用在我国还处在起步阶段。但在未来三年,通信、金融领域将在大数据市场突破100亿元。市场规模在2012年有望达到4.7亿元,到2013年增至11.2亿元,增长率高达138%,2014年,保持了与2013年基本持平的增速,增长率为114.38%,市场规模达到24.1亿元,未来三年内有望突破150亿元,2016年有望达到180亿规模。自从2014年以来,各界对大数据的诞生都备加关注,已渗透到各个领域:交通行业、医疗行业、生物技术、零售行业、电商、农牧业、个人位置服务等行业,由此也正在不断涌现大数据的新产品、新技术、新服务。
大数据行业“十三五”规划主要目标:在2020年,将大数据打造成为国民经济新兴支柱产业并在社会各领域广泛应用,推动我国大数据产业稳步快速发展,基本健全大数据产业体系,推动制定一批相关大数据的国标、行标和地方标准,引进具备大数据条件的企业,建设大数据产业孵化基地,提高全国信息化总体水平,以跻身世界先进水平。
2 大数据的概述
2.1 大数据定义
大数据即巨量数据集合,目前还没有一个统一的定义。大数据的概念最早是由全球著名的管理咨询公司麦肯锡提出,2011年Mckinsey研究称,大数据通常是指信息爆炸时代产生的海量数据,在各个行业和业务领域,数据已经渗透到行业中并逐渐成为重要的要素,人们能够从海量数据中挖掘出有用的数据并加以应用。对大数据定义的另一说法是利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。
随着信息时代的高速发展,大数据已经成为社会生产力发展的又一推动力。大数据被称为是继云计算、物联网之后信息时代的又一大颠覆性的技术革命。大数据的数据量巨大,一般10TB规模左右,但在实际应用中,多个数据集放在一起,已经形成了PB级的数据量,甚至EB、ZB、TB的数据量。
2.2 大数据的特点
2.2.1 数据量巨大
数据量级别从TB级别跃升到PB级别。随着可穿戴设备、物联网和云计算、云存储等技术的发展,用户的每一个动作都可以被记录,由此每天产生大量的数据信息。据有关人士估算:1986~2007年,全球数据的存储能力每年提高23%,双向通信能力每年提高28%,通用计算能力每年提高58%;2007年,人类大约存储了超过300EB
的数据;到2013年,世界上存储的数据能达到约1.2ZB。
2.2.2 数据类型多样化
即数据类型繁多,产生了海量的新数据集,新数据集可以是关系数据库和数据仓库数据这样的结构化数据到半结构化数据和无结构数据,从静态的数据库到动态的数据流,从简单的数据对象到时间数据、生物序列数据、传感器数据、空间数据、超文本数据、多媒体数据、软件程序代码、Web数据和社会网络数据[1]。各种数据集不仅产生于组织内部运作的各个环节,也来自于组织外部。
2.2.3 数据的时效性高
所谓的数据时效性高指以实时数据处理、实时结果导向为特征的解决方案,数据的传输速度、响应、反应的速度不断加快。数据时效性为了去伪存真,采用非结构化数据剔除数据中无用的信息,而当前未有真正的解决方法,只能是人工承担其中的智能部分。有些专员负责数据分析问题并提出分析后的解决方案。
2.2.4 数据真实性低
即数据的质量。数据的高质量是大数据时代重要的关注点。但在生活中,“脏数据”无处不在,例如,一些低劣的伪冒产品被推上市场,由于营销手段的成功,加之其他因素的影响导致评分很高。但是这并不是真实的数据,如果对数据不加分析和鉴别而直接使用,即使计算的结果精度高,结果都是无意义的,因为数据本身就存在问题出现。
2.2.5 价值密度低
指随着物联网的广泛应用,信息巨大,信息感知存在于客观事物中,有很多不相关的信息。由于数据采集的不及时,数据样本不全面,数据可能不连续等等,数据可能会失真,但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。
2.3 大数据的应用
2.3.1 医疗大数据
利用大数据平台收集患者原先就医的病例和治疗方案,根据患者的体征,建立疾病数据库并对患者的病例分类数据库。一旦患者在哪个医院就医,凭着医保卡或就诊卡,医生就可以从疾病数据库中参考病人的疾病特征、所做的检查报告结果快速帮助患者确诊。同时拥有的数据也有利于医药行业开发出更符合治疗疾病的医疗器械和药物的研发。
2.3.2 传统农牧业大数据
因为传统农牧业主要依赖于天气、土壤、空气质量等客观因素,因此利用大数据可以收集客观因素的数据以及作物成熟度,甚至是设备和劳动力的成本及可用性方面的实时数据,能够帮助农民选择正确的播种时间、施肥和收割作物的决策。当农民遇到技术市场问题可以请教专业人员,专业人员根据实时数据做出科学的指导,制定合理的优化决策,降低农民的损失成本,提高产品的产量,从而为转向规模化经营打下良好基础。
2.3.3 舆情大数据
利用大数据技术收集民众诉求的数据,降低社会,有利管理犯罪行为。通过大数据收集在微博的寻找走失的亲人或提供可能被拐卖人口的信息,来帮助别人。
3 智能交通的需求
随着城市一体化的快速发展,新时代农民工涌入大城市,促使城市人口的增大不断给城市交通带来问题。究其原因主要有:一是机动车的迅猛发展导致城市主次干道的流量趋于饱和,大量机动车的通行和停放占据主干道路。二是城市交通的道路基础设施供给不平衡导致路网承担能力差。三是停车泊位数量不足导致机动车使用者不得不过多依赖道路停车。四是公共设施的公交车分担率不高导致交通运输效率降低。五是城市的土地开发利用与道路交通发展不均衡。六是行人和机动车主素质不文明导致道路通行效率降低。为此,智能交通的出现是改善当前城市交通的必要需求,能够在一定程度上有效的解决城市交通问题。
大数据是如何在智能交通的应用呢?可以从两个方面说明:一是对交通运行数据的收集。由于每天道路的通行机动车较多,能够产生较大的数据,数据的采集并发数高,利用大数据使机动车主更好的了解公路上的通行密度,有效合理对道路进行规划,可规定个别道路为单行线。其二是可以利用大数据来实现主干道根据道路的运行状况即时调度信号灯,提高已有线路运行能力,可以保障交通参与者的生命和提高有关部门的工作效率,降低成本。对于机动车主可以根据大数据随时的了解当前的交通状况和停车位数量。如果交通拥堵,车主则可选择另一路线,节约了车主的大量时间。
4 智能交通体系的建立
4.1 智能交通建立的框架
主要包括感知数据层、软件应用平台及分析预测和优化管理的应用。物理感知层主要是采集交通的运行状况和对交通数据的及时感知;软件应用平台主要整合每个感知终端的信息、将信息进行转换和处理,达到支撑分析并做出及时的预警措施。比如:对主要交通干进行规划,对频发交通事故进行监控。同时还应进行应用系统建设的优化管理。比如:对机动车进行智能诱导、智能停车。
智能交通系统需要在各道路主干道上安装高清摄像头,采用先进的视频监控、智能识别和信息技术手段,来增加可管理的维度,从空间的广度、时间的深度、范围的精细度来管理。整个系统的组成包括信息综合应用平台、信号控制系统、视频监控系统、智能卡口系统、电子警察系统、信息采集系统、信息系统。每个城市建立智能交通并进行联网,则会产生越来越多的视频监控数据、卡口电警数据、路况信息、管控信息、营运信息、GPS定位信息、射频识别信息等数据,每天产生的数据量将可以达到PB级别,并且呈现指数级的增长。
4.2 智能交通数据处理体系的构成
主要包括交通的数据输入、车辆信息、道路承载能力等的数据处理、数据存储、数据检索。其中交通数据输入可以是静态数据或者是动态数据。数据处理是针对实时数据的处理。数据主要存储的是每天采集的巨大数据量。为了从中获取有用的数据,则需要进行数据查询和检索,还要对数据进行规划。
5 大数据技术
5.1 数据采集与预处理
数据采集与预处理主要对交通领域全业态数据的立体采集与处理来支撑交通建设、管理、运行决策。采集的数据主要是车辆的实时通行数据,以实现实时监控、事先预测、及时预警,完成道路网流量的调配、控。这些数据获取可以采用安装的传感器、识别技术并完成对已接收数据的辨析、转换、抽取、清洗等操作。
5.2 数据存储与管理
大数据的存储与管理是把采集到的数据存放在存储器,并建立相应的数据库,如关系数据库、Not Only SQL即对关系型SQL数据系统的补充。利用数据库采用更简单的数据模型,并将元数据与应用数据分离,从而实现管理和调用。
5.3 数据分析与挖掘
数据分析及挖掘技术是大数据的核心技术。从海量数据中,提取隐含在其中,人们事先未知的,但又可能有用的信息和知识的过程。从复杂数据类型中挖掘,如文本、图片、视频、音频。该技术主要从数据中自动地抽取模式、关联、变化、异常和有意义的结构,可以预测模型、机器学习、建模仿真。从而实现一些高级别数据分析的需求。
5.4 数据展现与应用
数据技术能够将每天所产生的大量数据从中挖掘出有用的数据,应用到各个领域有需要的地方以提高运行效率。
6 结束语
大数据时代,能对智能交通信息资源进行优化配置,能够改善传统的交通问题。对非机动车主而言,利用大数据可以更好的规划线路,更好的了解交通状况,在一定程度上可以对问题预先提出解决方案,起到节省大量时间、额外的开支。同时对交管部门而言,能够在限的警力情况下合理配置人员资源和交通设备,主干道路在高峰期出现的问题能够合理利用大数据信息配置资源,在刑事案件侦查中也能发挥更重要的作用。
篇9
1.大数据产生的背景
大数据(Big Data),也称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的资讯,通常被认为是PB或EB或更高数量级的数据。
互联网络从上世纪90年代开始,发展迅速,加快了信息传播和共享的速度,尤其是一些社交网站的兴起,数据量更是以前所未有的速度暴增,文字资料、声音、视频、图像等多媒体数据铺天盖地。据资料显示,上世纪90年代,互联网资源不是很丰富的时代,网民月平均流量1MB左右,之后则快速增长,2000年后,逐渐发展为每月10MB、100MB、1GB,据估计2014年可能会达到10GB。淘宝网每日几千万笔交易,单日数据量达几十TB,数据存储量几十PB,百度公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB数据。
随着技术发展,大数据广泛存在,如企业数据、统计数据、科学数据、医疗数据、互联网数据、移动数据、物联网数据等等。总之,大数据存在于各行各业,一个大数据的时代已经到来。
2.大数据时代的挑战
大数据特点是容量在增长、种类在增长、速度也在增长,面临如此庞大的数据量,数据的存储和检索面临着巨大挑战。比如2007年时,Facebook使用数据仓库存储15个TB的数据,但到了2010年,每天压缩过的数据比过去总和还多,那时商业并行数据库很少有超过100个节点以上的,而现在雅虎的Hadoop集群超过4000个节点,Facebook仓库节点超过2700个。大量的数据现在已经开始影响我们整个的工作、生活、甚至经济,如何存储和高效利用这些数据是需要我们解决的。
二、关系数据库
1.关系数据库概述
关系型数据库是支持关系模型的数据库系统,他是目前各类数据库中最重要,也是使用最广泛的数据库系统。关系型数据库从上世纪70年代诞生到现在经过几十年的发展,已经非常成熟,目前市场上主流的数据库都为关系型数据库,比较知名的有Oracle数据库、DB2、Sybase、SQL Server等等。
2.关系数据库优势
关系数据库相比其他模型的数据库而言,有着以下优点:
模型容易理解:关系模型中的二维表结构非常贴近逻辑世界,相对于网状、层次等其他模型来说更容易理解。
使用方便:通用的SQL语言使得操作关系型数据库非常方便,只需使用SQL语言在逻辑层面操作数据库,而完全不必理解其底层实现。
易于维护:丰富的完整性大大降低了数据冗余和数据不一致的概率。
3.关系数据库存在问题
传统的关系数据库具有不错的性能,稳定性高,历经多年发展已日臻成熟,而且使用简单,功能强大,也积累了大量的成功案例。上世纪90年代的互联网领域,网站基本都是静态网页,主要以文字为主,访问量也不大,当时用单个数据库完全可以应对。可近几年,动态网站随处可见,各种论坛、博克、微博异常火爆,在大幅度提升交流方式的同时,用户数据量迅速增长,处理事务性的数据关系数据库得心应手,可面对互联网的高并发、大数据量关系数据库显得力不从心,暴露了很多难以克服的问题:
数据库高并发读写:高并发的动态网站数据库并发负载非常高,往往要达到每秒上万次甚至百万次、千万次的读写请求。关系数据库应付上万次SQL查询没问题,但是应付上百万、千万次SQL数据请求,硬盘IO就已经无法承受了。
海量数据的高效率访问:一般大型数据库在百万级的数据库表中检索数据可达到秒级,但面对数亿条记录的数据库表,检索速度效率是极其低下,难以忍受的。
数据库可扩展性和高可用性:基于web的架构当中,数据库无法通过添加更多的硬件和服务节点来扩展性能和负载能力,对于很多需要提供24小时不间断服务的网站来说,数据库系统升级和扩展却只能通过停机来实现,这无疑是一个艰难的决定。
三、NOSQL数据库
1.NOSQL数据库理论基础
NOSQL作为新兴数据库系统概念,由于其具备处理海量数据的能力,近年来受到各大IT公司的追捧。Amazon、Google等大型网商已纷纷斥资进行研究并开发了适用的产品。谈及NOSQL数据库,首先应该了解支持NOSQL的理论:CAP理论、BASE思想和最终一致性。
(1)CAP理论
CAP理论由Eric Brewer在ACM PODC会议上的主题报告中提出,这个理论是NOSQL数据管理系统构建的基础,CAP解释为一致性(Consistency)、可用性(Availability)以及分区容忍性(Partition Tolerance)。具体描述如下:
强一致性(Consistency):系统在执行过某项操作后仍然处于一致的状态。在分布式数据库系统中,数据变更后所有的用户都应该读取到最新的值,这样的系统被认为具有强一致性。
可用性(Availability):每一个操作都能够在一定的时间内返回结果。“一定时间内”是指系统的结果必须在给定时间内返回,如果超时则被认为不可用,“返回结果”同样非常重要,必须能提供成功或失败的信息。
分区容错性(Partition Tolerance):分区容错性可以理解为系统在存在网络分区的情况下仍然可以接受请求。
CAP是在分布式环境中设计和部署系统时所要考虑的三个重要的系统需求。根据CAP理论,数据共享系统只能满足这三个特性中的两个,不能同时满足三个条件。因此系统设计者必须在这三个特性之间做出权衡。例如Amazon的Dynamo具有高可用性和分区容错性但不支持强一致性,也就是说用户不能立即看到其他用户更新的内容。
(2)BASE思想
BASE(Basically Availble),基本可用,强调数据库的最终一致(Eventually consistent最终一致,最终数据一致就可以,而不是时时高一致),不同于传统关系数据库基于的ACID模型。
ACID特性与高性能是不兼容的。比如,在网店买东西,每个客户买东西时都会通过锁来同步数据操作,操作完成每个客户都可以看到一致的数据。也就是说,不允许多个客户同时买的情况。很明显对于大多数网上商城,尤其是大型网商来说,这个方法并不适用。
BASE思想实际上是CAP理论中AP的衍伸。通过牺牲高一致性,保证高可用性和分区容忍性。BASE思想的组成有以下3个部分:基本可用、软状态、最终一致性。BASE模式指的是一个应用在任意时间首先应该能完成最基本化的工作(即基本可用),并不需要总是一致(即软状态),但最终应该是一致(即最终一致性)的。
(3)最终一致性
数据一致性可分别从使用者和提供者角度看:从使用者的角度,如何观察数据更新;从提供者的角度,也就是服务器端,更新如何在系统中实现。
一致性可分为强一致性和弱一致性两种:强一致性要求更新过的数据能被后续的访问都看到,根据CAP理论,强一致性无法和可用性、分区容忍性同时实现;弱一致性,指读取操作能够见到变化的数据,但不是所有变化的数据。
最终一致性属于弱一致性的一种,即存储系统保证如果没有新的更新提交,最终所有的访问都将获得最后的更新。如果没有故障发生,不一致性取决于通信时延、系统负载以及复制策略中涉及的副本数。
2.NOSQL数据库产品
NOSQL(Not Only SQL)数据库是指那些非关系型的数据库。NOSQL数据库分为Key-Value、Key-Document和Key-Column这3类。典型的NOSQL产品有Google的BigTable、基于Hadoop HDFS的HBase、Amazon的Dynamo、CouchDB、MongoDB、Redis等。
NOSQL数据库遵循CAP理论和BASE原则,大部分Key-Value数据库系统都会根据自己的设计目的进行相应的选择,如Cassandra、Dynamo满足AP,BigTable、MongoDB满足CP。
四、结束语
本文首先介绍了大数据概念,分析了关系数据库在存储大数据量方面的不足,并介绍了当前NOSQL数据库的基本理论和当前产品分类。大数据时代的来临,我们忙于如何存储和处理这些数据,但随着计算机互联网、移动互联网、物联网等网络的快速发展,数据量会持续大幅增长,如何长期保存这些数据以及如何处理更大级别的数据量,都需要我们思考并解决。
参考文献
[1]王珊,王会举,覃雄派等.架构大数据:挑战、现状与展望[J].计算机学报,2011(34).
[2]黄贤立.NOSQL非关系型数据库的发展及应用初探[J].福建电脑,2010(7):30.
篇10
大数据时代的到来,确实对传统的数据仓库认知产生了重大的影响。什么是大数据?大数据的“大”实际上并不是最令人关注的特征。大数据是很多不同格式的结构化、半结构化、非结构化和原始数据,在某些情况下看起来与过去 30 年来我们存储在数据仓库中清一色的标量数字和文本完全不同。从另外一个角度来讲,小数据比较简单,有比较成熟的技术应对它。大数据是多种类型数据的组成,需要使用多种技术对待它。每一个识别和监测它的手段和方法是不一样的。
然而,很多大数据不能使用任何类似 SQL 这样的工具进行分析。对于企业及应用来说,数据仓库应用更加有效。两者并不形成替代,特别是银行业等行业里面,更多的是互为补充。
数据仓库的技术特点
被称为数据仓库之父的BillInmon在其著作《(Building the Data Warehouse))一书这样描述:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化(Time Variant)的数据集合,用于支持管理决策。可以从两个层面对数据仓库的概念进行理解,一是数据仓库是面向分析处理的,主要用来支持决策制定;二是数据仓库包含历史数据,是对多个异构的数据源数据按照主题的集成,它的数据相对固定,不会经常改动。
面向主题的:数据仓库的数据都是按照一定的业务主题进行组织的,面向主题体现在数据仓库的建设中,而且还包含在业务数据分析和存储上。
集成的:数据仓库中的数据来自各个不同的分散数据库中,它并不是对源数据库数据的简单拷贝,而是按照划分好的主题和数据分析要求,经过数据抽取、清理、汇总和整理等步骤,消除源数据中的错误和不一致的数据,保证数据仓库中数据的正确性和可用性。所以,它是整合集成的。
相对稳定的:数据仓库的稳定性体现在它的非易失性上,由于数据仓库是面向分析的,其中的数据是从业务数据中加载过来的历史数据,所进行的主要操作是查询和分析,供决策分析使用,所以其修改和删除操作很少,只需要定期的增量加载,所以具有相对稳定特征。
反映历史变化:数据仓库必须能够不断地捕捉业务系统中的变化数据,记录企业生产过程的各个阶段的信息,以满足决策分析的需要,所以必须实时地把新变化的业务数据追加到数据仓库中去,通过数据随时问变化的研究和分析,可以对企业的发展历程和未来趋势做出定量分析和预测。
选择实施方法
企业级数据仓库的实现通常有两种途径:一种是从建造某个部门特定的数据集市开始,逐步扩充数据仓库所包含的主题和范围,最后形成一个能够完全反应企业全貌的企业级数据仓库;另外一种则是从一开始就从企业的整体来考虑数据仓库的主题和实施。前一种方法是各个击破,投资少、周期短且易于见到成果,但由于该设计开始时是以特定的部门级主题为框架的,向其他的主题和部门扩充往往非常困难。而后一种方法恰恰相反:投资大、周期长,但是易于扩展。
以哪种方法进行实施,主要取决于各个行业和客户的实际情况。如电信和银行业,采用第二种方法比较可行,这是因为这两个行业业务发展变化快,为了能够适应将来的变化,整个数据仓库架构必须是可扩展的和易于维护的。如果只是基于部门级的需求去设计,将来肯定无法适应变化。如果重新设计,势必造成前期投入的浪费。对其他一些行业,如制造业和零售业,本着“急用先行”的原则,可以先从某一局部入手,慢慢扩展为数据仓库。
从技术上讲,以部门需求作为主要考虑因素建立的系统,它的数据量不会太大,会影响对将来数据膨胀风险的正确估计,当数据集市扩展到企业范围的时候,由于原有技术无法支撑新的数据规模,会造成数据装载和数据分析速度的降低,甚至达到不可用的地步。企业级的数据仓库会涉及更多的额业务系统,只有充分研究各业务系统,才能了解如何对不同格式、不同标准、不同接口的数据进行集成。
当然,对于第二种方法,也不是说把摊子铺的越大越好。合理的做法是“统筹规划,分步实施”。根据业务需求,把业务的主要方面都涵盖进去,确定彼此之间的联系;对于次要的需求,可以预留一些接口,以备将来细化。否则,如果整个调研周期拖得太长,等进入实施阶段,业务又发生变化,不得不重新修改设计,同样会造成浪费。
所以,先搭建好一个易于扩展且稳定的架构,在此基础上逐步实施,是一个兼顾长远发展与合理投入的最佳方式。此外,分步实施还可以减少风险:前一阶段的经验教训可以为下一阶段提供有益的借鉴,从而使得数据仓库的建设不断完善,不断发展。
结合先进技术 从业务需求出发
和其他的应用系统相比,数据仓库对于需求分析和系统设计等前期工作要求更高,其重要性也更加突出。可以说,分析和设计阶段决定了数据仓库最终的失败。因为需求不明确、设计不合理造成的根本性缺陷是以后实施阶段所无法弥补的。因此在分析和设计阶段,对相关的业务部门和技术部门要进行详细的调研,在用户和开发人员之间的迭代和反馈是必须和重要的,它决定了数据仓库最终的成功与否。
由于数据仓库是面向业务分析的,所以最主要的需求应该从业务部门获取和收集,因为数据仓库最终是要服务于业务部门的。需求抓的不准,导致将来将无法解决业务部门的问题,这个数据仓库项目就是失败的,技术再先进也没有用。这是衡量数据仓库成败与否的唯一尺度。
实施的过程中,最好能够把行业专家的经验,与企业现有的需求进行整合,以期得到一个更加全面的需求范围,有利于适应将来业务的变化和扩展。
从技术角度来讲,必须建立一个可伸缩、可扩展、高性能的数据仓库平台,才能为将来不断的完善、不断发展打下一个良好的基础;由于数据仓库项目要涉及多个业务系统,数据量非常庞大,所以本身的投入也是很大的,在保证系统高效稳定的前提下,尽量降低成本是非常重要的。
相关链接
数据仓库的类型
根据数据仓库所管理的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:操作型数据库(ODS)、数据仓库(Data Warehouse)和数据集市(Data Mart)。
操作型数据库(ODS)
既可以被用来针对工作数据做决策支持,又可用做将数据加载到数据仓库时的过渡区域。与 DW 相比较,ODS 有下列特点:ODS 是面向主题和面向综合的;ODS 是易变的;ODS 仅仅含有目前的、详细的数据,不含有累计的、历史性的数据。
数据仓库(Data Warehouse)
篇11
通过对电力系统动态性和实时性监测可以掌握大量的实时数据,它是电力系统动态运行的具体体现,但这也严重制约了电力系统的长期发展。现代电力运营监测员应充分利用电力运营监测平台,提升系统数据利用率,建立以供电部门基础数据处理,做好各项数据的衔接、处理,协同各部门协同问题,促进国家电网数据系统的高效运转。
1大数据时代相关内容概述
1.1大数据时代整体发展形势
从我国互联网技术的快速发展,各行业企业在大数据时代中均积累了大量的经营数据,它决定了企业的长期健康发展。为了更好的完成我国电力企业在大数据时代下的发展任务,本文笔者主要从以下四方面进行了大数据时展形势加以概括,进一步实现对电力企业数据共享,实现多种资源的优化整合:
一,促进电力各部门数据的优化整合与共享,提升企业各种资源的整体利用率;二,加快电力数据资源开放力度,扩大资源利用面;三,进行大数据基础设施的统筹规划,提升数据资源利用的合理性;四,构建科学的宏观调控数据体系,进一步实现电力运营监控的宏观调控。
1.2充分发挥大数据平台业务优势,进行管理短板定位
综合考量电力运营业务流程绩效指标,对业务流程整体执行效率进行综合评价;进行执行效率较低业务流程环节的准确定位,全面分析业务流程设计的科学性与合理性,并提出综合性流程改进建议;我们应当在整体业务流程绩效指标和详细数据的基础上,作出有关于业务流程制度、岗位绩效、职责及标准的整体改进意见和建议;提升各部门、不同业务之间的协同性,进行管理短板的准确定位。
1.3加强数据资源安全保障
数据资源的有效利用离不开数据体系的健全和完善,它是加强大数据环境网络技术研究和安全的关键,只有构建大数据时代下的电力运营监测安全评估体系,才能够使企业在大数据安全基础上,提升电力运营监测和预警工作质量,提升电力企业服务水平。
2做好大数据时代电力运营监测系统数据处理
2.1监测数据类型
电力运营监测数据类型主要分为基础型数据、电力企业运营数据以及电力企业管理数据几种,基础型数据是以电力企业生产数据为主,它包含了电压稳定性、发电量、电能质量等,业务部门和业务系统要确保基础数据的完整性和准确性;电力企业运营数据指的是电力企业在生产过程中所产生的数据,通过对上述数据进行分析、处理,它能够为公司整体运营决策指明方向。电力企业管理数据仅限于特定环境下的共享和使用,它主要指协同办公、ERP及一体化平台等方面数据,做好该方面数据分析、处理有利于推进各部门工作的开展。
2.2监测移动数据处理
针对运营监测信息支撑系统来讲,异动产生、处理、统计是异动管理的主要内容,异动类型又可分为数据质量异动、接口异动和数据质量异动三种,业务异动就是通过业务数据分析出生产运营情况,业务异动又可详细划分为指标异动、流程异动和明细数据异动;而数据质量异动就是要分析出接入数据的准确性、完整性和及时性,并作出相关异动数据信息分析、处理。接口异动就是因接口问题产生的异动情况。
3.大数据时代下电力运营监控数据应用
3.1电力生产环节中大数据的具体应用
由于电力系统管理项目众多,想要单纯依靠人力来完成数据的分析和整体难度极大,只有充分利用现代化信息技术手段和多种业务模型才能够不断提升输电线路可靠性和在线计算输送功率,更好的完成电力生产相关技术指标,促进电压质量管理工作的发展。常态化低电压监测有利于实现用户和低电压电台之间的协同合作,实现对低电压运行情况的跟踪治理。因此,电力系统相关部门应在大数据环境下,按期做好停复电监测和电压质量分析报告。
3.2大数据在电力系统营销中的具体应用
远程视频技术应用能够帮助电力运营工作人员进行相关业务的巡查,是运营监测中心针对高压电力作业实施的重要举措。通过远程视频技术的帮助能够极大的缩短营业窗口情况的巡视,进一步提升电力营业窗口整体服务质量,降低用户投诉率,提升电力用户的满意度。积极开展工业电量预测,更好的满足用电需求管理,促进用电系统稽查监控业务,更好的挖掘线损治理工作成效挖掘及典型案例提炼。
3.3大数据在电力检修中的具体应用
电力系统运营中心通过大数据运营监控平台的利用,充分实现了对电网设备运维、资产寿命周期以及资金收支等情况,并将其上报于上级在线监测分析系统中,保证电网系统的正常稳定运行,进一步完成电网设备运维绩效分析。我们应当综合利用大数据时代数据挖掘手段,做好电网生产运营过程中的操作票、工作票及缺陷记录等相关明细的分析和静态数据流程匹配工作,做好配电网络设备的日常巡视、检修处理等工作,促进各部门之间的协同,提升电网运维管理工作发展,尽早发现电网运营过程中存在的不足,全面掌握巡视、检修、缺陷发现等流程绩效分析,做好各环节定量诊断调度和检修,进一步实现电网系统的纵向贯通和横向协同,不断提升我国电网运维管理水平。据相关数据统计,我国大数据时代下电力运营监控线路消缺原因、消缺时长如下图1所示:
4结束语
经上述分析,我们可以了解到数据信息维护、处理对于电力自动化系统运用意义重大,只有充分利用大数据时代所带来的数据分析、处理、应用方面的优势,做好不同数据类型的准备工作,进行电力自动化系统数据准确性、快速性整合,采用科学合理的策略指导,促进大数据时代电力系统数据的长期可持续发展。
参考文献
篇12
[中图分类号]F270.7-TP311.13 [文献标识码]A [文章编号]1673-0194(2015)02-0058-01
1 数据挖掘技术的分析方法
现在作为数据挖掘的主要工作就是分析方法,只有科学、可信赖的算法才能够帮助数据进行挖掘工作,找寻数据中隐藏的一些规律。只有利用不同的分析方法,才能解决各种不同的问题。而现在常见的分析方法有聚类分析、分类和事先推测、关联分析。
1.1 聚类
聚类分析是将一组数据分类成相近性及有异性这样几个种类,这样做的目的就是将同一种类型的数据之间的相近性发展到最大化,不同种类之间数据的相近性尽可能的降低。这项分析方法可以用到客户团体的分类、客户背景分析、客户购买的事先推测、市场细分等。聚类分析广泛的存在于心理学、医学、数据识别等领域中。
1.2 分类及事先推测
分类是将数据库里面的数据对象的相同点按照分类的形式将其归为不同的类型。这样做的目的就是经过分类的形式把数据库中的数据项反射到特点的一个类型。这可以用到客户的分类、特性、满意程度、购买趋势等。而事先的推测是建立连续值函数模型,常见的方法有局势外推测法、时间序列法、回归分析的方法。
1.3 关联分析
在自然界中,每个事物之间都有一定的联系,如果发生一件事情,肯定会关联到其他的相应事件。关联分析就是利用到来事物之间存在的联系和相互之间的依赖性的规律,对于这些事件进行的预测。在数据库中的表现就是数据项之间存在的问题之间的关联,就是一个事物中的某一项事物可能会导致其他一系列事项的出现。对于企业的客户管理有着非常大的帮助,对于数据库中的数据进行挖掘,找出影响市场的因素,为各种活动提供依据。
1.4 特征
特征分析方法就是将数据库里面的一组数据抽取出有关这组数据的特征式,这种特征式能够表现出数据的整体的特征。就像营销工作人员对于客户流失数据的提取能够了解到原因,利用这些数据找到原因后就能帮助挽留客户。
2 数据挖掘在企业中的应用
2.1 市场营销和经营
数据挖掘最早应用的行业就是市场营销,市场营销行业利用数据挖掘技术对于用户进行分析挖掘来获得客户的消费习惯和特征,这样做的目的是来提升销售的业绩。当然,现在数据挖掘不仅是在超市购物上被利用,还普及到很多的金融行业。
经营上使用的具体实例:一些邮件类的广告上,可以根据数据挖掘帮助确定客户可能会购买的产品,这样可以节约很多的邮资,还能够帮助管理客户之间的关系,也就是经过分析那些可能走向竞争对手的客户的特点,这样就能针对性的来留住顾客。购买方式:利用数据挖掘技术给零售商提供方便,零售商能够通过这一技术确定顾客会购买哪些商品,还有就是在商店中该放那样的商品供顾客选择,目的是方便顾客购买,这样能够帮助销售量的提高。当然数据挖掘技术还能够帮助用户分析、评判促销活动会产生的成效。
2.2 电力、电信行业
随着数据挖掘技术的发展,电网业务在不断的进步和丰富。而电信行业快速的发展,电信技术和服务成为一个巨大的混合载体,对于市场关系、技术服务有极大的影响。对于企业的资源进行有效的整体和结合,形成一个非常大的关系网和信息数据系统。对这些数据进行挖掘成为解决各种问题的有效方法,为企业的发展有着非常重要的推动作用。
2.3 互联网和云计算机
互联网对于数据挖掘有很多的应用,比如搜索引擎、电子商务等。这些都是利用数据挖掘技术在庞大的数据海洋中找寻能够符合客户要求的信息。常见的就是根据预测分类算法来预测出客户应该需要的信息。
2.4 金融行业
银行、通信公司、保险行业这些在评估客户的信用等级上需要注意安全。数据挖掘的利用在金融行业是非常的重要,当然数据挖掘技术在这方面取得了很好的成绩,可以帮助这些金融企业正确的识别出诈骗行为、控制风险。如2003年春天,广东分行在进行信贷电子数据分析的时候,发现了一些异常的现象,发现除了南海华光公司的冯某对于银行进行的诈骗行为,其中有74亿元被骗取,这并不是通过举报而获得线索,而是经过数据挖掘技术,发现冯某公司信贷出现的异常,然后被审计人员发现并验证这一诈骗行为,若不是数据挖掘要想发现这一诈骗可谓是难上加难。
3 结 语
篇13
大数据指非常庞大的数据集,尤其是那些没有被整齐的组织起来无法适应传统数据仓库的数据集。网络蜘蛛数据、社交媒体反馈和服务器日志,以及来自供应链、行业、周边环境与监视传感器的数据都使得公司的数据变得比以往越来越复杂。
尽管并不是每个公司都需要处理大型、非结构型数据集的技术。VeriskAnalytics公司首席信息官PerryRotella认为所有的首席信息官都应当关注大数据分析工具。Verisk帮助金融公司评估风险,与保险公司共同防范保险诈骗,其在2010年的营收超过了10亿美元。Rotella认为,技术领导者对此应当采取的态度是,数据越多越好,欢迎数据的大幅增长。Rotella的工作是预先寻找事物间的联系与模型。
HMS公司首席信息官CynthiaNustad认为,大数据呈现为一种“爆炸性”增长趋势。HMS公司的业务包括帮助控制联邦医疗保险(Medicare)和医疗补助(Medicaid)项目成本和私有云服务。其客户包括40多个州的健康与人类服务项目和130多个医疗补助管理计划。HMS通过阻止错误支付在2010年帮助其客户挽回了18亿美元的损失,节约了数十亿美元。Nustad称:“我们正在收集并追踪大量素材,包括结构性与非结构性数据,因为你并不是总是知道你将在其中寻找什么东西。”
大数据技术中谈论最多的一项技术是Hadoop。该技术为开源分布式数据处理平台,最初是为编辑网络搜索索引等任务开发的。Hadoop为多个“非关系型(NoSQL)”技术(其包括CouchDB和MongoDB)中的一种,其通过特殊的方式组织网络级数据。
Hadoop可将数据的子集合分配给成百上千台服务器的处理,每台服务器汇报的结果都将被一个主作业调度程序整理,因此其具有处理拍字节级数据的能力。Hadoop既能够用于分析前的数据准备,也能够作为一种分析工具。没有数千台空闲服务器的公司可以从亚马逊等云厂商那里购买Hadoop实例的按需访问。
Nustad称,尽管并不是为了其大型的联邦医疗保险和医疗补助索赔数据库,但是HMS正在探索NoSQL技术的使用。其包括了结构性数据,并且能够被传统的数据仓库技术所处理。她称,在回答什么样的关系型技术是经实践证明最好用的解决方案时,从传统关系型数据库管理出发是并不明智。不过,Nustad认为Hadoop正在防止欺诈与浪费分析上发挥着重要作用,并且具备分析以各种格式上报的病人看病记录的潜力。
在采访中,那些体验过Hadoop的受访首席信息官们,包括Rotella和Shopzilla公司首席信息官JodyMulkey在内都在将数据服务作为公司一项业务的公司中任职。
Mulkey称:“我们正在使用Hadoop做那些以往使用数据仓库做的事情。更重要的是,我们获得了以前从未用过的切实有用的分析技术。”例如,作为一家比较购买网站,Shopzilla每天会积累数太字节的数据。他称:“以前,我们必须要对数据进行采样并对数据进行归类。在处理海量数据时,这一工作量非常繁重。”自从采用了Hadoop,Shopzilla能够分析原始数据,跳过许多中间环节。
GoodSamaritan医院是一家位于印第安纳州西南的社区医院,其处于另一种类型。该医院的首席信息官ChuckChristian称:“我们并没有我认为是大数据的东西。”尽管如此,管理规定要求促使其存储整如庞大的电子医疗记录等全新的数据类型。他称,这无疑要求他们要能够从数据中收集医疗保健品质信息。不过,这可能将在地区或国家医疗保健协会中实现,而不是在他们这种单个医院中实现。因此,Christian未必会对这种新技术进行投资。
IslandOneResorts公司首席信息官JohnTernent称,其所面临的分析挑战取决于大数据中的“大”还是“数据”。不过,目前他正在谨慎地考虑在云上使用Hadoop实例,以作为一种经济的方式分析复杂的抵押贷款组合。目前公司正在管理着佛罗里达州内的8处分时度假村。他称:“这种解决方案有可能解决我们目前正遇到的实际问题。”
2.商业分析速度加快
肯塔基大学首席信息官VinceKellen认为,大数据技术只是快速分析这一大趋势中的一个元素。他称:“我们期待的是一种更为先进的海量数据分析方法。”与更为快速地分析数据相比,数据的大小并不重要,“因为你想让这一过程快速完成”。
由于目前的计算能够在内存中处理更多的数据,因此与在硬盘中搜索数据相比,其计算出结果的速度要更快。即使你仅处理数G数据,但情况依然与此。
尽管经过数十年的发展,通过缓存频繁访问的数据,数据库性能提升了许多。在加载整个大型数据集至服务器或服务器集群的内存时,这一技术变得更加实用,此时硬盘只是作为备份。由于从旋转的磁盘中检索数据是一个机械过程,因此与在内存中处理数据相比,其速度要慢许多。
Rotella称,他现在几秒中进行的分析在五年前需要花上一个晚上。Rotella的公司主要是对大型数据集进行前瞻性分析,这经常涉及查询、寻找模型、下次查询前的调整。在分析速度方面,查询完成时间非常重要。他称:“以前,运行时间比建模时间要长,但是现在建模时间要比运行时间长。”
列式数据库服务器改变了关系型数据库的传统行与列结构,解决了另一些性能需求。查询仅访问有用的列,而不是读取整个记录和选取可选列,这极大地提高了组织或测量关键列的应用的性能。
Ternent警告称,列式数据库的性能优势需要配合正确的应用和查询设计。他称:“为了进行区别,你必须以适当的方式问它适当的问题。”此此同时,他还指出,列式数据库实际上仅对处理超过500G字节数据的应用有意义。他称:“在让列式数据库发挥作用之前,你必须收集一规模的数据,因为它依赖一定水平的重复提升效率。”
保险与金融服务巨头JohnHancock公司的首席信息官AllanHackney称,为了提高分析性能,硬件也需要进行提升,如增加GPU芯片,其与游戏系统中用到的图形处理器相同。他称:“可视化需用到的计算方法与统计分析中用到的计算方法非常相似。与普通的PC和服务器处理器相比,图形处理器的计算速度要快数百倍。我们的分析人员非常喜欢这一设备。”
3.技术成本下降
随着计算能力的增长,分析技术开始从内存与存储价格的下降中获益。同时,随着开源软件逐渐成为商业产品的备选产品,竞争压力也导致商业产品价格进一步下降。
Ternent为开源软件的支持者。在加入IslandOne公司之前,Ternent为开源商业智能公司Pentaho的工程副总裁。他称:“对于我来说,开源决定着涉足领域。因为像IslandOne这样的中等规模公司能够用开源应用R替代SAS进行统计分析。”
以前开源工具仅拥有基本的报告功能,但是现在它们能够提供最为先进的预测分析。他称:“目前开源参与者能够横跨整个连续统一体,这意味着任何人都能够使用它们。”HMS公司的Nustad认为,计算成本的变化正在改变着一些基础性架构的选择。例如,创建数据仓库的一个传统因素是让数据一起进入拥有强大计算能力的服务器中以处理它们。当计算能力不足时,从操作系统中分离分析工作负载可以避免日常工作负载的性能出现下降。Nustad称,目前这已经不再是一个合适的选择了。
她称:“随着硬件与存储越来越便宜,你能够让这些操作系统处理一个商业智能层。”通过重定数据格式和将数据装载至仓库中,直接建立在操作应用上的分析能够更为迅速地提供答案。
Hackney观察认为,尽管性价比趋势有利于管理成本,但是这些潜在的节约优势将被日益增长的能力需求所抵消。尽管JohnHancock每台设备的存储成本在今年下降了2至3%,但是消耗却增长了20%。
4.移动设备的普及
与所有的应用一样,商业智能正日益移动化。对于Nustad来说,移动商业智能具有优先权,因为每个人都希望Nustad能够随时随地亲自访问关于她的公司是否达到了服务级协议的报告。她还希望为公司的客户提供数据的移动访问,帮助客户监控和管理医疗保健开销。她称:“这是一个客户非常喜欢的功能。在五年前,客户不需要这一功能,但是现在他们需要这一功能了。”
对于首席信息官来说,要迎合这一趋势更多的是为智能手机、平板电脑和触摸屏设备创建适用的用户界面,而不是更为复杂的分析能力。或许是出于这方面的原因,Kellen认为这相对容易。他称:“对于我来说,这只是小事情。”
Rotella并不认为这很简单。他称:“移动计算影响着每一个人。许多人开始使用iPad工作,同时其它的移动设备正在呈现爆炸式增长。这一趋势正在加速并改变我们与公司内部计算资源交互的方式。”例如,Verisk已经开发了能够让理赔人在现场快速进行分析的产品,因此他们能够进行重置成本评估。他称:“这种方式对我们的分析产生了影响,同时也让每一个需要它的人随手就能使用。”
Rotella称:“引发这种挑战的因素在于技术的更新速度。两年前,我们没有iPad,而现在许多人都在使用iPad。随着多种操作系统的出现,我们正力争搞清楚其是如何影响我们的研发的,这样一来我们就不必一而再、再而三的编写这些应用。”IslandOne的Ternent指出,另一方面,为每一种移动平台创建原生应用的需求可能正在消退,因为目前手机和平板电脑上的浏览器拥有了更为强大的功能。Ternent称:“如果我能够使用一款专门针对移动设备的基于web的应用,那么我并不能肯定我将会对定制的移动设备应用进行投资。”
5.社交媒体的加入
随着脸谱、推特等社交媒体的兴起,越来越多的公司希望分析这些由网站产生的数据。新推出的分析应用支持人类语言处理、情感分析和网络分析等统计技术,这些并不是典型商业智能工具套件的组成部分。
由于它们都是新的,许多社交媒体分析工具可以作用服务获得。其中一个典型范例是Radian6。Radian6为软件即服务(SaaS)产品,近期已经被Salesforce.com所收购。Radian6是一种社交媒体仪表盘,为TwITter的留言、脸谱上的帖子、博客与讨论版上的帖子与评论中提及的特定术语以正负数显示,尤其是为商标名提供生动的直观推断。当营销与客户服务部门购买后,这类工具不再对IT部门有很严重的依赖性。目前,肯塔基大学的Kellen仍然相信他需要对它们高度关注。他称:“我的工作是识别这些技术,根据竞争力评估哪些算法适合公司,然后开始培训合适的人员。”