在线客服

大数据量解决方案实用13篇

引论:我们为您整理了13篇大数据量解决方案范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。

大数据量解决方案

篇1

从建立大数据存储、管理和查询平台入手,嘉和美康不断优化应用软件和解决方案,以帮助医疗单位跨过大数据这道门槛。“大数据在医疗行业的前景和收益是嘉和美康最根本的驱动力,作为医疗行业信息系统的开发者和建设者,嘉和美康必须在产品上、技术上、应用上迈上一个大的台阶。”试想,小到辅助临床医生做出更为科学和准确的诊断和用药决策或帮助医院根据患者潜在需求开发全新个性化服务及自动服务,大到帮助研究机构实现突破性的医疗方法和药物革新或支持地区甚至全国医疗行业主管部门优化医疗资源及服务配置,这些美好规划实现的前提即是大数据好好为医疗行业所用。

“嘉和美康在电子病历的基础上,推出了新一代的临床数据中心系统――基于CDR的临床信息系统。” 范可方介绍,这个系统是面向临床的深度应用,基于CDR平台借助大数据处理技术推出的新一代产品。

携手英特尔

篇2

能否置身事外?

随着网络应用和多媒体应用的兴起,互联网成为大数据的主要来源。随之而产生的网络营销调整围绕大数据而展开。淘宝是国内公认的对用户数据利用得较好的公司——淘宝网利用大数据统计分析得到诸如“欧洲杯的球队胜负如何影响各队球衣的销量?花露水的最佳搭配是电蚊拍还是痱子粉?”等问题的有趣结果,并以此为依据来更好地调整营销战略。

近日,阿里巴巴集团宣布,将在集团管理层面设立首席数据官岗位(Chief Data Officer),负责全面推进阿里巴巴集团成为“数据分享平台”的战略。这直接证明了大数据对于互联网企业的意义。

别的行业能不能对大数据冷眼旁观呢?赛迪智库软件与信息服务业研究所研究员安晖认为,虽然目前大数据的主要来源是互联网,但许多以信息流作为核心竞争力,如金融、电信、零售等行业的机构或企业,其数据量也不容低估。例如,美国国家海洋和大气管理局(NOAA)数据中心存储的数据超过20PB,沃尔玛数据中心的存储能力超过4PB,eBay分析平台每天处理的数据量高达100PB。并且,由于这些机构和企业所存储的数据更加有针对性,其数据的价值密度更高,进行大数据处理的意义更强,运用大数据的需求也更为迫切。

安晖以数个典型行业为例来说明大数据能带来什么好处——电信行业可以从庞大的数据中分析出不同群体的差异化需求,实现套餐制定等精准营销;制造行业可以通过整合来自研发、工程和制造部门的数据以实行并行工程,显著缩短产品上市时间并提高质量;交通行业可以通过整合和处理相关数据,实现智能交通(管理)与高效物流调度。

赛迪顾问软件与信息服务业研究中心研究总监胡小鹏认为,金融行业中证券、信用卡、电子支付等数据规模庞大,具有使用对象多样化、信息可靠性、实时性、保密性要求高等特点;电信行业中大数据主要体现为电信业务系统产业的计费账务数据和用户信息(包括客户资料、客户服务数据等),不仅数据量大,而且保存时间长;能源行业大数据主要集中在石油勘探以及电力生产、经营、管理等数据,具有数据量大、分散、类型复杂等特点。其中,在金融行业,利用大数据的挖掘和分析改善用户体验、监督欺诈行为、验证合规性、服务创新等,从而助力金融智能决策,提升竞争力;而对于电力行业,大数据分析有利于电网安全高效运行(安全检测与控制、灾难预警与处理、供电与电力调度决策支持和负荷预测)、电力营销(用户用电行为分析)、集团集中管控与精细化管理等。

大数据这场盛宴上,哪个行业也不愿意没有一席之地。

谁能站出来?

大数据的热度可以由英特尔、IBM、EMC、惠普等厂商纷纷推出面向大数据的一体化产品和解决方案直接反映出来。

然而,一个不能逃避的现实是,虽然越来越多的行业用户尝试应用大数据的解决方案,但是大多数行业用户对于大数据的认知仍然比较有限。面对林林总总的不同厂商提供的大数据解决方案,用户分不清这些解决方案的差异在哪里,也就不会真正了解哪种解决方案适合自己。

有用户反映,大数据解决方案容易给人的错觉是该解决方案就是把数据分布存储,再并行处理。即使采用国外厂商的工具,这些工具成熟度不是特别高,导致解决实际问题的时间过长。

英特尔相关专家表示,从总体上看,中国大数据市场发展迅速,特征明显,相关技术和应用可改进和提升的空间巨大。而且大数据要落地,必须实现包括芯片商、软件企业等在内的IT基础设施与服务层平台的开放。

英特尔在硬件上的领先无需多言。在软件层面,考虑到Hadoop的开源特性,很多厂商都有机会在Hadoop的基础上推出产品,但行业解决方案提供商面临的一个苦恼是,他们不得不进行底层开发。实际上,底层解决方案是有很多共性的。对行业解决方案提供商来说,如果有一个由可靠厂商优化过的平台再好不过了。利用这个平台,行业解决方案提供商可以抛开重复的、无意义的劳动,将注意力和精力更加集中在行业特点上,进而开发出满足行业所需的实打实的行业解决方案。在这种情况下,英特尔适时地推出了英特尔Hadoop发行版,打造一个优秀的、高价值的底层平台。

对于如何从大数据中发掘价值,英特尔指出,这需要在IT基础设施与服务层、数据组织与管理层、数据分析与发现层、决策支持与IT服务层全面引入新的技术,特别是在堪称大数据应用“载体”的IT基础设施与服务层,采用基于开放架构的平台将是最佳选择。

O‘Reilly Strata和Open Source Convention大会委员会主席Edd Dumbill曾指出,使大数据真正变得强大的方式之一就是让上层程序员可以将精力放在数据而非底层Hadoop设施的抽象特征上。他们编写更简短的程序,能够更清晰地表达出对数据所做的处理。这些将有助于为非程序员创建更好的工具。

延伸到企业层面,“行业解决方案提供商需要稳定性和可用性都足够好的平台。在这样的平台上,行业解决方案提供商可以从不必要的重复性劳动中解放出来,从而把更多的精力放在提供差异化特色方案和服务上。”英特尔亚太研发有限公司总经理、英特尔软件与服务事业部中国区总经理何京翔的看法类似。进而,他解读了英特尔Hadoop发行版的优势:“英特尔Hadoop发行版的优势在于:处理接近于实时;能在英特尔平台上实现最优化的性能,比非英特尔发行版有成倍的增长;通过和电信、智能城市、医疗等行业客户的合作,英特尔Hadoop还做了更进一步的优化。”

除了提供平台,英特尔(中国)行业合作与解决方案部中国区总监凌琦强调,英特尔还会把大数据解决方案的研究和服务作为投资部门的重点。英特尔的风险投资部门也对大数据中所涉及的关键平台、关键应用、提供商,给予关注。

行业侧重点

英特尔硬件平台的特点让其可以用“通吃”来形容,行业特色则由软件来体现。

篇3

大掌控、大智汇、大洞察

在大数据成为流行词之前,微软便已着手于大数据的应用与研发,例如微软Bing的高质量搜索结果,便是通过分析超过100PB的数据得到的。微软大数据解决方案的目标,是让所有用户都能获得来自任何数据有价值的洞察力。

微软大中华区副总裁兼市场战略部副总经理、大中华区首席云战略官谢恩伟介绍,为了实现这一目标,微软为大数据解决方案制定了全面的战略——大掌控、大智汇、大洞察。

大掌控,即“支持所有数据类型的现代化的管理层”。微软大数据解决方案的数据管理平台可以无缝地存储和处理包括结构化、非结构化和实时数据在内的所有类型的数据。微软推出的HDInsight是一种适合企业使用的、基于HDP的Hadoop服务,它将Windows的简易性和可管理性带给Hadoop,提供了结合Hadoop的扩展平台,并为大数据提供了灵活且可扩展的云。

大智汇,即“搜索并结合广泛数据,进行先进分析与精炼,从而提高数据价值的富集层”。微软大数据解决方案,通过将数据和模型与公开的数据服务相结合,实现了突破性的数据发现,例如自动发现与共享防火墙外部的和第三方的数据源等。

大洞察,即“用户熟悉的工具可为用户提供具有直观洞察力的洞悉层”。微软大数据解决方案可以使客户通过熟悉的由Hive add-in for Excel生成的Excel界面,从Hadoop功能中获取有价值的洞察力,也可经由企业熟悉的BI工具,如SQL Server 分析服务、PowerPivot和通过Hive Open Database Connectivity 驱动生成的Power View来分析Hadoop中的非结构化数据。

数据分析结果要“傻瓜化”

“我们要将挖掘与分析的结果直观呈现,转换为用户真正需要的有价值的洞察力。” 微软全球高级副总裁、大中华区董事长兼首席执行官贺乐赋说。

篇4

移动设备爆炸带来变革机会

云计算会吸引更多人上网,接入更多设备,从而产生更多海量数据——这个即将出现的循环将带来巨大的机会。

《数字商业时代》:云计算的出现让全世界所有信息和通信技术覆盖的地方,都试图通过技术来生成一个数字化的投影。这种更彻底的数字化浪潮将为商业和经济带来怎样的影响?

柏安娜:云计算从提出到取得飞速发展是最近五年的事,它在面向消费者和企业的相关服务及应用的数量都在快速增加。云计算模式很有吸引力,它可以在低运营和低拥有成本的基础上进行大规模的扩展,而且它具有按需提供服务的能力,因为它的基础设施是共享的。可以看到,中国和美国的云建设都在飞速发展。这就像一个虚拟的循环,随着越来越多的人上网——目前有23亿人上网,他们会购买更多设备。这些设备与数据中心连接,需要建设云基础设施来支持这些设备。这会推动新服务和解决方案的创新,从而吸引更多人上网。这些推动了云计算的发展,并推动相关服务的发展。在这个令人惊叹的循环中,随之带来的是我们从未想过的新式服务和解决方案。就像你所说的,我们现在真正处于数字创新时代,新服务在线上不停地涌现,因为我们能够在云中进行新功能的快速部署。

《数字商业时代》:与这种数字化浪潮最为匹配的技术,似乎就是大数据分析技术,现在和未来一段时间内,有哪些因大数据技术而生的商业模式值得人们关注?

柏安娜:一直有很多企业数据,但从来没有分析和利用这些数据的高效方式。这种情况下,数据就没有发挥作用。现在围绕大数据有很多行业创新。一个是计算成本继续增加,例如横向扩展存储等。一个重大成本是这些数据的存储成本,传统存储方式太过昂贵。因此,你看到存储创新,基于英特尔平台的横向扩展存储。然后是围绕开源数据分析解决方案的大量创新。Hadoop是个非常好的开源框架,让你能够提取所有这些数据,高效地存储并实时分析。计算存储平台和分析解决方案相结合,让企业和消费者都能看到重大数据。有个很好的例子,中国政府要求电信运营商为消费者提供90天的交易记录,让消费者能够上网了解过去90天的所有消费情况,这是一个重大的大数据问题,涉及的数据量也非常巨大。我们与电信运营商合作,利用Hadoop向他们提供一个稳定、优化的Hadoop平台以分析和报告这些信息,从而满足政府的监管要求。我们目前是Hadoop框架的分销商,我们现在所做的是以前从未做过的事情。

数据就是价值

大数据时代,IT将不再是成本,而成为价值。

《数字商业时代》:有迹象表明在云计算与数据的时代它将开始主导企业业务的发展甚至是变成一个核心业务,简而言之就是变成企业的盈利中心,你对这一趋势有何看法?

篇5

尤其是随着社交网络、电子商务以及物联网的发展,结构化数据和非结构化数据并存,无论是数据的类型、来源还是数量等方面,都已十分复杂。而依靠传统的IT技术,已经很难对这些海量数据进行高效的分析。因此,是否能够找到一套涵盖业务、技术和IT基础架构的全面的大数据解决方案,就成为IT服务商决胜大数据市场的关键因素之一。

而这也正是荣之联公司与Alpine公司合作,共同拓展国内大数据市场的重要原因。“Alpine公司在大数据处理方面有着很多创新的技术和面向各个行业的解决方案,而这些可以帮助我们很好的解决国内行业用户所面临的大数据问题。”王东辉说。

其实,对于大数据,荣之联公司并不陌生。“过去几年,我们帮助华大基因等企业建设了巨大的数据库,计算量超过200万亿次,我们的生物云也马上要,数据量将会更大。而如何在生物行业中结合大数据分析,也是过去一年多我们一直在讨论的问题。”荣之联公司总经理张彤介绍道。

篇6

译者:盛杨燕

出版:浙江人民出版社

作者简介:

马克?冯?里吉门纳姆

全球顶尖大数据影响力人物之一,一站式大数据商店Datafloq创始人,荷兰Data Donderdag大数据论坛联合发起人,在大数据、区块链、物联网和颠覆性创新方面拥有丰富的经验。

据测算,我们现在每两天产生的数据,相当于人类文明伊始至2003年所a生的数据的总和。而且,随着几乎所有的一切事物都被数字化,人们预计可用数据量将每两年翻一番。大数据能让企业制定更好的决策,从而提高效率、节约成本、增加收入。但是许多企业还没有认识到它的好处,即便认识到了,也许还不知道如何利用。

大数据早已开始改变商业乃至社会的运作方式,企业,尤其是中小企业,若要避免被时代甩在后面的命运,就必须跟上构建大数据战略和关键大数据能力的浪潮。

任何数字化的事物皆为数据。越来越多的事物被数字化,并与互联网产生联系,这意味着公司正在接收全新领域的数据。物联网运动表明,任何产品或设备都能与互联网相连,因此都能提供数据。

当然,数据自身并不具有价值。真正有价值的是在数据基础上所做的分析,以及数据被转换成的信息,甚至是知识和智慧。数据的价值在于企业如何利用数据打造一个以信息为中心的企业,并将企业的决策制定立足于数据分析所释放的基础知识。

大数据见者有份――你只需拓宽视野去发现在哪里能找到它,以及如何分析和使用它。

常有人说,中小型企业无法加入大数据运动或者不能开发大数据战略,因为他们拥有的数据太少。然而2012 年,SAP公司的一项研究显示,接受采访的中小型企业高管中,76%将大数据看作一个机会。SAP公司负责业务分析、数据库和技术的执行副总裁史蒂夫・ 卢卡斯曾说:“每个公司都应该考虑大数据战略,无论大小。”即便企业拥有的数据较少,也可以开发大数据路线图,成为以信息为中心的企业。那么,对于中小型企业,今后的大数据机会是什么,应如何利用自己的“小数据”?

这里所说的“小数据”并不是IBM 定义的小体量、批处理和结构化的数据。相反,小数据可以是任何形式的数据,结构化或非结构化、实时处理或批处理均可。小数据只表示数据量少,即数吉字节或上太字节,而达不到拍字节。

的确,一些中小型企业可能没有很多数据,但是,即便这样,它们也有供应商或经销商。如果这些公司开始合作和分享数据,它们的可用数据量就会成倍增长。我们也看到过这个过程曾发生在大型跨国公司身上,例如,耐克和同行分享它所有供应商的数据,这使得供应链中的其他公司可以补充和使用该数据库,借此做出更聪明的决策。

当中小型企业开始使用数据,并将自己的数据与供应商的数据相结合时,它们就会突然拥有充足的数据,这些数据可以经分析和可视化处理后,用于改进决策。它们也可以将已有的少量数据与公开数据集结合。开放权限的公开数据集现在已越来越多,同时,公共平台也在不断增多,这样,中小型企业就可以从这些平台上免费下载或花钱购买更多的数据集。将个人数据与公开数据结合起来,一方面能增加分析可用的数据量;另一方面可以获得全新的结果,比如发现新市场或目标群体。

中小型企业不应该只看到公司已经拥有和收集的数据,而应该乐于接受收集数据的新方式。在这个问题上,创意是关键,因为最终只要有传感器加入进来,任何产品都能转化为数据。传感器的成本正日渐降低,在已有产品上安装传感器可以传递全新的数据集,从而获得意料之外的见解。

大数据不仅体现在大体量、高速度上,也体现在多样性上。大数据强大之处就在于能够将非结构化和结构化的数据集结合,获得新的见解。非结构化数据有许多来源,包括社交数据、视觉资料、文档、电子邮件,乃至语音数据。将多个较小的数据集结合与将大型数据集结合相比,它们产生的见解是一样的。因此,数吉字节产生的见解对中小型企业的作用,与数拍字节或艾字节数据产生的见解对大型跨国公司的作用相当。

Real Business的杰米・特纳曾说:“由于资源有限……灵活性和敏捷性对于中小型企业极为重要。”的确,它们必须找到与它们可用资源相配的解决方案。这些企业可以使用由较小的也更为灵活的大数据创业公司创建的基于云端的解决方案,而不必选择IBM、赛仕或惠普开发的完整大数据解决方案。此外,它们可以使用开源工具自行创建大数据解决方案。尽管后者仍然需要专业人员,但是成本已有下降。开源工具是免费的(当然不提供任何服务),商用硬件也逐渐变得便宜起来。

无疑,大数据适用的不仅仅是大型企业,中小型企业也有很多机会,能从它们已有的数据或新数据集中获得有价值的见解。实际上,中小型企业确实需要多一点创新来解决大数据难题。它们必须跳出思维定式,发现企业内部和外部的数据机会。不过说到底,如果大型企业想充分利用大数据,这一点同样适用。

篇7

大数据处理之所以困难,是因为它有别于传统关系型数据。数据量大(Volume)、速度生成快(Velocity)、数据类型多(Variety)、价值密度低(Value)是大数据的4大特点,即“4V”。尤为值得一提的是,大数据虽然量大,但与关系型数据相比,其同等数据量的经济价值要小得多,如果还像传统数据那样投入就得不偿失。

“大数据并不适合用传统数据处理技术进行存储和分析,因而我们需要一种新的技术,而Hadoop正是这样一种数据处理技术。”Hadoop China发起人、中科院计算所查礼博士表示。据悉,Hadoop是一种开源软件架构,能够自由部署在x86平台上,其独特的分布式和可扩展性都非常适合大数据的处理。这几年Hadoop市场发展迅猛,且出现很多开源版本,如Cloudera公司的Distribution Including Apache Hadoop是其中颇有影响力的一个。

篇8

在大数据产品方面,曙光已经成竹在胸。针对结构化、非结构化和半结构化数据,曙光都能提供匹配的存储解决方案。比如,针对非结构化和半结构化数据,曙光的ParaStor就是一个非常好的存储平台。再比如,曙光利用自己的文件系统对Hadoop平台进行了优化,可以更好地发挥Hadoop的优势。惠润海表示:“当前,虽然大数据带来的直接收入并不如预期,但是大数据市场的前景十分广阔。”

不赶一体机的时髦

在大数据市场上,一体机越来越流行,曙光却一直按兵不动。“我们一定要透过现象看本质。一体机的核心还是软件。”惠润海表示,“将相关硬件拼凑在一起,再加上Hadoop就能构成一个简单的一体机,但是这样的产品会有竞争力吗?我们只要推出一个新产品,就希望这个产品具有一定的竞争力,能够在市场上取得较高的占有率,而不是搞噱头。”

在大数据业务方面,曙光的核心竞争力主要体现在它有一支强大的技术服务团队,可以为用户提供代码级开发的服务能力。由于自身的复杂性以及存在Bug,Hadoop通常不能直接使用,这就需要大数据解决方案厂商在Hadoop平台上进行相关调整和优化。“由于数据种类繁多,数据量又大,如何快速将大数据导入到大数据挖掘系统中是一个难题。如果厂商没有过硬的技术服务团队,不能根据数据的情况对解决方案进行调整和优化,那么大数据应用落地就将成为一句空话。大数据应用之所以难普及,一个重要的原因就是具有代码级开发能力的专业技术人才太少了。”惠润海表示。

在推广大数据解决方案时,曙光并没有与某一个应用软件厂商签定产品捆绑协议。不过,曙光还是针对一些主流的应用软件进行了方案的优化。举例来说,在结构化数据处理方面,曙光主要针对Oracle数据库进行了方案优化。曙光利用基础的硬件,结合自己的大数据挖掘系统,可以将Oracle数据库的查询速度至少提升50倍,而成本只有传统的“小型机+高端存储”解决方案的十分之一。

存储服务器已获认可

篇9

虽然随着互联网、移动互联的普及,最早起源于决策支持系统的商业智能已成为科技企业争相布局的领域――提供商业智能解决方案的著名IT厂商包括微软、IBM、Oracle、SAP、Informatica、Microstrategy、SAS、Royalsoft等。但是,并非所有的商业智能都能够赚到钱。

“商业智能包括很多的内容:数据可视化、报告、操作平台等,然而QlikTech关注其最为重要的一点,我们称为分析发现(discovery)。”Terry Smagh解释道。据悉,QlikTech公司已经推出商业智能软件QlikView 11.2版本,以及Business Discovery(商业探索平台),“作为一个内嵌式的存储平台,对于大数据的分析、分类、标签等都在Discovery平台上进行。”

作为QlikTech公司的大客户,海尔公司行销网络覆盖全中国,而且销售的产品种类繁多,包括高端的企业级产品、低端的消费品。“海尔公司产生的数据量不仅大,而且分布广泛,例如他们的零售店、公司本部的数据库等。”Terry Smagh说,“但是,海尔最想知道的是怎样可以分析哪一家分销店做得好、哪一款产品卖得好,更细致的就是在什么时间段这款产品卖得好,这样它才能高效地组织规划和生产。这时,我们就把海尔的各方数据放到Discovery平台上,分析不同的区域哪一款产品卖得好,是什么样的人在买这款产品,以及买这类产品的人同时也买了哪些关联的产品。”

篇10

对于企业和CIO来说,如何利用大数据技术来管理并挖掘其数据的商业价值,使企业更迅速的占领市场先机,给客户带来更好的体验,是企业用户更加强劲的发展动力。

EMC高级存储事业部总裁Amitahb Srivastava表示,从技术的角度来看,IT部门将继续看到智能的转移,更多的数据中心智能会转移到软件控制平面中,而软件控制平面则利用基于Web的技术,访问作为一个整体的计算、网络和存储资源(例如软件定义的数据中心)。随着数据中心寻求更容易的技术消费方式,云计算模式的原则也将增多,除了效率和敏捷性等,还将包括简单性。厂商对此做出的反应是,提供基础架构解决方案,这类解决方案打包整合同类最佳技术,并有可能使物理地点不再重要,而通过中央控制点管理多种多样的基础架构。

由于越来越多的机构寻求以更有效的方式保留和利用非结构化数据,所以对象存储系统将迅速增加。要在企业中使用对象,具备扩展对象存储系统的能力将很重要。类似地,对于用对象建立应用的开发人员而言,支持基于云的开放接口也将是非常关键的。

投资飙升

企业在大数据领域的投资也在激增。汤森路透的数据显示,2011年,风险投资人给大数据相关的初创公司投资24.7亿美元,与2010年的15.3亿美元和2009年的11亿美元相比,有显著增长。

2013年,大数据初创公司界将会看到,仅向市场提供单点式工具而不是集成式解决方案的公司结果会很不妙。尽管这类公司能为某些客户提供价值,但是随着市场的成熟,最好的厂商将变得更大、更强,而其余的厂商恐怕只能为自己的产品举行一场大数据“庭院拍卖会”了。

大数据几乎在所有人的心目中都占有一席之地。社交和移动技术相结合产生的影响、不断需要增强竞争优势以及无处不在的分析软件和服务,都将改变厂商和最终用户消费信息的方式。基础技术已经有了。Hadoop数据生态系统的出现已经使经济实惠的存储和PB级数据处理变成了现实。富有创新精神的企业正在利用这些技术开发一类全新的、实时的、以数据为主导的应用。随着这一趋势的继续,我们将看到一群新的创新公司,对于10年前我们无法想象怎样解决的问题,他们会开发出解决方案。

安全更加重要

从广义来讲,大数据产业链贯穿了数据整个生命周期,从产生、采集到存储,这和整个链条是有点相似的,从狭义来看,大数据的产业链主要涵盖数据的管理分析、呈现和应用的环节。大数据更加容易成为网络攻击的显著目标,从近两年所发生的一些互联网公司的用户帐号的信息失窃情况来看,大数据当中数据量比较大,它的信息量也比较大,所以黑客更加乐意去攻击,因为相对来说成本是比较低的。

大数据当中加大了隐私泄漏的风险,企业在数据存储和部署的时候,有些时候容易交叉存储,把敏感信息一不小心部署到公开的或者不应该部署到服务器上,更容易加大隐私的泄漏。

大数据数据量比较大,对于现在的存储和目前安全防范措施可能提出新的挑战。同时,大数据分析技术也容易被黑客利用攻击当中去。

大数据可能成为可持续攻击的载体,APT是这两年提的比较多的词,它有一个显著特点:病毒代码非常强大,有些攻击目标病毒很难隐藏其间,对于庞大的大数据来讲,这样的恶意软件隐藏在数据词当中很难被发现。所以说有可能大数据成为高级的可持续APT的攻击载体,这一点可能是需要大家非常注意的。

一位著名的法国哲学家说过:“万变不离其宗。”这句话也可以用来反映2013年信息安全技术趋势的很多方面。现在,一种新的网络安全模式已经就绪。要提供真正的深度防御,采用智能驱动的信息安全模式比以往任何时候都更有必要。这种新模式将涉及多个方面,包括使用大数据分析方式,为来自众多数据源的大量数据提供背景信息,以及时产生可作为行动依据的信息。

篇11

由于数据体量的激增、结构类型的复杂、但数据的低密度价值以及处理速度的提升等新特性的出现,促使人们对大数据进行研究与实践。现阶段,大数据已逐渐渗透到各个行业和业务职能领域。在安防领域中,视频监控以其直观、准确、及时和信息内容丰富而广泛应用于许多场合,在安防系统中的重要性日益突出,海量的视频数据需要得到有效的处理,迫切需要与大数据技术相融合。大数据可以有效促进视频监控业务的发展,推动视频监控业务的展开,两者之间的融合势在必行。

2 大数据

在信息技术中,“大数据”是指一些使用目前现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集。其挑战包括采集、管理、存储、搜索、共享、分析和可视化。大数据技术描述了新一代的技术和架构,使用高速获取、发现和/或分析方法提取的各种各样数据量非常大的数据价值。

3 视频监控数据

在视频监控领域,大数据的特点可用4个V来概括:Volume、Variety、Velocity、Value。

3.1 数据体量巨大(Volume)

高清化带来单个监控点数据量以指数级增长,例如单个1080PIPC30天就会产生2T数据;IP化大联网后,各平台实现互联,平安城市网内摄像头数量达数万数十万级别,其数据量之巨大可想而知。

3.2 数据类型繁多(Variety)

视频监控领域的视频编码格式包括:H.264、MPEG-4、MJPEG等多样化的编码方式。同时随着各类物联网技术融入到视频监控业务,汇聚了包括各种传感器、IT、CT系统产生的多样的数据。

3.3 处理速度快(Velocity)

视频数据随时间快速增长,并以持续顺序到达。随着数据量的增加,哪怕对TB级别的数据进行视频内容的数据分析和检索,采用串行计算模式都可能需要花费数小时的计算,已远远不能胜任时效性的需求。

3.4 价值密度低(Value),效率要求高

在视频监控业务中,价值密度的高低与数据总量的大小成反比。一小时的视频监控内容,可能有用的数据仅仅只有一两秒。

4 视频监控大数据分析架构

结合视频监控业务特点,引入Hadoop的架构,以顶层设计的视角来构建面向大数据的视频监控架构。面向大数据视频监控逻辑架构包括:

4.1 数据源层

包括实时数据和非实时数据。实时数据指IP摄像头和传感器产生的实时流媒体数据。非实时数据是指从DVR、编码器、第三方系统导入的媒体数据。

4.2 大数据存储层

采用HDFS(Hadoop Distributed File System)和HBase(Hadoop Database)实现数据低成本、高可靠的管理。把采集的流视频保存在HDFS集群内,并通过HBase建立访问的索引。把传统NVR和专用存储进行重构,纳入到整体的分布式文件系统中。

4.3 大数据计算层

实现智能分析和数据挖掘。通过MapReduce把对视频的分析进行分解,充分利用闲置资源,把计算任务分配给多台服务器进行并行计算分析;另一方面,根据智能分析产生的视频元数据,通过Hive挖掘视频元数据的价值信息。

4.4 业务及管理层

实现设备和业务管理。基于Zookeeper组成的服务器集群,可以保证业务系统的无故障运营,基于Ganglia实现对摄像头等设备的监管。

基于大数据的视频架构,本质上是把视频数据作为最有价值的资产,以数据作为核心来构建技术架构,重点解决海量的视频数据分散和集中式存储并存、多级分布等问题,极大提升非结构化视频数据读写的效率,为视频监控的快速检索、智能分析提供端到端的解决方案。

5 视频监控数据挖掘技术

视频数据挖掘的目的是建立底层视频数据到高层语义信息之间的映射关系,由于这种映射关系比较复杂,一般采用多层次的信息提取及映射技术来最终实现数据挖掘过程:从底层视频数据中首先提取底层图像特征信息,然后利用目标检测、目标跟踪、特征比对等手段从图像特征中提取元语义信息,最后将元语义信息融合为高层的语义级描述信息。主要采用的视频数据挖掘技术有:视频浓缩与检索技术、视频图像信息数据库等技术。

视频浓缩与检索技术主要是利用图像处理、模式识别、海量数据分类存储以及搜索等技术,对海量的存储录像等原始信息进行分析和挖掘,对于目标特征、目标行为、目标间关联关系这3大类信息内容,形成各种分类的特征信息库、元数据和索引等,并提供统一接口供外部应用进行搜索,以期实现快速关联和定位。

视频图像信息库建设和海量数据的处理、分析、检索,是提高效率的有力手段。通过视频智能分析技术,把海量的视频数据进行浓缩,提取特征摘要,减少存储空间。同时,视频图像信息库针对结构化、半结构化和非结构化数据,通过数据的多个副本分布式保存方式,有效节约存储空间,使系统架构更加稳定和可扩展,并提供安全的负载均衡和容错机制。

6 结束语

随着IT新兴技术的兴起,视频监控进入网络化时代,大数据技术在视频监控领域的广阔发展路径已经显现。如何从海量视频数据中提取有用信息,把大数据技术和视频监控业务相互融合,打造大数据时代的视频监控解决方案,无疑是监控系统各个行业用户都迫切需要解决的问题。

参考文献

[1]陈明.大数据概论[M].北京:科学出版社,2015.

[2]严权锋.移动视频监控系统中的关键技术研究[J].无线电通信技术,2008,34(4):33-35.

作者简介

周英凤(1980-),女。硕士学位。现为井冈山大学电子与信息工程学院讲师。研究方向为嵌入式图像处理等。

篇12

工业化和计算机技术的发展,使制造系统每天产生的数据量不断增加,整个制造业产生的数据量远高于其他行业[1]。面对日益复杂的制造业生产系统,通过保存其运行过程中的中间数据,并对数据进行研究,能够解决当前的系统建模手段无法解决的问题。传统的数据分析方案一般先将数据保存到关系型数据库中,然后借助联机分析、处理等手段为决策提供支持[2]。

当面对制造业的海量数据时,可能会有如下缺陷[3]:

(1)数据来自不同地区的工作站、传感器等,而且数据格式不统一,既有结构化数据,也有非结构化数据,不利于处理;

(2)联机分析处理过程中会有大量的数据移动操作,当数据量达到PB级时,大量数据移动造成的开销变得难以接受。

因此,有必要研究并实现一个能够合并存储异构数据、并且可以完成基于大数据的CIMS数据分析处理的平台。本文将Hadoop大数据技术引入到CIMS海量工业数据的监测和分析中。

二、研究现状

范剑青[4]阐述了大数据独有的特点,说明大数据提供的海量数据给统计、处理以及统计估算和检验带来的问题。Jiang 等人[5]对电子商务网站的大量商品数据进行分析处理,提出了基于Hadoop的协同过滤算法。

Duke能源公司模拟大数据解决方案,使维护专家远程观看设备和记录异常指数,甚至可以及时采取纠正操作,但还不能真正实现大数据分析和处理平台。通用电气(GE)于2013年推出其大数据分析平台,用以将云平台中的工业机器产生的海量数据转化为实时信息,此平台可以认为是第一个能够真正管理工业海量数据的平台,但是难以处理来自多个数据源的数据。美国国家仪器公司和IBM联手推出InfoSphereStreams大数据解决方案,能够以很高的数据吞吐率分析来自多个数据源的信息,但其处理带有一定的数据延时,实时性不佳。

为解决海量数据处理时的实时性问题,本文拟采用开源的Storm流处理技术,并借助类SQL和Piglatin等过程化语言扩展,以实时监控整个大数据平台。

三、大数据技术在CIMS监测与分析平台中的设计

工业应用数据在数据量上远超普通应用,其海量数据存储的要求超过了传统的关系型数据库的存储能力。另外,工业应用数据也由传统的结构化数据扩展到结构化、半结构化以及非结构化数据并存,对这些数据格式以及数据类型都存在不同的工业数据进行采集、分析和处理的方式有别于传统方式,因此需要对监测和分析平台进行设计,从软件结构、通信方式以及数据存储方式等各个方面进行分析。

3.1 CIMS海量数据监测与分析平台的设计

在将大数据技术应用于CIMS海量数据的监测与分析时,海量的工业数据不再存放在传统的关系型数据库,而是存放到HDFS分布式文件系统上。因此,软件结构设计要与Hadoop的HDFS文件系统相对应。

3.1.1 软件结构

本文设计的CIMS海量工业数据监测和分析平台(以下简称“平台”)采用Master-slave主从架构,Hadoop集群的NameNode节点作为监测和分析平台的管理节点,完成数据采集、数据分析等各功能的功能模块是工作节点。管理节点管理整个集群的相关信息,并维护包括节点的主机名、IP地址等机器状态。工作节点可以根据工业应用的需求进行灵活的配置,也可以动态增加或减少。

平台主要分为如下部分[6]:客户端、消息中间件、数据查询模块、数据分析模块、数据采集模块以及Hadoop集群。客户端接收用户请求,向平台发出任务请求;数据采集模块、数据查询模块以及数据分析模块是平台的功能组件,分别提供工业大数据分析流程中的对应功能[7]:数据采集模块对外提供数据的访问接口,其功能是从不同的数据源获取数据,并将这些数据存储到Hadoop的HDFS文件系统上。

数据查询模块从HDFS文件系统中查询数据的存储索引,并返回给数据分析模块;数据分析模块中实现不同的数据分析配置方法,并交由MapReduce框架分布式地实现数据分析任务。

3.1.2 系统功能模块

平台中监测和分析的数据一般都是离散数据,所以选择消息中间件作为通信管理模块,消息中间件实现平台中各个模块间的通信。

以功能节点上线为例,由于管理节点存储了所有节点的状态信息,所以为保证整个集群信息的一致性,功能节点上线时需要先向管理节点注册其信息,管理节点会向消息中间件订阅“注册”这一主题,消息中间件接收到订阅请求后会创建相应的队列,并持续监听此队列的消息情况。消息队列中的消息是以文本格式存在的,本文的消息传递方式采用XML。平台中的操作请求都会发送给任务管理模块,由其解析后,再发送给相应的功能模块执行。

数据采集模块从基于HDFS文件系统的Hbase数据库中获取来自客户端的数据,由于工业数据的采集并发量可能比较大,因此要在采集端部署大量数据库;除此之外,ETL工具负责将异构数据源的数据抽取处理进行数据清洗。Hadoop上的数据分析模块能够完成多维分析,由于MapReduce的具备很强的并行处理能力,因此分析维度的增加并不会使数据分析的开销显著增加,这无疑是传统的数据分析平台所无可比拟的。

3.1.3 数据存储方式

传统的关系型数据库不能很好的支持结构化和半结构化的数据,HDFS分布式文件系统克服了这一缺陷,将非结构化数据和结构化数据都以文件形式存放,实现了廉价而又可靠数据存储。

工业数据可能来自多个不同的数据源,平台借助中间件屏蔽了它们之间的异构性,然后将这些原本异构的数据存储到HDFS文件系统中。这种异构数据存储方式不需要昂贵的存储设备,廉价的服务器即可组成可靠的存储集群;另外,存储集群节点同时还是Hadoop集群的工作节点,提高了数据存储节点的利用率[8]。

四、大数据技术在CIMS监测与分析平台的性能优化

软件工程思想中,不能只设计软件的结构,同时要对软件进行不断优化。平台集中了多个数据来源的数据,因此平台间的数据传递吞吐量比较大;另外,平台各个组件间的网络依赖关系比较复杂,合理分配网络资源对提升平台性能有重要的影响。

系统动力学研究复杂系统的结构、功能以及动态行为模式,可以利用系统动力学的相关原理和方法,对本文设计的平台进行模拟仿真研究。

在进行实际的大数据平台仿真分析时,为搭建Hadoop集群本文配置4台服务器,其中一台作为NameNode,其他服务器作为DataNode。具体的配置信息如表1所示:

系统动力学分析软件系统的基本思路是把与系统相关的网络变量转换为因果图及流图,因果图表征了变量间的相互影响关系,流图说明了变量的反馈积累;然后利用DYNAMO方程描述变量间的关系。因果图反应了平台中的反馈回路的正负极性,表示出系统元素间基本的相互影响关系。

基于以上分析,对本文设计的平台进行系统动力学分析如下:由于平台是一个非线性时变系统,影响其性能的因素不仅包括管理节点、消息中间件、Hadoop集群等,还包含网络带宽、服务器配置等客观因素。根据系统建模目的,可以知道系统边界应该包括如下因素:用户请求数目、数据采集模块采集到的输入数据、消息中间件队列中的消息数量、消息中间件路由消息的延迟、Hadoop集群的性能等。

平台的系统边界确定后,接下来需要分析系统边界内的元素间的影响关系,以及它们之间是否有因果关系。经分析可知,用户请求的增加会导致消息中间件队列中的消息增加,而消息中间件路由消息的延迟降低会降低系统中消息传递的整体时延。

消息中间件的工作性能和系统各个模块的工作时延组成正反馈回路,说明消息中间件和系统模块是正相关的,所以平台整体性能的提升依赖于消息中间件和系统模块的合理资源配置。

消息中间件的各种配置参数,比如响应速度、吞吐量等参数对提升平台的分析性能影响很大,在优化消息中间件的各种参数后,比较本文设计的基于大数据的数据分析平台和传统的工业数据平台的性能,在同时对PB级别的工业数据进行分析时,当CPU数目相同时,响应速度的结果如表2所示:

对于不同的数据级别,两种大数据平台的处理效果如表3所示:

由结果可知,在处理相同的数据量时,在响应速度的性能上,本文设计的工业数据分析平台要优于传统的数据分析平台。

当处理不同的数据量时,随着数据量的增加,传统的大数据处理平台的处理时间也呈现显著增加,而本文设计的大数据处理平台处理时间是线性的,明显优于传统大数据处理平台。

五、总结与展望

本文首先介绍了Hadoop大数据技术,分析了其HDFS文件系统和MapReduce计算框架;

接下来对基于大数据技术的CIMS海量工业数据监测和分析平台进行设计,从软件结构、通信方式以及数据存储方式等各个方面进行了分析。最后利用系统动力学的原理,对影响平台性能的因素进行了研究。

与Duke能源公司模拟的大数据解决方案相比,本文设计的平台已经能够采集、分析并处理海量数据,真正意义上在工业领域引入了大数据技术;而且此平台还能够处理来自多个数据源的数据,比通用电气的大数据分析平台具备一定的优势。

参 考 文 献

[1] 韩燕波,赵卓峰.面向大规模感知数据的实时数据流处理方法及关键技术[J].计算机集成制造系统.2013,19(3):641-653.

[2] 邓华锋,刘云生,肖迎元. 分布式数据流处理系统的动态负载平衡技术[J]. 计算机科学. 2007(07)

[3] 胡茂胜.基于数据中心模式的分布式异构空间数据无缝集成技术研究[D].武汉:中国地质大学,2012.

[4] 杨林青,李湛,牟雁超等.面向大规模数据集的并行化Top-k Skyline查询算法[J].计算机科学与探索.2014, 12(26).

[5] J.Jiang, J. Lu, G. Zhang, and G. Long. Scaling-up item-based collaborative filtering recommendation algorithm based on hadoop. SERVICES, pp. 490 -497, 2011.

篇13

BI是过程不是产品

地处中西部并不发达的山西省,山西移动却成为国内第一家构建BI系统的电信运营商。谈起当时系统建设的出发点,王峰认为,这还是基于公司对数据、数据分析和数据挖掘的重要性有着充分的认识。山西移动在信息化建设的过程中,并不看重经验,看重的是数据的价值,这也成就了公司在决策层面的领先。

对于当初系统建设的难点,王峰认为,一个纯硬件平台或软件系统的搭建,不是很困难;困难的是,系统建设完成之后要有效地推动业务。与业务运营支撑系统和客服系统建设完成就必须使用的产品特性不同,经营分析系统更像推动业务转化的一个过程,而不是一个建设好就必须使用的产品。正因为如此,经营分析系统并不处于必要的业务流程之内,业务人员可以用也可以不用。这就使系统的推广并不是一件简单的事情。

在经营分析系统部署初期,移动通信市场正处于一个爆炸式发展的时期,市场蛋糕以几何级数增大,这使得经营分析系统的作用并不是那么明显。为此,山西移动甚至整个移动集团内部在2002年到2004年有很多关于经营分析系统的培训,目的就是推动系统在业务中的使用。

而现在的电信领域,已经不是十年前那个迅速膨大的市场蛋糕了,各种移动通信标准的竞争、运营商和终端生产商的联合使得竞争不断加剧。以前,即使没有决策和营销,市场也会发展起来,系统可以查验数据就可以了。而近些年来的制度改革特别是去年3G牌照的发放,使得产品和营销策略的制定越来越需要精细化。在如此激烈的竞争环境下,BI系统支撑业务发展、进行营销、引导决策的重要作用就凸现了出来。王峰举了一个例子:以前移动运营商可以捆绑销售来电显示服务,现在是不被允许的。这时就需要系统根据大量数据通过复杂的运算发现不同的用户需要来电显示服务的概率有多大,然后再对目标用户进行服务推送。精确化的用户和服务匹配,比广撒网式的广告营销效果要好得多,有效地节约了成本。

大数据分析要更精细化

对大数据时代的到来,用户数量众多的电信运营商感觉尤为深刻。山西移动每天流入经营分析系统的数据量大约为300GB,庞大的数据量带来了巨大的潜在价值和决策能力。

对于大数据时代的数据分析,王峰认为,山西移动的片区精细化管理就已经体现了大数据分析的特性。面对北京媒体,王峰以北京为例来说明片区管理的大数据特性。片区管理是地理纬度上的客户分块,例如北京包括东城区、西城区、海淀区等。而每个区又可以向下细分,比如西城区可以细化到金融街区,最后细化到移动基站的一个扇面区域。如果一个用户在昌平入网,却经常在金融街区通话,就要把用户定位成一个金融街用户。每一个细化的片区由一个片区经理管辖,金融街的片区经理就要对定义成金融街的客户进行服务,例如问候短信或新产品通知。片区经理不仅要对现有客户进行服务,还要对潜在客户进行挖掘。山西移动要求片区经理对自己管辖区域内的每一栋写字楼的每一家企业进行记录并录入片区化支持系统。根据掌握的多种数据,对用户进行精细化分类和深度挖掘,进而进行相关的营销活动,这种线上线下的共同合作,体现的正是大数据分析的特点。

片区化支持系统由Teradata公司协助山西移动搭建,目前已经完成了两期。该系统以一年前Teradata提出的地理空间解决方案为基础架构。Teradata的CTO宝立明介绍说,地理空间解决方案并非专门为电信运营商打造的技术,只是由于电信运营商的用户可以通过手机定位其所处的位置,这一优势使电信运营商成为地理空间解决方案的第一批用户。而山西移动又是这一批用户中的领先者。

山西移动的经营分析系统作用于营销层面主要包含两个核心应用。一个是核心客户保有。核心客户是指用户UP值贡献高、漫游行为较多,有重要影响的高价值客户。如果某个核心客户在一段时间内的主叫时长出现了显著的下降,统计分析部就会在核心客户保有的应用上发现这个用户,认定该核心客户有发展为普通客户的可能,并且把与之相关的客户明细提供给相关的市场营销部门,由营销部门对其实施保有措施。另一个应用是离网用户关怀,与核心客户保有应用相比,该应用是更针对离网客户的预警。

对于海量数据的保有,山西移动的策略是数据与应用同在。一个应用上线有自己的生命周期,应用由哪个部门提出、应用的主要功能、开发人员、何时上线、预计使用期限等信息都会被记录在生命周期管理系统中。当应用达到使用期限,根据实际效果如果没有必要进行生命周期的延长,应用下线时就将相关的数据评估为无效,进行清理。

在经营分析系统上线的近十年时间中,山西移动的数据分析和决策进程正变得越来越科学。虽然在外部用户层面,客户很难感知到经营分析系统的存在,但山西移动正通过它进行着各种各样的营销活动,从而为用户提供更精确的服务。而在山西移动内部,经营分析系统的内部客户对数据的满意度得到了非常大的提升,管理层和业务部门在决策上获得了更好的支撑。

未来属于将数据转化为产品的公司。作为电信运营商,山西移动有着先天的优势可以掌握海量的有效数据。面对大数据时代的来临,多角度深层次的数据分析也正在成为山西移动统计分析部门支持决策的重要手段。

链接

Teradata通过收购应对大数据分析