引论:我们为您整理了1篇数据存储技术论文范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。
数据存储技术论文:局域网数据存储技术分析论文
1.局域网安全存储模型浅析
基于当前工业环境中对于局域网数据存储安全的需求,内网海量文件数据存储原型系统(MFDSS)在局域网环境中得到了广泛应用。其逻辑结构参见图1。在MFDSS系统环境中,各个组件通过网络实现联系,构成逻辑层面共同工作的整体。其中客户端直接与用户保持沟通,负责维护用户存储视图,并且用户面向应用服务器实现请求和响应的传输。并且在获取到服务器授权的前提下,支持客户端与基于iSCSI的存储设备SD之间实现直接通信。而应用服务器从逻辑上位于中介位置,需要负责与客户端保持沟通,并且面向客户提供统一的存储视图,同时还需要与SD保持沟通,实现对于主机认证以及设备操作认证的控制,并且实现文件到对象的映射转换。而在MFDSS体系中,元数据是重要的概念,具体分为系统元数据、内容元数据和存储元数据三种,对应的元数据服务器则关注元数据管理的相关工作,并且实现元数据在存储对象上的映射索引,同时支持从逻辑层面上对于多个SD设备的管理。这样的文件存储体系,相对于传统文件体系而言有着十分显著的工作特征。传统文件存储体系中,元数据通常由文件服务器实现维护,因此每次对数据访问的相关操作都需要获取元数据,因此在访问请求频繁发起的时候,承担元数据相关操作的设备就必须同时面对多个请求,对应的形成资源瓶颈的可能性也相对较大。对应的无序访问进一步加剧整个系统存储环境安全隐患的产生。而在MFDSS系统中,每次操作只有一次对于元数据的访问请求,并且进一步由专门的SD存储设备和应用服务器来共同实现对于整个存储访问过程的管理,因此在元数据的操作方面实现了有效的降低和控制,从而增强了整个系统的弹性,在安全水平方面也有所改进。
2.MFDSS体系得到实现的基础
还可以进一步加强多协议文件系统(MPSFS)的建设。MPSFS系统从性能角度看,保留了分布式文件系统本身的灵活性优势,并且在并发访问管理以及安全性方面都有很大改善。从技术角度看,MPSFS系统除了提供文件的存取接口以外,更为重要的在于采用存储卷实现存储。存储卷中包括文件目录结构以及其固有的存储模式,对应的进一步包括元数据结构、操作接口、功能函数集以及对于空间的利用优化算法和数据结构。在MPSFS工作环境之下,能够实现面向不同的用户区分提供不同的存储访问视图,因此在油田工作环境中,能够更好地实现与权限身份控制更好的数据管理机制。除此以外,MPSFS还能够实现更为完善的用户身份认证,具体是通过相应的专用认证服务器,来依据内部的多个证书文件来实现对于身份的确定。
3.结论
在面对局域网数据存储安全的客观需求时,诸多技术开始涌现并且不断发展成熟。在MFDSS框架体系之下,包括MPSFS等多种相关技术,并且在集成完成之后,整个技术框架会呈现出良好的安全特征。与之对应的,读写性能会受到一定的制约,估计下降幅度会在12%-18%之间,但是以这样的一个效率换取整个系统的数据存储安全,仍然是一个可以接受的环境。并且如果进一步展开基于数据挖掘等相关技术的深入应用,这样的下降状况还会有所缩减,将整个系统的安全性和可用性控制在一个相对良好的范围内展开工作。
作者:赵鑫鑫 单位:大庆油田信息技术公司东风分公司
数据存储技术论文:数据存储安全技术分析
摘要:在云计算日益发达的今天,为方便企业运行,企业的运行数据通常放入云平台。通过云端共享,可以将公司内部数据传递给职员,方便快捷的操作方式,让越来越多的用户使用云平台存储数据,因此,如何保障信息的安全性是用户们广泛关注的问题。笔者首先讨论了云平台数据的数据存储结构,然后分析了目前的云存储安全类型,并且介绍了云存储数据安全技术,为广大研究者提供理论依据。
关键词:云存储;数据安全;安全技术
各行各业的经营数据都在不断变化,如何完整保存和传输企业的数据,满足企业的需求,是广大研究员在研究数据技术时面临的重要挑战。云数据存储方便员工共享企业资讯和资源,替代了传统的数据保存模式,更能辅助员工移动办公,数据保护安全技术应运而生,降低数据泄漏风险。如果企业数据泄漏,可能会对公司造成巨大损失,从而影响公司的发展。所以研究云数据存储模式以及数据保护技术,可以提高企业数据存储的安全性,保护公司的无形资产。
1云数据存储结构
云数据存储结构包含了云服务器、用户和第三方。在这种三角形结构中,用户主要是将个人数据及公司数据通过云服务器上传并进行存储,一方面能够节省自己的计算机存储空间,另外一方面可以将资源共享给其他的同事,让其他人也可以查询和下载数据,第三方只对云存储数据起到监管作用。
2云平台数据存储安全类型
2.1存储安全性
云存储数据平台存储了大量的客户信息以及公司的运营数据,是黑客和不法人员攻击的主要对象。云服务器的安全性至关重要,要加强管理,并且要制订安全防护方案,建立严格的数据存储安全制度体系,加强数据检测巡逻,保障数据存储的安全性。
2.2操作安全性
由于云存储下的数据可以被多方用户同时共享,其数据从生成到删除会被许多用户访问,数据的生成或者更改都会出现操作安全问题,一方面是人为的隐患,另外一方面是由于云数据存储系统发生问题而造成的隐患,后者的隐患较小。当用户操作数据后,数据将会更改并且同步更新,如果用户出现操作错误,则更新后的数据无法再恢复,所以应谨慎操作。另外,数据传输易出现数据损坏以及泄漏现象,数据在传输的过程中,易被非法人员篡改或窃取等,应提高数据的传输安全性。
2.3访问安全性
云存储数据可以被多个客户访问,用户通过用户名和密码进入云系统访问数据,具有数据访问的安全性。访问用户是否合法,应受到系统的监测,查询和鉴定其身份信息。
3云平台下数据存储安全技术分类
3.1同态加密技术
要保障云平台下的数据存储安全,就必须同步研究数据的加密存储技术,该技术的研究情况符合我国的云技术发展趋势,是运用最广泛的存储技术。同态加密技术属于加密技术,首先在系统中设置加密代码和防护代码,用户在输入密码时,系统会自动进行代数运算,根据运算结果,判定用户是否为合法用户。这种云计算方式,保障了用户数据的安全性。同态加密技术由私密加密技术发展而来,设置同态加密,必须要在了解解密技术的基础上才能实现。同态加密技术能够解决大部分加密存储问题,保障数据文件的安全性,然而这其中依旧存在耗时耗力、欠缺计算方法等相关问题,还需不断调整、优化、升级,以获得更好的用户体验。
3.2SE加密技术
用户在存储数据之前,应先对数据进行加密操作,这样才能够较大限度保障数据的安全性、隐私性,然而会出现查询难度加大的问题。如果云平台中存储的相关数据,其初始用户对其进行了加密,初始用户没有将密码告诉共享用户,则共享用户即使下载了数据,也无法打开数据包。如果初始用户不设置密码,那么数据会面临泄漏的危险。云数据加密存储技术是建立在加密存储技术之上的一种新型技术,简称为SE。SE技术方法不仅可以对数据进行加密,还能够在数据有密匙的情况下,查询数据包中的数据名称及类型,只是不能打开数据文件。云平台存储的数据具有共享性质,任何用户在使用云平台时,都可以在搜索框中输入相关的关键词,检索到该关键词相关的文件,筛选获得有用的数据信息。根据初始用户的设置,有的数据可以下载,数据是否能够打开,要看数据是否在加密状态。云平台的数据查询功能,严格要求关键词不能出错,根据关键词的相关性,云平台的数据会自动对查询出的数据文件进行排列。这种搜索方式也会导致用户如果要确定数据文件和其查询的关键词的关联性,必须返回上层文件夹。很多文件的子文件和母文件相关性并不大,需要用户进入数据文件查询此文件的名字,才能确定该数据文件对自己是否有用。SE加密方法的优势是可以筛选有用的文件,缺点是会增加网络的流量。
3.3SiRiUS加解密技术
加解密技术分类较多,主要包含Ptutus加密技术、多重加密技术、密匙加密技术、SiRiUS加密技术等。较为特殊的SiRiUS系统,建立在NFS文件系统基础上,多重加密保障数据的安全传输。当用户访问数据时,SiRiUS系统进行严格控制,每一个文件对应一个元文件,这些文件隐藏于文件访问的控制列表中。后来SiRiUS系统不断升级,近期的加密算法是NNL广播,其算法更加复杂,严格控制用户访问权限,虽然提高了数据传输的安全性,但是由于过于复杂,也限制了系统的扩展及发展。
3.4基于VMM的数据保护技术
在虚拟化平台上可以进行虚拟机的工作。虚拟机工作建立在云计算的基础上,同时受到监控系统监管。基于VMM的数据保护技术的作用原理建立在SSL技术的基础上,一方面利用虚拟监控系统,使用Daoti保护数据的存储安全;另外一方面,SSL技术能够保护数据的传输安全。其具体的作用过程中,云端接收到数据,数据传入SSL模块,加密数据,然后存储数据,与此同时,会有备份数据提交到用户设定的相关系统中,并且也会提交给分布式文件系统。如果对数据进行了解密操作,则数据应再次加密,其加密系统依旧是虚拟监控系统。而如果数据已加密并且保存在分布式文件系统中,用户从系统中获取数据之前,应使用虚拟机对文件先行解密,否则数据无法使用。该技术较大的特点在于云计算端和分布式文件系统相互隔离、独自分开,所有的数据互不相通,除非用户单独上传,数据才会同时在两个系统中出现,因此,增强了数据安全性。在这种情况下,数据得到二次保护,当非法者从云端窃取到数据后,数据依旧是加密状态。除非非法者还能从分布式文件系统中窃取到数据,否则数据无法使用,保障数据存储的安全性。
4结语
云平台下数据存储模式被广大企业应用。如果企业数据在云存储系统中泄漏,数据安全性遭到威胁,则云计算技术将难以得到更好的发展。我国不仅要发展云计算技术,而且要同步发展云计算数据的安全性技术,提高数据存储访问传输的安全性,推动云计算技术的发展,我国有关部门还应完善法律法规,明文制定相关的技术标准,从而保障云技术的发展。
作者:卢青华 单位:广州大学华软软件学院
数据存储技术论文:基于网络数据存储技术实现的研究
摘要:随着网络应用的普及和商用化,多业务、多网络的融合已经成为不可逆转的趋势。人们进行信息的交流和共享越来越方便,同时数据的大规模毁灭也变得容易了。数据是现代企事业最宝贵的生命,数据是一切灾难发生后恢复系统的一道防线。因此需要正确选择相应的储存技术方式,进行经济而的数据存储,从而避免可能发生的重大损失。DAS、NAS和SAN的存储方式的实现值得研究。
关键词:数据存储;网上储存;DAS存储;NAS存储;SAN存储
1 引言
在网络飞速发展的今天,选择一种适合需求的高性能数据存储方式变得十分重要。如何确保数据的一致性、安全性和性,如何实现不同主机类型的数据访问和保护,如何实现网络上的数据集中访问以及便于实现不同数据的集中管理等,这些问题必须需要新网络储存技术来实现。数据灾难小到一般的文件损坏、误操作,大到整个网络系统因病毒入侵、黑客攻击而瘫痪。因此,企事业单位必须有一套正确的数据存储和恢复系统方案。现代网络存储技术主要利用网络技术实现信息的异地储存,即电子数据不再直接储存在本地服务器上,而是通过网络保存在与服务器相连的专门设备上。当前流行的几种主要存储技术:DAS(Direct Attached Storage)、SAN(Network Attached Storage)、NAS(Store area Network)等。这些网络储存方式特点各异,均可应用在不同的领域上。
2 DAS存储技术
DAS是指将储存设备通过SCSI接口或光纤通道直接连接到一台计算机上。当服务器在地理上比较分散、很难通过远程连接进行互联时,直接连接是一个比较好的方法。DAS已经有近40年的使用历史,是目前最常用的网络储存设备。但是随着用户数据的不断增长,尤其是数百GB以上时,其在存储、恢复、扩展、灾害等方面的问题变得日益困扰着系统管理员。主要原因如下:
(1)DAS储存方式
DAS依赖服务器主机操作系统进行数据的I/O读写和存储维护管理,数据设备和恢复要占用服务器主机资源(包括CPU、系统I/O等),数据流需要流回主机再到服务器连接着的磁带机(库),数据存储占用服务器主机资源的20~30%,因此许多企事业单位的用户日常数据存储常常在深夜或业务系统不繁忙时进行,以免影响正常业务系统的运行。DAS储存的数据量越大,存储和恢复的时间就会越长,对服务器硬件的依赖性和影响力就越强。
(2)DAS的SCSI连接
DAS与服务器主机之间的连接通道是采用SCSI连接的,带宽为10Mbps、20Mbps、40Mbps、80Mbps等。随着服务器CPU的处理能力越来越强,存储硬盘空间越来越大,阵列的硬盘数量越来越多,SCSI通道将会成为I/O瓶颈;服务器主机SCSI ID资源有限,能够建立的SCSI通道连接也有限。
(3)DAS的限制
无论DAS储存还是服务器的扩展,从一台服务器扩展为多台服务器组成的集群或储存阵列容量的扩展,都会造成业务系统的停机,从而给企事业单位带来经济损失。对于银行、电信、传媒等行业7×24小时服务的关键业务系统,这是不可接受的。并且DAS储存或服务器主机的升级扩展,只能原厂商提供,因此受到设备厂商限制。
3 NAS储存技术
NAS采用(TCP/IP、ATM、FDDI)技术,将一种分布、独立的数据整合为集中化管理的中心,通过网络交换机连接存储系统和服务器主机,建立专用于数据存储的储存专网。如下图所示:
(1)NAS储存的性能
NAS实际上是一个带有操作系统的储存设备,其作用类似于一个专用的文件服务器。这种专用储存设备具有可附加大容量的存储,内嵌操作系统,专门针对文件系统进行重新设计和优化,以提供高效率的文件服务等特点。NAS的关键特性如下:
一是去掉了通用服务器不适用于数据传输的大多数计算功能,而仅仅提供文件系统功能用于存储服务,降低了储存设备的成本。为方便存储到网络之间以最有效的方式发送数据,专门优化了系统软硬件体系结构,多线程、多任务的网络操作系统内核,特别适合于处理来自网络的I/O请求,不仅响应速度快,而且数据传输速率也高;二是它的模式以网络为中心,利用现有的以太网资源来接入专用的网络储存设备,而不是另外再部署光纤交换机来连接传统的储存设备。
(2)NAS技术性能
NAS需求旺盛已经成为事实。主要有如下优点:
一是为那些访问和共享大量文件系统数据的企事业单位环境提供了一个高效、性能优异的解决方案;二是在企事业单位数据量膨胀中,SAN、大型磁带库、硬盘柜等产品虽然都是很好的储存解决方案,但它们那高贵的身份和复杂的操作是资金和技术实力有限的中小企事业单位无论如何也不能接受的,因此,NAS正是满足这种需求的产品;三是适合于那些需要通过网络将文件数据传送到多台客户机上的用户,非常易于部署,可以使用NAS主机、客户机和其他设备广泛分布在整个企事业的网络环境中。
4 SAN储存技术
SAN是指在网络服务器群的后端,采用光纤通道技术,通过光纤通道交换机连接储存阵列和服务器主机,建立专用于区域网络的存储。SAN经过十多年的发展,已经相当成熟,成为企事业单位的事实标准。SAN储存采用的带宽从100Mbps、200Mbps,发展到目前的1Gbpd、2Gbps。如下图所示。
(1)SAN储存性能
SAN作为网络基础设施,是为了提供灵活、高性能和高扩展的存储环境而设计的。SAN的关键性能如下:
一是它不同于通常所说的网络,为连接服务器、磁盘阵列、磁带库等储存设备而建立的高性能网络;二是提供了良好的存储连接,服务器可以访问存储区域网上的任何储存设备,如磁带、磁盘阵列,同时储存设备之间、储存设备同SAN交换机之间也可以进行通信;三是独立服务器网络的一种专门的网络,这种网络通过采用光纤通道协议来传输数据,在连接上可以使用光纤和铜缆;四是特别适合于服务器集群、灾难恢复等数据量传输的关键领域,而且这种连接是本地的高速连接;五是采用光纤连接的技术,从而保障了巨大的数据传输带宽(100Mbps),对于所有的应用都可以很好地满足。
(2)SAN的性能
面对迅速增长的数据存储需求,大型企事业单位和服务提供商渐渐开始选择SAN作为网络基础设施,因为SAN有如下优点:一是可提供大容量储存设备数据共享;二是实现调整计算机与高速储存设备的高速互联;三是提高了数据的性、安全性和开放性;四是具有出色的扩展性,利用光纤通道技术,可以有效地传输数据块。
5 结束语
DAS、SAN和NAS之间的区别正在变得模糊,所有的网络存储技术在用户的存储需求下接受挑战,SAN与NAS都是为适应高性能和密集的网络储存要求而在DAS的基础上发展起来的,是新型数据储存模式中的两个主要发展方向。
在IT数据储存和共享系统方面,传统B/S的计算机模式将会演化成具有任意连接性的全球网络存储系统。网络存储技术的未来发展:一是走向开放化和标准化;二是NAS、SAN技术逐步取代DAS技术;三是虚拟储存技术逐步兴起;四是储存技术走向IP化等方面的趋势。
数据存储技术论文:基于RAID技术实现网络数据存储的研究
摘要:随着Internet技术飞速发展,人们进行信息的交流和共享越来越方便,同时数据的大规模毁灭也变得容易了。如何确保数据的一致性、安全性和性,如何实现不同数据的集中管理,如何实现网络上的数据集中访问等,这些问题必须需要新网络存储技术确立。用RAID技术的方式,实现网络数据存储来完成上述提出问题的选择值得研究。
关键词:RAID;数据存储;数据备份;磁盘阵列
1 引言
在网络飞速发展的今天,选择一种适合需求的高性能数据存储方式变得十分重要。在一些企事业中,即使是网络管理员,数据存储的观念也尚未被普遍接受。能够正确选择相应的储存设备和技术。进行经济而的数据存储与恢复,从而避免可能发生的重大损失。因此,企事业必须有一套正确的数据存储与恢复系统的方案。RAID(Redun-dant Array of Inexpensive Disks)技术就是网络数据存储的一种较佳选择方案。
RAID网络存储技术主要利用网络技术实现信息的异地储存,即电子数据不再直接存储在本地客户端上,而是储存在远端的服务器上。并且还可以通过网络保存在与远端服务器相连的专门设备上。由于RAID存储技术的方式很多,在具体实现上还需进一步的研究。
2 RAID存储技术
RAID是指廉价(独立)磁盘阵列,所谓“磁盘阵列”是指多张磁盘连成一个阵列上,然后,以某种方式书写磁盘,这种方式可以在一张或多张磁盘组之间提供数据。
从主机的角度看,控制器使得整个磁盘组就像一片又快、又大、又的虚拟磁盘。它的初衷主要是为大型网络服务器提供高端的存储功能和冗余的数据安全,在系统中RAID被看作是一个逻辑分区。但它是由多个硬盘组成的,通过在多个硬盘上同时储存和读取数据来大幅度提高存储系统的数据吞吐量,而且在很多RAID模式中都有较为完备的、相互校验与恢复的措施,甚至是直接相互的镜像存储。当数据灾难发生时可以自动修复,从而大大提高了RAID系统的容错度,稳定了系统的冗余性。
3 RAID技术规范
RAID技术是一种工业标准,通常将组成磁盘阵列的不同方式分为RAID级别。随着RAID技术的不断发展,现在已拥有了以RAID 0到RAID 6七种基本的级别。另外,还有一些基本RAID级别的组合形式,如RAID 10、RAID 50等。现将RAID级别在应用中的实现作进一步的研究。
(1)RAID 0:是连续以位或字节为单位分割数据,并行读写于多个磁盘上,因此具有很高的数据传输速率,但它没有数据冗余。它只是单纯地提高性能,而且其中的一个磁盘失效将影响到所有数据。因此,它不能应用于数据安全性高的场合。
(2)RAID 1:通常被称为RAID镜像,是通过磁盘数据镜像实现数据冗余,在成对的独立磁盘上产生互为备份的数据。即所有数据都进行百分之百的备份。当原始数据繁忙时,可直接从镜像磁盘上读写,而不需要重组失效数据。
(3)RAID 0+1:也称为RAID 1 O标准,至少需要4块硬盘才可以实现,不过它综合了RAID 0和RAID 1的特点,将独立磁盘配置成RAID 0,两套完整的RAID 0互换镜像。但构建RAID 0+1阵列的成本投入大,数据空间利用率只有50%。
(4)RAID 2:是按位分配数据到多个驱动器的,在写入数据时一个磁盘上保存数据的各个位,同时把一个数据不同的位运算到海明校验码保存在另一组磁盘上,在数据发生错误的情况下将错误校正。这种编码技术需要多个磁盘存放检查及恢复信息,使得RAID 2技术实施更复杂、速度最慢,因此在商业环境中很少使用,最适合用于诸如图像之类的应用。
(5)RAID 3:通常是按字节将数据划分为条纹分配在许多驱动器上,虽然也可按位划分,但它在阵列时专用一个驱动器保存奇偶校验信息,因此它同RAID 2非常类似,区别在于它使用简单的奇偶校验,并用单块磁盘存放奇偶校验信息。如果一块磁盘失效,奇偶盘及其他数据盘可以重新产生数据;如果奇偶校验失效,则不影响数据使用,但奇偶盘会成为写操作的瓶颈。
(6)RAID 4:除了按扇区而不是按字节对数据划分条纹外,RAID 4与RAID 3相似。同样也将数据条块化并分布于不同的磁盘上,但条块单位为块或记录。它使用一块磁盘作为奇偶校验盘,这时奇偶校验盘会成为写操作的瓶颈,因此它在商业环境中也很少使用。
(7)RAID 5:是把数据和相对应的奇偶校验信息存储到组成RAID5的各个磁盘上,并且奇偶校验信息和相对应的数据分别存储在不同磁盘上。它使用一种特殊算法,可以计算出任何一个区域校验块的存储位置。这样就可以确保对校验块的任何读写操作都会在所有RAID磁盘中进行均衡,从而消除产生瓶颈的可能。它读出效率很高,写入效率一般,块式的集体访问效率较佳,但控制器的设计也相当困难。
(8)RAID 6:与RAID 5相比,它增加了第二个独立的奇偶校验信息块。两个独立的奇偶校验系统使用不同的算法,数据的性非常高,即使两块磁盘同时失效也不会影响数据的使用。相对于RAID 5有更大的写“损失”,因此“写性能”非常差。
(g)RAID 7:这是一种新RAID标准,其自身带有智能化实时操作系统和用于存储管理的软件工具,可独立于主机运行,不占用主机CPU资源。它采用优化的高速数据传送磁盘结构,所有的I/O传送均是同步进行的。可以分别控制,这样提高了系统的并行性和系统访问数据的速度;每个磁盘都带有高速缓冲存储器,实时操作系统可以使用任何操作芯片,达到不同实时系统需要。当多用户访问系统时,可以连续多台主机,访问时间几乎接近于零。
4 RAID级别间的关系
RAID0~5级的描述、速度与容错功能如下表所示:
5 RAID技术的特点
从RAID级别的发展与应用,归纳起来主要有如下特点:
(1)RAID控制器通过磁盘阵列的并行数据读写,克服了磁盘机电设计的限制,大大提高了存取速度。即如果是由四张磁盘组成的阵列,其读写速度几乎是单盘的四倍,从而为不同的应用服务。
(2)RAID系统提供了大容量的数据存储,而且这张磁盘上的数据对于主机来说随时可用。复杂的RAID系统可允许用户通过控制器发的数据途径组成多盘级连。在一个充分设置的RAID中,它的高性能控制器可同时进行90张盘的寻址操作。
(3)RAID系统运用奇偶校验技术提高数据的性。在这种体系中,当RAID控制器在磁盘上写数据时,它还会记录下相应的奇偶校验位冗余数据。如果盘片失效,这个奇偶信息可使RAID控制器在不降低性能的情况下重新计算丢失的信息。
6 结束语
RAID技术可以通过软件或硬件实现。软件实现RAID需要一些网络操作系统的支持,可以使用标准的SCSI适配卡和管理驱动器来完成。由于是操作系统下实现RAID技术,因此软件RAID不能保护系统盘。并且当系统崩溃需要重新安装时,RAID信息也会丢失;硬件RAID是采用集成的阵列卡或专用的阵列卡来控制硬盘驱动器的。这样可以极大地节省服务器系统CPU和操作的资源,从而使网络服务器的性能获得很大的提高。RAID控制器与主系统之间有连接存取接口(如SCSI、IDE和SATA)的信道。在主机系统的存取接口中是一个独立的直接存取储存体,并且可以有不止一个逻辑盘卡,都支持在线更换、热插拔交换,同时在部分操作系统下实现软件监控和管理。因此,依据企事业的实际,实现RAID技术的数据储存。
数据存储技术论文:基于层次型报表的数据存储技术研究
摘要:数据模型常见有层次、网状和关系三种模型,结合《某市农业信息系统》的设计中遇到的层次型报表,该文研究了将层次型模型转化为关系模型的三种方法,最终提出了基于树型存储法的字典目录法数据存储技术,利用该技术实现了系统的成功开发,证明了字典目录法有效性。
关键词:数据模型;层次型报表;存储技术
1 数据模型
数据库是信息系统的核心和基础。它把信息系统中的大量数据按照一定的模型组织起来,提供存储、维护、检索数据的功能,是信息系统可以方便、及时、从数据库中获取所需的信息。一个信息系统的各个部分能否紧密的结合在一起以及如何结合,关键在数据库。因此必须对数据库进行合理设计[1]。
1.1 常见数据模型
在数据库系统中,主要的数据模型有[2]:层次模型(Hierarchical Model)、网状模型(Network Model)和关系模型(Relational Model)。其中,应用最广泛的当属关系模型。
1.1.1 层次模型
层次模型:用树型(层次)结构表示实体类型及实体之间联系的数据模型称为层次模型。如图1。层次结构是一棵树,树的结点是记录类型,非根结点有且只有一个父结点。上一层记录类型和下一层记录类型的联系是1:M联系。
1.1.2 网状模型
网状模型:用从结构(网络结构)表示实体类型及实体间联系的数据模型称为网状模型。如图2。记录之间的联系通过指针实现,M:N联系容易实现(一个M:N联系可拆成两个1:M联系),查询效率高。
1.1.3 关系模型
用规范化了的二维表格结构表示实体集,用键表示实体间联系。通常是若干个关系模型组成的集合。如表1所示。
1.2 项目中数据报表
作者负责开发的《某市农业基础信息系统》中,提供的基础信息为如表2。本文为了简要说明问题,仅以表2中部分信息为例,展开对层次型数据的存储与检索的讨论。表中其他同结构信息和系统中涉及到的其它12张,以及其基于此基础信息的统计表实现方法雷同。
对该表中数据进行构造,吻合层次型数据模型。在传统的项目开发中经常遇到的多是如二维表结构的模型,即便是其它例如层次模型、网状模型均可以通过描述实体关系的E-R图转换为关系模型。
2 项目介绍
为了实现某市农业局农业基础信息的积累,便于政府决策人员获取农村基层涉及基础设施、文化、卫生、福利情况、养殖业、种植业、专业村、经济收益分配、农民负担、村集体经济组织收益分配、村级资产负债等信息统计,根据历史信息,获取农业发展规律,为政府管理人员提供决策依据,也便于随时随地了解该局下属各级行政单位县、乡、村的基本信息。保障了信息传递的畅通性,真实性和公正性。
2.1 项目功能
2.1.1县、乡、村类别的行政单位基础信息网上录入
2.1.1 村级农经基础信息的逐年录入
在每一年度,作为最小的基层单位,需要将本单位涉及到农村基本情况表:基础设施、文化、卫生、福利情况、养殖业、种植业、专业村、经济收益分配、农民负担、村集体经济组织收益分配、村级资产负债等信息统计,并录入相应的报表中,要求数据录入简捷,操作方便。
2.1.2 乡,县,市年度统计信息
依据下属逐年基础信息的上报经审核后由村乡县市四个级别的自动生成统计信息。上级部门仅有审核权限,没有修改权限。保障了信息的真实性。
2.1.2 信息检索
由不同行政级别的决策者查阅信息:年度基础值、年度统计值、若干年指标平均值、按指标排名等。
2.1.3 信息打印
对于检索的信息的在线打印,便于决策者查询与参考。保障在网络和电脑之外的其他传统存储介质的使用,尤其在不能上网的情况下,照样能随时查阅农村资料。
2.1.4 信息备份和恢复
信息备份和恢复:对于存储的基础信息,为了安全起见,能导出到其它存储空间。一旦出现意外,数据不会丢失。保障了信息的安全性。
2.2 关键技术
2.2.1 数据存储
数据的存储是开发的基石,但是表1是一个不规则的层次型表格。对于如此复杂结构的报表想要通过关系之间转换, 以及如何选择数据库进行存储、数据之间的逻辑关系、选取何种数据模型,该项目的关键技术。并且还要考虑到本项目中数据每年不同,同时还不能覆盖历史信息。以及类似此结构的(村级)基本信息表共12张,如此基本信息表生成的行政单位(乡,县,市)的统计表也是12张。同时初步统计出该市共有2375个行政村,236个乡,5个县。该项目中数据逐年增添的庞大性,也要求开发者从长远考虑,慎重选择数据库开发工具。
2.2.2 数据检索
在信息找到解决方案后,如何在复杂的数据库中依据数据表之间的对应关系,根据散落的信息,浏览者中进行查询,要求操作简单,查询结果易于浏览,查询信息有助于提供领导决策的要求。于是隐藏在数据之中的信息检索也是本项目的重中之重。
3 层次型数据存储技术
3.1 关系数据模型的确定
软件开发中常用的数据库技术现在比较流行大中型的有MySQL、IBM DB2、Oracle、SQL Server、SyBase、Informix等,个人用户比较常用的主要是基于中小型数据库MS SQL Server和Access。但是这些数据库均是关系型数据库。而现实项目开发中接触的教多的初级信息多为不规范的数据,需要进行整合重组为关系数据库。
3.2 层次模型转换为关系模型的方法
3.2.1 分割表法
依据层次关系依据节点的父子关系可分割为关系模型,将表2中作为父节点的单元生成新表,只要其内容下有分支,就要产生一个新二维表表,具有规则的行和列,分解后的关系模型以及组成字段的简要描述如表3。
该方法虽然实现了将层次型数据转换为关系型数据[3],但是将一个表中信息分解的支离破碎,考虑到数据的完整性,增、删、改等操作中容易引发异常;表的数量过大,多表查询时联接频繁,导致查询信息的效率低下。同时对于每个行政单位的具体年份的信息无法存储下来。结论:此方案不可行。
3.2.2 树型存储法
由于每个信息节点需要记录其两个组成部分:父节点(parentID)和自身(ID)的数据信息(Num)。借助于《数据结构》课程中对树型结构数据的实现方法[4],设计出对于每个节点除保存本身信息外还要记录每个节点的父节点,对于表名视为树的根(parentID为0),其它节点的parentID是通过记录父亲节点的(ID)实现的。
对于表1行的数量不发生改变,以添加新列记录下每个单位每年度的信息数据。此方法中便于查询和统计信息生成。因为行的数量固定,但是列的再逐年改变。依据开发经验,基于表的信息的操作,一般是表结构固定下来后,添加数据、更新数据、查询数据等操作不要做表的结构变化。但是此方法虽然记录了表之间的关系,然而表中信息的年度和行政单位等资料无法存储,如要存储需要添加新列,而列的名字等信息还不稳定的话,开发人员无法正确读取信息[5]。同时在每个年度添加列,修改表的结构会可能会导致表的部分重要信息丢失频繁,尤其是对于特殊的数据(如必填字段)无法正常执行,导致表的信息或修改表的结构无法正常结束。结论:此方案不可行。
3.2.3 字典目录法
结合树型存储法能记录层次型数据报表的特点,经项目组研究将树型存储法延伸为两部分组成,形同表1的报表结构,称之为目录表,表4称为信息表。在表4中记录每个节点在某个年度的数值信息,以及该信息来自何行政单位。而节点的名字和层次需要查询表4来获取。而查询的依据是TableID的值是参照表1中ID而得到的,Depart指的是归属的行政单位名称,Year代表数据是哪个年份。该方法的优点是保存了表的结构,支持表的结构修改,记录了各个指标的值。目录表基本不变化,但是信息表每年均随单位个数成倍递增。查询指定的统计信息较难,数据冗余较大。但是此方案实现了信息的完整保存:指标名,指标数,单位和年度信息的一体化。结论:此方案对于本项目是可行的。
4 基于字典目录法的系统设计实现
系统确定了数据库的设计思路后,基于字典目录法的数据存储实现由逻辑设计到物理设计的实现,为开发基于WEB《某市农业信息系统》的奠定了根基。
4.1 录入实现
在本系统中确定了信息的存储方法,由于用户的涉及面广,文化程度不一,对于信息技术的操作熟练程度不等,要求对于录入界面要求界面友好,操作简洁,信息数据录入方便。根据用户具体情况,设计如如图3录入界面,在系统使用过程中以操作方便、界面友好,能自动校验数据之间的平衡关系等特点,得到了用户喜爱。
4.2 信息检索
根据系统设计的表:结构表,信息表,行政单位表三个基本表,将基于字典目录法的数据存储成功后,就可进行信息查询。查询的基本思路如下:
查询的条件-用户要录入选择-查询的指标内容和何年度指标。
4.2.1 确定检索指标种类
选择检索的信息的种类,是基础设施、文化、卫生、福利情况、养殖业、种植业、专业村、经济收益分配、农民负担、村集体经济组织收益分配、村级资产负债等信息中的哪个类别。依次确定该类别信息涉及到的表名。
4.2.2 查找目录表
根据信息种类依据目录表来还原为层次模型结构原型。
4.2.3 取出信息表数据
根据层次表原型,结合信息表中的年度信息,取出基本数据。
4.2.4 显示检索指标数据
将基本数据载入到层次型结构中。显示用户检索信息。
由于篇幅有限,且此检索功能需要涉及到项目中的各表,而本文仅重点讨论层次型数据存储技术,检索算法的详
细算法和流程图略。
5 结束语
本文主要结合项目课题基于Web的《某市农业信息系统》的设计,延伸出对于层次型报表转化为关系模型存储中的重要技术作了讨论;同时结合分割表法、树型存储法分析了常用方法的优缺点,提出了基于树型存储法的字典目录法存储数据。该方法解决了层次模型转化为关系模型的困难,结合项目的功能要求,实现了与农业局各级行政单位在指定年度的各项指标信息的存储问题。本系统的实现是新农村信息化的具体表现,解决了农业部门信息资料收集区域广,信息统计困难、数据误差大等问题,真正实现了信息的时效性、真实性,为政府部门提供了决策依据。
数据存储技术论文:基于层次型报表的数据存储技术研究
摘要:数据模型常见有层次、网状和关系三种模型,结合《某市农业信息系统》的设计中遇到的层次型报表,该文研究了将层次型模型转化为关系模型的三种方法,最终提出了基于树型存储法的字典目录法数据存储技术,利用该技术实现了系统的成功开发,证明了字典目录法有效性。
关键词:数据模型;层次型报表;存储技术
1 数据模型
数据库是信息系统的核心和基础。它把信息系统中的大量数据按照一定的模型组织起来,提供存储、维护、检索数据的功能,是信息系统可以方便、及时、从数据库中获取所需的信息。一个信息系统的各个部分能否紧密的结合在一起以及如何结合,关键在数据库。因此必须对数据库进行合理设计[1]。
1.1 常见数据模型
在数据库系统中,主要的数据模型有[2]:层次模型(Hierarchical Model)、网状模型(Network Model)和关系模型(Relational Model)。其中,应用最广泛的当属关系模型。
1.1.1 层次模型
层次模型:用树型(层次)结构表示实体类型及实体之间联系的数据模型称为层次模型。如图1。层次结构是一棵树,树的结点是记录类型,非根结点有且只有一个父结点。上一层记录类型和下一层记录类型的联系是1:M联系。
1.1.2 网状模型
网状模型:用从结构(网络结构)表示实体类型及实体间联系的数据模型称为网状模型。如图2。记录之间的联系通过指针实现,M:N联系容易实现(一个M:N联系可拆成两个1:M联系),查询效率高。
1.1.3 关系模型
用规范化了的二维表格结构表示实体集,用键表示实体间联系。通常是若干个关系模型组成的集合。如表1所示。
1.2 项目中数据报表
作者负责开发的《某市农业基础信息系统》中,提供的基础信息为如表2。本文为了简要说明问题,仅以表2中部分信息为例,展开对层次型数据的存储与检索的讨论。表中其他同结构信息和系统中涉及到的其它12张,以及其基于此基础信息的统计表实现方法雷同。
对该表中数据进行构造,吻合层次型数据模型。在传统的项目开发中经常遇到的多是如二维表结构的模型,即便是其它例如层次模型、网状模型均可以通过描述实体关系的E-R图转换为关系模型。
2 项目介绍
为了实现某市农业局农业基础信息的积累,便于政府决策人员获取农村基层涉及基础设施、文化、卫生、福利情况、养殖业、种植业、专业村、经济收益分配、农民负担、村集体经济组织收益分配、村级资产负债等信息统计,根据历史信息,获取农业发展规律,为政府管理人员提供决策依据,也便于随时随地了解该局下属各级行政单位县、乡、村的基本信息。保障了信息传递的畅通性,真实性和公正性。
2.1 项目功能
2.1.1县、乡、村类别的行政单位基础信息网上录入
1) 村级农经基础信息的逐年录入
在每一年度,作为最小的基层单位,需要将本单位涉及到农村基本情况表:基础设施、文化、卫生、福利情况、养殖业、种植业、专业村、经济收益分配、农民负担、村集体经济组织收益分配、村级资产负债等信息统计,并录入相应的报表中,要求数据录入简捷,操作方便。
2) 乡、县、市年度统计信息
依据下属逐年基础信息的上报经审核后由村乡县市四个级别的自动生成统计信息。上级部门仅有审核权限,没有修改权限。保障了信息的真实性。
2.1.2 信息检索
由不同行政级别的决策者查阅信息:年度基础值、年度统计值、若干年指标平均值、按指标排名等。
2.1.3 信息打印
对于检索的信息的在线打印,便于决策者查询与参考。保障在网络和电脑之外的其他传统存储介质的使用,尤其在不能上网的情况下,照样能随时查阅农村资料。
2.1.4 信息备份和恢复
信息备份和恢复:对于存储的基础信息,为了安全起见,能导出到其它存储空间。一旦出现意外,数据不会丢失。保障了信息的安全性。
2.2 关键技术
2.2.1 数据存储
数据的存储是开发的基石,但是表1是一个不规则的层次型表格。对于如此复杂结构的报表想要通过关系之间转换, 以及如何选择数据库进行存储、数据之间的逻辑关系、选取何种数据模型,该项目的关键技术。并且还要考虑到本项目中数据每年不同,同时还不能覆盖历史信息。以及类似此结构的(村级)基本信息表共12张,如此基本信息表生成的行政单位(乡,县,市)的统计表也是12张。同时初步统计出该市共有2375个行政村,236个乡,5个县。该项目中数据逐年增添的庞大性,也要求开发者从长远考虑,慎重选择数据库开发工具。
2.2.2 数据检索
在信息找到解决方案后,如何在复杂的数据库中依据数据表之间的对应关系,根据散落的信息,浏览者中进行查询,要求操作简单,查询结果易于浏览,查询信息有助于提供领导决策的要求。于是隐藏在数据之中的信息检索也是本项目的重中之重。
3 层次型数据存储技术
3.1 关系数据模型的确定
软件开发中常用的数据库技术现在比较流行大中型的有MySQL、IBM DB2、Oracle、SQL Server、SyBase、Informix等,个人用户比较常用的主要是基于中小型数据库MS SQL Server和Access。但是这些数据库均是关系型数据库。而现实项目开发中接触的教多的初级信息多为不规范的数据,需要进行整合重组为关系数据库。
3.2 层次模型转换为关系模型的方法
3.2.1 分割表法
依据层次关系依据节点的父子关系可分割为关系模型,将表2中作为父节点的单元生成新表,只要其内容下有分支,就要产生一个新二维表表,具有规则的行和列,分解后的关系模型以及组成字段的简要描述如表3。
该方法虽然实现了将层次型数据转换为关系型数据[3],但是将一个表中信息分解的支离破碎,考虑到数据的完整性,增、删、改等操作中容易引发异常;表的数量过大,多表查询时联接频繁,导致查询信息的效率低下。同时对于每个行政单位的具体年份的信息无法存储下来。结论:此方案不可行。
3.2.2 树型存储法
由于每个信息节点需要记录其两个组成部分:父节点(parentID)和自身(ID)的数据信息(Num)。借助于《数据结构》课程中对树型结构数据的实现方法[4],设计出对于每个节点除保存本身信息外还要记录每个节点的父节点,对于表名视为树的根(parentID为0),其它节点的parentID是通过记录父亲节点的(ID)实现的。
表3 分割表法实现的关系模型组成 表4 字典目录法的信息表
对于表1行的数量不发生改变,以添加新列记录下每个单位每年度的信息数据。此方法中便于查询和统计信息生成。因为行的数量固定,但是列的再逐年改变。依据开发经验,基于表的信息的操作,一般是表结构固定下来后,添加数据、更新数据、查询数据等操作不要做表的结构变化。但是此方法虽然记录了表之间的关系,然而表中信息的年度和行政单位等资料无法存储,如要存储需要添加新列,而列的名字等信息还不稳定的话,开发人员无法正确读取信息[5]。同时在每个年度添加列,修改表的结构会可能会导致表的部分重要信息丢失频繁,尤其是对于特殊的数据(如必填字段)无法正常执行,导致表的信息或修改表的结构无法正常结束。结论:此方案不可行。
3.2.3 字典目录法
结合树型存储法能记录层次型数据报表的特点,经项目组研究将树型存储法延伸为两部分组成,形同表1的报表结构,称之为目录表,表4称为信息表。在表4中记录每个节点在某个年度的数值信息,以及该信息来自何行政单位。而节点的名字和层次需要查询表4来获取。而查询的依据是TableID的值是参照表1中ID而得到的,Depart指的是归属的行政单位名称,Year代表数据是哪个年份。该方法的优点是保存了表的结构,支持表的结构修改,记录了各个指标的值。目录表基本不变化,但是信息表每年均随单位个数成倍递增。查询指定的统计信息较难,数据冗余较大。但是此方案实现了信息的完整保存:指标名,指标数,单位和年度信息的一体化。结论:此方案对于本项目是可行的。
4 基于字典目录法的系统设计实现
系统确定了数据库的设计思路后,基于字典目录法的数据存储实现由逻辑设计到物理设计的实现,为开发基于WEB《某市农业信息系统》的奠定了根基。
4.1 录入实现
在本系统中确定了信息的存储方法,由于用户的涉及面广,文化程度不一,对于信息技术的操作熟练程度不等,要求对于录入界面要求界面友好,操作简洁,信息数据录入方便。根据用户具体情况,设计如如图3录入界面,在系统使用过程中以操作方便、界面友好,能自动校验数据之间的平衡关系等特点,得到了用户喜爱。
4.2 信息检索
根据系统设计的表:结构表,信息表,行政单位表三个基本表,将基于字典目录法的数据存储成功后,就可进行信息查询。查询的基本思路如下:
查询的条件-用户要录入选择-查询的指标内容和何年度指标。
4.2.1 确定检索指标种类
选择检索的信息的种类,是基础设施、文化、卫生、福利情况、养殖业、种植业、专业村、经济收益分配、农民负担、村集体经济组织收益分配、村级资产负债等信息中的哪个类别。依次确定该类别信息涉及到的表名。
4.2.2 查找目录表
根据信息种类依据目录表来还原为层次模型结构原型。
4.2.3 取出信息表数据
根据层次表原型,结合信息表中的年度信息,取出基本数据。
4.2.4 显示检索指标数据
将基本数据载入到层次型结构中。显示用户检索信息。
由于篇幅有限,且此检索功能需要涉及到项目中的各表,而本文仅重点讨论层次型数据存储技术,检索算法的详细算法和流程图略。
5 结束语
本文主要结合项目课题基于Web的《某市农业信息系统》的设计,延伸出对于层次型报表转化为关系模型存储中的重要技术作了讨论;同时结合分割表法、树型存储法分析了常用方法的优缺点,提出了基于树型存储法的字典目录法存储数据。该方法解决了层次模型转化为关系模型的困难,结合项目的功能要求,实现了与农业局各级行政单位在指定年度的各项指标信息的存储问题。本系统的实现是新农村信息化的具体表现,解决了农业部门信息资料收集区域广,信息统计困难、数据误差大等问题,真正实现了信息的时效性、真实性,为政府部门提供了决策依据。
数据存储技术论文:海量数据存储关键技术浅析
摘要:海量数据的大量出现,使存储技术正发生革命性的变化。针对海量数据存储环境,对网络附加存储(NAS)及存储区域网络(SAN)进行了分析,研究了面向对象存储技术。并且对海量数据存储的数据库策略进行了阐述,包括Oracle数据库的表分区技术的策略、特性及应用;Oracle数据库并行处理结构及特性。
关键词:海量数据;对象存储技术;分区技术;并行处理技术
1 问题提出
当今是一个信息大爆炸的时代,网络的广泛使用更加剧了信息爆炸的速度。信息资源的爆炸性增长,对存储系统在存储容量、数据可用性以及I/O性能等方面提出了越来越高的要求。信息技术正从以计算设备为核心的计算时代步入以存储设备为核心的存储时代。
海量数据是指数据量极大,往往是Terabyte(1012bytes)、Petabyte(1015bytes)甚至Exabyte(1018bytes)级的数据集合。存储这些海量信息不但要求存储设备有很大的储存容量,且还需要大规模数据库来存储和处理这些数据,在满足通用关系数据库技术要求的同时,更需要对海量存储的模式、数据库策略及应用体系架构有更高的设计考虑。
2 海量数据存储模式选择
存储系统的存储模式影响着整个海量数据存储系统的性能,为了提供高性能的海量数据存储系统,应该考虑选择良好的海量存储模式。
对于海量数据而言,实现单一设备上的存储显然是不合适的,甚至是不可能的。结合网络环境,对它们进行分布式存储不失为当前的上策之选。如何在网络环境下,对海量数据进行合理组织、存储,并提供高效、高可用、安全的数据访问性能成为当前一个研究热点。适合海量数据的理想存储模式应该能够提供高性能、可伸缩、跨平台、安全的数据共享能力。
2.1 现有存储模式分析
目前磁盘存储市场上,根据服务器类型存储分类如图1所示。
其中外挂存储占目前磁盘存储市场的70%以上。由于网络技术的崛起,直连式存储(DAS)已显得非常力不从心,存储模式从以服务器为中心转向以数据为中心的网络存储模式,目前典型的代表是:网络附加存储(NAS)和存储区域网络(SAN) [1-3]。
2.1.1 网络附加存储(NAS)
NAS(Network Attached Storage,网络附加存储)是一种文件级的网络存储模式,结构如图2所示。它拥有自己的文件系统,通过NFS或CIFS对外提供文件访问服务。NAS将存储设备通过标准的网络拓扑结构连接到现有的网络上来提供数据和文件服务。NAS管理简单、扩容方便,统一的文件系统使数据共享变得非常简单,所以其较大的优点是跨平台性很好,但NAS服务器在网络存储中处于数据通路上,当服务请求激增时存在I/O瓶颈,性能是NAS的较大问题,因此基于NAS的存储方案对于组建海量存储共享系统来说并不是一种理想的方案。
2.1.2 存储区域网络(SAN)
SAN(Storage Area Network,存储区域网络) 结构如图3所示。它是存储设备与服务器经由高速网络设备连接而形成的存储专用网络。SAN一般基于光纤通道FC(Fibre Channel)或iSCSI(internet SCSI )构建,它是块级的存储,系统性能非常优越。SAN的优点是高容量、高性、低延迟,缺点是SAN没有一个统一的存储系统接口,对存储设备的共享访问存在数据的完整性与安全性问题,设备的跨平台性较差。
2.2 对象存储技术
对象存储技术提供基于对象的访问接口,将NAS和SAN两种存储结构的优势进行了有效地整合,通过高层次的抽象,使之既具有NAS的跨平台共享数据和安全访问的优点,同时又具有SAN的高性能和可伸缩性的优点。
2.2.1 对象存储模式
对象存储模式[4]一般由Client、MDS(Metadata Server)和OSD(Object Storage Device)三部分组成,如图4所示。
Client为客户端,用来发起数据访问;MDS为服务器,用来管理对象存储系统中的元数据并保障访问的一致性;OSD为存储对象数据的设备,它是一个智能设备,包括处理器、RAM内存、网络接口、存储介质等以及运行在其中的控制软件[5]。
对象存储设备(OSD)中,将对象(object)作为对象存储的基本单元,每个对象具有惟一的ID标识符。对象由对象ID、对象数据的起始位置、数据的长度来进行访问。对象提供类似文件访问的方法,如Create,Open,Close,Read,Write,对象属性等;对象的数据包括自身的元数据和用户数据,其中,元数据用于描述对象特定的属性,如对象的逻辑大小、对象的元数据大小、总的字节大小;用户数据用来保存实际的二进制数据。
对象分为根对象、组对象和用户对象。根对象定义了存储设备以及存储设备本身的不同属性;组对象为存储设备上对象提供了目录;用户对象存储实际应用数据。
2.2.2 对象存储模式用于海量数据存储的优势
对象存储模式的特性使其在处理海量数据存储请求时具有较大优势,主要体现在:
1) 高性能数据存储:访问节点有独立的数据通路和元数据访问通路,可以对多个OSD进行并行访问,从而解决了当前存储系统的一个性能瓶颈问题。
2) 跨平台数据共享:由于在对象存储系统上部署基于对象的分布式文件系统比较容易,所有能够实现不同平台下的设备和数据的共享。
3) 方便安全的数据访问:I/O通道的建立及数据的读写需要经过授权许可才能进行,从而保障了数据访问的安全性;另一方面,任何Client都可以通过对象存储系统提供的标准文件接口访问OSD上的数据,统一的命名空间使Client访问数据的一致性得到了保障。
4) 可伸缩性:对象存储模式具有分布式结构的特性。由于OSD是独立的智能设备,可以通过增加OSD数量,使存储系统的聚合I/O带宽、存储容量和处理能力得到提高,这种平衡扩展模式使得存储系统能够具有良好的可伸缩性。
5) 智能的存储设备:OSD中集成了部分的存储管理功能,因此OSD具有一定智能的自主存储功能。
3 数据库策略
数据库管理系统(DBMS)是海量数据存储检索系统的核心部件,所有对数据的控制都要通过DBMS来实现。Oracle数据库管理系统应用十分普及,是目前高性能存储检索系统主要选择的关系数据库管理系统,因此本文海量数据的存储基于Oracle数据库管理系统来实现。
本文基于海量数据环境,对通用的数据库管理策略不作研究,只针对海量数据找到有效存储方法,设计并实现高性能面向海量数据存储的数据库关键策略。
实现高性能的海量数据存储可采取的数据库策略有:
1) 分区技术:为了更精细地对数据库对象如表、索引及索引编排表进行管理和访问。可以对这些数据库对象进行进一步的划分,这就是所谓的分区技术。
2) 并行处理技术:为了提高系统性能,可以让多个处理器协同工作来执行单个SQL语句,这就是所谓的并行处理技术。
3.1 数据库表分区技术
3.1.1 基本概念
本文研究的主要存储对象为海量数据,数据库的大小常常达到数百GB甚至用TB来计算。而单表的数据量往往会达到上亿的记录,并且记录数会随着时间而增长。当表和索引变得非常大时,分区可以将数据分为更小、更容易管理的部分来提高系统的运行效率。对表和索引进行分区的主要目的就是改善大型表的可伸缩性和可管理性。所以对大型表进行分区是处理海量数据的一种十分高效的方法。
由于本文研究的主要存储对象为海量数据,存储时数据库中只存储文件名、摘要及其它文字说明,源文件的内容存储在数据库以外的物理介质上。
3.1.2 分区策略
Oracle分区的表通过使用“分区关键字”分区,分区关键字是确定某个行所在分区的一组列。Oracle提供了三种基本数据分配方法:范围(range)、列表(1ist)与散列(hash)。使用上述的数据分配方法,可以将表分成单一分区表或组合分区表。则Oracle提供的分区技术主要分为以下几种: 范围分区,列表分区,散列分区,组合范围-散列分区,组合范围-列表分区[6]。
此外Oracle还提供三种类型的分区索引,包括本地索引、全局分区索引和全局非分区索引。可以根据业务需求选择相应的索引分区策略,从而实现最合适的分区,以支持任何类型的应用程序。
Oracle提供一套强健的技术用于表、索引和索引编排表的分区。海量数据的数据库存储可以选用以上分区技术中的一种或几种,通过一组完整的SQL命令来管理分区表,从而达到高性能检索的目的。
3.1.3 分区技术的应用
本文的研究对象是海量的文档数据集,对文档集进行分类处理,采用范围分区技术的应用将使系统各方面得到改善:
1) 增强可用性:如果数据库表的某个分区出现了故障,可以确保数据库表在其它分区中的数据仍然可用。
2) 维护方便:如果数据库表的某个分区出现了故障,则仅需修复该故障分区的数据即可,而不需要对整个数据库表进行维护。
3) 均衡I/O:可以将数据库表不同的分区映射到磁盘用以平衡I/O,可以使系统的整体性能得到改善。
4)改善查询性能:用户对分区对象进行查询时,只需要搜索用户关心的分区,从而可以提高查询速度,改善查询性能。
3.2 数据库并行处理技术
3.2.1 基本概念
并行处理技术是数据库的一项核心技术,是指利用多个CPU和I/O资源来执行单个数据库操作,从而使得数据库能够高效地管理和访问TB级的数据[7]。尽管目前主流的数据库管理系统都表示可以提供并行处理能力,但在并行处理结构上都存在着关键的差异。
3.2.2 Oracle并行处理结构
所谓并行处理是指:将单个任务分解为多个更小的单元。不是将所有工作通过一个进程完成,而是将任务并行化,从而使得多个进程同时在更小的单元上运行,这样做能极大地提高系统性能并且能地利用系统资源。
Oracle使用动态并行处理框架,数据操作可以依据当前工作特征、查询及负载的重要性,使用1~N个真正应用集群节点并行运行。
3.2.3 并行处理技术的特性
Oracle数据库并行技术能提高数据库性能,并且能提高数据库的较大运行速度和较大负载量。由于并行系统的每个节点都相互独立,使得一个节点如果出现故障不会导致这个数据库崩溃,剩余的节点可以在为用户提供服务的同时对故障节点进行恢复,因此并行技术比单节点的性要高。Oracle数据库并行技术还能根据需要随时分配和释放数据库实例,数据库的机动性高。还有一点就是并行技术可以克服内存限制,为更多的用户提供数据服务。
4 结束语
对象存储模式由于具有良好的可伸缩性、高性能、跨平台、安全数据共享等能力,成为海量数据存储模式的一个理想选择;配合数据库的分区技术和并行处理技术,可以实现高性能的海量数据存储。
数据存储技术论文:关于电网调控运行大数据存储与处理技术的分析
摘 要:在新形势下,电网调控运行大数据存储与处理需要应用不同的技术方式,提高电网调控运行的质量和水平。文章主要就电网调控运行大数据分类及特征、电网调控运行大数据存储与处理技术框架、电网调控运行大数据存储与处理技术的应用三个方面内容进行论述。
关键词:电网调控运行;大数据;分类及特征;存储与处理;框架;应用
引言
随着科学技术的进步和发展,为更好的满足各种电力系统应用需求,提高电力系统的质量和水平,我国开展了智能电网的建设工作。其中,一个重要的工作是对于新型技术方式的应用。比如:具有更好质量、更大规模、更多数据信息来源的电网调控中心需要进行高质量的应用,对于电网调控运行大数据进行良好的存储与处理,开展更好的应用,对于整个的电网系统运行进行数据信息保障。因此,我们针对电网调控运行大数据分类及特征、电网调控运行大数据存储与处理技术框架、电网调控运行大数据存储与处理技术的应用问题进行研究和分析工作,为加快我国的智能电网建设贡献出一份力量,更好的满足人们对电力资源应用的需求。
1 电网调控运行大数据分类及特征
电网调控运行大数据可以依据来源方式的不同分为电网调控运行大数据、基础数据、外部信息数据、电网运行及设备状态监测数据四种不同的类型。这四种不同类型数据在应用中具有紧密的关系。在电网调控运行的众多数据中,计划类的数据、负荷预测数据、电网运行的数据、基础性的数据等属于结构性的数据方式。同时,在应用中还存在一些非结构性的数据方式。比如:图形图像的处理、视频的监控等渐渐在应用中发挥出重要的作用。
随着电网调控规模的扩大、数据体积的变大、应用种类的增多、结构的渐渐复杂,进行高质量的数据处理和存储已经变得比较困y。因此,需要对于系统运行的结构、方式等等进行性改变,提高存储和处理的质量和水平[1]。
2 电网调控运行大数据存储与处理技术框架
2.1 大数据的分类存储
为提高电网调控运行大数据存储质量,我们需要进行原始数据资源信息获得,并且进行有效性预处理,通过开展高质量的原始数据信息过滤、筛选等等工作,提高存储的质量和水平,为今后的分析提供保障。在智能化电网建设的背景下,为更好的满足数据存储的需求,我们需要应用合理化的方式来提高存储的速度和水平。如:可以进行实时性的存储工作,对于不同来源的数据信息进行分类的管理存储。
2.2 大数据的分类处理
从不同类型数据的实时性出发,对于数据信息进行专业化整理工作,进行不同一次数据集和目标数据集之间关系的充分表示,形成关联性的函数。然后应用合理化方式进行电网调控业务数据流程的优化。电网调控运行大数据存储与处理的流程为:电网运行设备状态监测数据――电网调控运行大数据――大数据预处理――实时数据存储/非实时数据存储――流处理/批处理――数据驳动――数据应用[2]。
3 电网调控运行大数据存储与处理技术的应用
3.1 对电网状态的智能化监控
通过对电网调控运行大数据分类存储与处理,对于系统中的I/O优点进行有效性应用,对于系统的数据进行有效性监控和管理,开展分类的存储。比如:对于系统中的电流、电压、保护动作信号、谐波等开展有效性管理工作,最终可以构建高质量的数据驱动机组安全运行状态模型,对于系统应用中存在的不稳定因素进行分析和研究,有利于检修人员在最短时间中赶到现场进行专业化处理,提高电网状态运行质量和水平,保障电网系统的安全,有利于电网系统的功能得到充分发挥[3]。(其主要的管理监控流程如图1所示)
3.2 安全智能预警
通过对于变电站和调控中心的应用,系统主要是对于预想事故中典型运行方式进行专业化的离线计算。但是,这种方式在应用中存在明显的缺点,即预警方式不、不及时。因此,我们对电网调控运行大数据存储与处理技术进行有效性的应用,通过对高质量网络信息技术、计算机技术等进行充分应用,建立起新型的全网一体化实时仿真计算方式,可以对系统应用中的故障和问题进行性、实时性的预警,提高了系统大数据存储与处理的质量和水平,对于原有系统中的问题进行解决,可以对电网的整体性运行状态进行了科学化评估,有利于电网调控中心内的工作人员依据实际情况需要,采取正确合理化的控制举措。比如:将有关的问题通过智能化的沟通平台及时通知有关维护人员,使得他们在最短的时间内赶到现场,应用专业化的手法来进行故障问题的处理,提高系统安全运行的能力,保障了电网系统在未来的应用中具有良好的应用价值和水平,更好的满足人们对于高质量电力资源应用的需求[4]。(其主要的管理模式如图2所示)
3.3 广域源荷互动的优化调度
科学技术的发展,使得众多的新型能源在电网中进行了并网应用。比如:风能(孝感电网包括:雷鼓台、岳家山、江家山、仙居顶、界岭风电场)、光伏能源(孝感电网包括:天紫、竹园、曹岗、杨畈、三汊光伏发电厂)、生物质能(孝感电网包括:金秋电厂)等等具有间歇性特点的新能源。在这种情况下,应用传统的发电机组来进行电网的自动化智能化调节和控制无法实现。而应用大数据分类存储和处理技术可以对全网电力资源的需求和负荷信息进行科学化调控监督工作,依据不同的时间、地点等进行电力资源的合理化配置,提高整个电网运行的质量和水平,通过科学性的调控决策、整体应用态势的感知,在保障电网稳定和安全的前提下充分挖掘电网新能源的应用潜能,有利于实现我国电力能源的多样化,降低了煤炭等传统能源应用的数量,更好的开展节能环保工作[5]。
4 结束语
对于电网调控运行大数据存储与处理技术进行分析,有利于我们开展电网调控运行大数据分类存储和分类处理,然后对于原有的电网调控系统进行现代化、智能化的改造,提高电网调控大数据运行的质量和水平,保障电网系统的安全,更好的满足人们对高质量、稳定安全电力资源应用的需求。
数据存储技术论文:现代计算机数据存储技术探析
摘 要 S着全社会科学技术的迅猛发展,在日常的工作和生活中,产生的信息越来越多,运行的程序也逐渐在臧铎和复杂,需要存储的信息量也是越来越大,对信息存储载体的质量要求也越来越高。同时,所需要存储的信息的重要性是不可否认的,所以对信息安全的要求也是非常高的。在这样的社会背景下,需要非常有保障的安全保障的信息存储技术,对现代计算机数据存储技术的研究推动了存储、网络、计算机等多方面的发展。所以,对计算机数据存储技术的研究是目前阶段一个比较重要的问题。本文主要分析现代计算机存储技术存在的重要性以及必然性,同时分析目前集中主要的技术。
关键词 计算机 数据 存储技术
0引言
现代社会,计算机是一种十分常见的事物,无论是在生活中、学习中还是工作中,计算机都随处可见,计算机技术也无时无刻不在影响着我们的生活,计算机在最初的阶段,所涉及和被应用的领域也不是非常广泛,所以,计算机需要运行的程序和需要存储的数据在有所增加,进而就需要计算的作出相应的完善。基于计算机的运行速度加快的需要和对信息存储量的增加的需求,计算机需要在发展变化的过程中,逐渐完善有关软件和硬件设施。尤其是现代社会,计算机的大部分工作的基础都是用于数据的处理,处理数据量在增大的同时,数据的价值也在逐渐的提高。数据在逐渐发展的过程中,成为了一个独立的实体,自由存储,也不属于其他任何的有关系统之内,就是相对独立的实体。并且,数据在被处理的过程中,有着共享性的特点,也是一种存储和保护的有价值的实体财富。由此可见,对数据的存储设备的研究开发和保护也变得越来越重要,对信息存储技术的研究也是一项有着极高价值的活动和行为。
1 计算机数据存储技术的必要性
计算机数据是计算机主要运行的数据基础,计算机的需要量很大,自然对出具的处理和存储能力的需求就非常大,不难得出结论,计算机数据存储技术的研究是一个十分重要,而且意义重大的研究问题。下面,从以下几个方面,对现代计算机数据存储技术的重要性进行分析。
1.1数据存储技术是大数据时代的时代要求
随着信息技术的飞速发展,数据产生的量非常大,数据产生的手段也非常先进,同时数据获取的手段也是多渠道的。在这样的背景之下,面对大量的数据,对数据处理的要求就自然而然的有所升高,大规模的数据密集型应用系统数据量也在呈指数级的上升趋势,可以说是一个爆炸式的增长,目前被称为是“大数据时代”。正是这样的社会背景,大数据时代,顾名思义数据量是很大的,那么每个单位就需要一种可以处理大数据的程序和工具。在这样的趋势下,在未来的发展中,这样的势头不会减少只会增加,数据量的增大,原有的数据处理的系统必然会在这时出现无法满足目前大量数据的需求,这样现代的计算机数据存储技术的出现就是必然的事件了。时代的发展,科学技术的发展,数据的数量的变化,都是这个时代对计算机数据存储技术的发展要求,计算机技术在这个变化的过程中起着非常重要的作用。
1.2方便了信息的管理
现在的社会的节奏非常快,每天的信息量都非常大,生活中是这样,工作中就更是让人手忙脚乱,在这个时代中产生的信息和需要处理的信息量也在逐渐的增大,那么对信息的处理工具和程序的要求自然也在提高。可以存储大量、复杂种类信息的载体就是当前环境所需要的。信息的管理是一个复杂的过程,如果没有很好的信息存储的系统,那么就会严重影响信息的质量,就会为以后的工作带来很多不必要的麻烦。现代计算机存储技术的诞生,为信息管理系统的存储带来了方便,可以保障大量的信息可以有空间存储、按照种类的不同分类存储、根据信息的使用频率分别存储等,这些对于信息管理过程中信息的存储都是有很大的益处的,现代计算机数据存储技术为信息的管理提供了可以直接利用的技术支持和手段,为信息的有效管理提供了很大的方便。
1.3保障企业内部数据安全
现在的社会中,无论是什么样的企业,一定会有很多电脑办公的环境和情况,就是一种依赖计算机运行来处理公司一些事务的情况,那么计算机的的效率就对企业产生非常大的影响。在传统的情况下,使用电脑办公所占的比例相对较小,但是,现在这个时代,信息化办公已经是一个主流的形式,面对着这样的情况,依赖计算机,其实就是依赖计算机的对数据的处理,既然是这样,对计算机数据存储的需求就有所表现。现在计算机的使用非常多,那么也就是计算机的数据存储和处理出现的非常频繁。数据量大,就非常容易出现数据之间无法明确任务,对数据的安全性造成一定的威胁,现代计算机数据存储技术就可以在更高的程度上避免这种数据安全性受到威胁限制。
2现代计算机数据存储的有关技术
面对与日俱增的数据量,为了满足这样的数据量的存储需求,多种存储技术应着需求在逐渐的发展起来,各种技术有着各自的存在理由和各自的发展优势,下文分析几种技术的详细原理和应用。
2.1磁盘阵列技术
磁盘阵列是由一个硬盘控制器来控制多个硬盘的连接,在读写的过程中,多个硬盘同时进行,降低了在读写过程中发生的错误,提高了技术处理的效率,和性。磁盘阵列技术主要针对的寸处对象是计算机的硬盘,磁盘阵列技术是目前很多领域应用的技术,主要是利用数据组的形式来作为磁盘,配合着数据分散排列的设计,有效提高数据的安全性。一个硬盘连接多个硬盘,进而多个硬盘一起进行读写的程序,不难理解,在对数据进行读写的过程中,效率是非常高的。磁盘阵列技术在对数据进行存储时的存储速度是非常快的,同时安全性在很大程度上可以得以保障,并且该技术的性也是非常高的。
2.2 NAS技术
NAS是一种特殊的专用数据存储的服务器,有单独的存储处理核心,CPU、内存、操作系统等,也常被称为是一种网络附加的存储技术。NAS技术通过网络把文件系统和存储系统连接在一起,控制器来运行和维护文件系统,判断文件的流向。在使用的过程中,服务器与存储设备互相分离,也就是说NAS是一个独立于外的单独个体。由于独立性,当有一个设备或系统出现不能正常运行的状况时,不会影响其他的系统的运行,不会因为以处的故障而影响整个存储系统的正常工作,是一个比较适合应用于大范围的技术,而且应用起来更加方便。
2.3 SAN技g
SAN是一种存储的域网络,是网络存储技术的核心,企业在业务系统方面的核心部分,可以借助于具有高性、高性能的数据访问方式,这是SAN技术的好处所在。对于SAN技术而言,相关联的存储设备可以通过效率高的连接设备与多种服务器进行谅解,这种配置对于所有设备而言都可以进行连接,也就是在服务器和存储器之间的连接提供了一个很好地纽带。SAN技术可以满足多客户同时运行的需求,还可以在很大程度上保障应用性能的稳定性。随着自身存储容量的增大,SAN还可以允许用户独立增大自身的存储容量,不仅可以很好的存储数据,还可以实现对存储资源进行集中的管理。SAN技术的应用具有很高的灵活性,存储设备和数据的管理方式发生了一定的改变,在SAN网络中,不再是某一个占据主导地位的设备可以连接,有效的提高了存储数据资源的共享性。
2.4云存储技术
云存储是当今社会非常热门的话题,我们身边也有一些常见的应用,比如,我们自己日常的学习和工作中使用的百度云,就是一种云存储的技术应用。云存储,就是通过集群技术、网格技术等系统功能,把网络中各种类型的存储设备通过应用软件集合起来,使之协同工作,一起对外提供数据存储和业务访问功能的一个系统。云存储可以说不是一个单独的存储的技术手段,但是可以说是技术的结合体,也是一种技术的手法的表现,毕竟达到了存储的效果,同时还可以很大程度上提高了存储的效率,而且数据存储技术的结合使用,满足了不同类型数据存储的需求。
3存储技术的选择使用细节
存储的技术有很多种,那么作为一个独立的单位在选择存储自己的内部数据信息的过程中,也不是盲目的选择的,而是在作出选择的时候,要有一定的选择的理由,下面就是技术在实践的使用中应该注意的几点问题。
3.1科学合理的选择和使用
多种计算机数据存储的优势已经明确,但是在选择和具体的使用中,还是要非常注意一些问题的。在选择使用之前,一定要认真分析自己企业内部数据存储的要求,是否该项技术的应用可以满足的,一定要结合实际情况,对自己的情况加以明确,确保做出的决策可以为企业内部数据的存储带来好处。
3.2使用者要了解该技术
技术的应用目的是提高数据存储的效率和水平,那么前提一定是对技术有所了解,明确技术应用前的准备,以及在技术的应用过程中,需要注意什么问题。如果,使用者不了解技术,就盲目的引入应用,比较不好的情况就是技术的核心功能不能有效的发挥,不可以为企业提供方便。使用者要明确各种存储技术的特点,确保在使用的过程中对该技术的操作得心应手,这样才可以达到预想的技术引入的结果。
3.3使用过程中注重结合企业的实际情况
现代计算机数据存储技术是一种固定的技术手段,有多重表现形式,如果应用到自身的数据存储系统中,每一个企业的数据存储的原有实际情况都是有一定差异的,所以,在使用的过程中,不要按照既定的思维模式和对该技术的认知来思考技术的使用,而是要顺应技术的需求,调整对技术的理解和认识。确保技术的应用可以真正的实现企业内部数据的科学合理有效存储。
4总结
在现代这个科学技术发达、计算机应用普遍、计算机数据量极大的社会环境中,计算机数据存储的安全性、高效性、性等重要性能,越来越成为人们关注和讨论的重点话题,当然技术的使用也成为了技术研究者研究的重点内容。现代计算机存储技术的有效合理使用,很大程度上解决了上述部分问题。计算机存储技术在逐渐的发展过程中汇总,已经衍生出了自己独特的个性结构,保障的信息的存储安全、独立,提高信息存储量,保障了数据存储的目的实现。在以后的环境中,对计算机数据存储技术的研究和开发仍然是一个重点的话题。
数据存储技术论文:计算机数据存储技术分析
摘 要:计算机技术现在已经得到了广泛应用,但是因为运行环境特殊,需要面临较大的安全风险,必须要对其进行综合分析,采取有效措施来提高对数据存储的安全性与性。就实际应用现状来看,确定影响计算机数据存储效果的因素,根据需求来确定最为合适的存储技术,争取从根本上来消除各类因素的影响,改善数据存储效果。本文基于计算机数据存储要求,对各类存储技术进行了分析和对比。
关键词:计算机;数据存储;安全性
现在已经进入到信息化时代,产生和处理的数据更多,数据所具有的价值也越来越高。为充分发挥各类数据具有的应用优势,必须要加强对安全存储技术的分析,降低外界各项因素的影响,确保数据的完整性与性。积极结合各项新型技术,对信息存储技术进行更新和完善,进一步促进行业的发展。
一、计算机数据存储分析
1.大数据应用要求
在信息技术水平不断提高背景下,数据产生与获取的手段更为先进,面对大数据时代,想要充分发挥出各类数据具有的优势,除了要对其应用技术进行分析外,还需要对其存储技术进行研究,争取为大数据处理提供保障。企业想要在市场内占据有利竞争位置,必须要有大量的数据作为支持,这样就使得大数据技术与服务需求不断升级,并且会在未来发展过程中,数据产生、处理以及存储数据量会继续增长。但是在数据快速增长背景下,很容易造成单机系统性能降低,即便持续对系统硬件进行更新,也难以与数据增长速度保持平衡,这样就需要加强对数据存储技术的研究,根据实际需求,来对现有存储技术进行更新完善[1]。
2.文件管理需求
生产生活中均会产生大量的数据,虽然可以为下一阶段活动提供依据,但是想要在大量数据内提取出有用信息,需要大量的时间作为支持,这样为保障该阶段内数据不会出现损坏、缺失等问题,就需要对其进行有效存储。通过外围设备将存储在物理介质上的记录与传输数据接收进来,经过专业处理后得到相应结果,然后对数据赋予意义,使其成为人们所需的信息。对比传统纸质文件来对数据信息的存储,现通过计算机语言编程以及处理软件可以直接将各项数据制作成文档,保存在计算机内,不仅可以降低管理工作难度,并且在查询和利用上具有更大优势。
3.企业发展需求
数据为促进企业进一步发展的重要依据,包括数字、文本以及图表,根据实际需求对其进行汇总、分析和利用,为下一步工作规划策略的制定提供数据支持。现在已经进入到信息化时代,企业所需要面临的竞争更加激烈,需要面对的数据更多,除了自身数据外,还需要对市场内所有行业信息数据进行综合分析,这样如果依然应用传统方式已经逐渐不能满足应用需求。对数据存储技术进行更新,经过对数据处理后,减少存储容量,并降低成本,争取更进一步满足信息技术发展要求[2]。企业应对自身存储系统进行更新,提高对数据保护的效率,提高数据存储工作的性、灵活性以及实用性。
二、计算机数据存储影响因素
1.物理安全
对影响计算机数据物理安全因素的分析,可以从主观与客观两个角度进行,其中主观因素为操作不当、管理不到位等,客观因素则主要为自然灾害和硬件损坏等。一方面,主观因素。虽然现在数据存储工作人员技能水平不断提高,但是在实际操作中,很难保障没有一点问题,尤其是计算机维护时,经常会因为失误造成系统文件被删除,或者是修改部分系统参数,造成系统运行错误,甚至会造成系统崩溃。同时,因为存储系统复杂程度不断提高,对维护人员的专业能力也有更高要求,要求其可以不断更新自我知识结构,能够灵活应对遇到的各类问题,降低数据破坏和丢失问题发生概率。另一方面,客观因素。自然灾害对数据存储带来的影响是不可控的,例如火灾、地震等,如果在服务器运维阶段遇到此种情况,将会直接对数据带来毁灭性破坏,并且破坏是不可逆的,一旦丢失无法找回。因此必须要及时对稻萁行备份,争取在灾害发生后,将损失降到低。另外,现在市场上硬件数量与种类不断增多,相互之间差异较大,如果所用硬件质量比较差,不仅无法满足数据存储要求,还容易产生故障造成数据损坏。
2.逻辑安全
及时,电磁波辐射。即计算机与通信部件产生的辐射,包括主机、显示器、通信线路等,为降低此类因素影响,可以应用接收并解密电磁波的技术。第二,计算机联网。互联网运行环境特殊,受到黑客攻击以及病毒感染的可能性比较大,如果不采取任何措施,会在根本上影响数据存储安全性,出现数据损坏、丢失等问题。第三,计算机病毒。计算机病毒为一段可执行程序代码,并且具有自我复制能力,可以感染计算机系统,并且不断传播和复制。同时病毒感染计算机系统后,能够控制计算机完成一些隐蔽操作,严重威胁信息数据安全性。
三、计算机数据存储技术要点
1.数据加密处理
数据加密是现在计算机数据存储比较常见的保护技术之一,利用密码技术来对信息进行加密处理,然后将加密后密文信息存储在存储介质内,对整个传输过程和存储进行机密性保护。根据加密类型主要包括主机软件加密、嵌入式专门加密、加密存储安全交换机以及基础存储层存储设备等,可以根据实际需求来选择应用。
2.访问控制技术
主要包括操作系统自身访问控制、边界访问控制以及应用系统访问控制三个方面。现在操作系统多为C1、C2级,安全操作系统可以达到B1级,且安全操作系统可以提高操作系统强制访问控制能力、密码存取能力、安全审计能力等,对文件、目录以及文件进行有效保护[3]。而边界访问控制则是利用防火墙系统以及支持VLAN网络设备,对数据存储进行保护。另外,应用系统访问控制的实现,一般需要通过应用系统的开发,或者是调用地层操作系统访问控制功能来进行保护。
3.GFS技术
即Google File System文件系统,其为分布式且可扩展,可用于大型分布式以及大量数据的访问,可提供硬件容错性能。每个GFS均由一个master与大量chunkserver构成,可以支持多用户访问,且在资源不限情况下,chunkserver可与访问同时进行[4]。GFS文件分成小块,小块标识为chunk-handle,创建chunk-handle需要由master进行分配,且每小块可被幅值成多个chunkserver,由用户决定保护的副本。
结束语:
为提高计算机数据存储综合效果,需要对各项影响因素进行分析,并根据实际需求来确定存储和安全保护技术,争取提高数据存储质量,为实际应用提供保障,满足生产生活需求。
数据存储技术论文:云计算的数据存储技术
摘 要
随着计算机信息技术的发展,一种新型的计算模式――云计算逐渐兴起,云计算具有超强的计算能力、性、虚拟性、通用性、按需付费等特点,因此云计算近年来发展迅速,已经成为未来计算机发展的方向。本文主要阐述了云计算和云储存的概念,并分析了云计算环境下云计算数据存储Google File System和Hadoop Distributed File System两种存储数据。
【关键词】云计算 云储存 数据存储技术
21世纪是信息知识爆炸的年代,每天产生海量的信息,企业需要处理和存储的数据信息越来越多。如果按照传统计算机算法,企业为了存储信息需要购置大量的硬件设施和软件设施,并需要专人对数据信息进行管理,对设备进行维护,需要耗费大量的人力和物力成本。而云计算这种计算方式,省去了企业管理和维修的麻烦,企业可以将大量的数据信息放在服务器或者云端,企业只需要支付少量的管理费用,就能随时调取云端的数据信息,并享受图片处理、归档服务、音视频转码等多种数据增值服务。
1 云计算与云存储的概念
1.1 云计算
根据美国国家标准与技术研究院的定义:云计算是一种按使用量付费的模式,这种模式提供便捷的、可用的、按需的网络访问,用户只需要进入到可配置的计算资源共享池,包括服务器、存储、网络、应用软件和服务器等,云端管理人员只要通过少量的管理或者与服务商进行少量的交互,就能实现对云端的管理。云其实是互联网的一种比喻说法,通过云计算可以将数据信息存储在计算机中,这里的计算机指的是远程服务器。然后企业根据自己的需求,对计算机存储系统进行访问,并将信息资源直接切换到实际应用方面。计算机直接将主机功能交给了云端,云端的计算能力就跟水电一样,成为了一种商品,这就促使传统计算机方式向现代计算机方式转变。
1.2 云储存
云储存是在云计算的基础上提出的,它与云计算有很多相同的地方。云计算主要是通过网络技术、集群应用和分布式文件系统,利用应用软件将网络中大量不同类型的存储设备连接起来,共同合作,对外提供业务访问和数据存储功能。云存储与传统的存储模式相比,它是一种特殊的构架服务,它必须建立在互联网基础上,为用户提供在线的存储服务。用户不需要考虑存储器中的容量、数据存储位置、安全等问题,只需要按时付费就可以了。
2 云计算的数据存储技术
云计算存储技术具有比较明显的两个特点:及时是高传输率,第二是高吞吐率。当前,云计算存储技术比较主要有谷歌开发的非开源的GFS和Hadoop团队开发的HDFS技术。不过后者在IT厂商应用的比较广泛。
2.1 Google File System
Google File System简称GFS,这种存储技术不仅开源扩展,而且是分布式的,广泛应用在分布式的数据访问。它的硬件价格比较低,但是却提供了容错的功能。每一个GFS都是由一个master和多个chunkserver构成,能够提供多用户的访问权限,只要用户的访问资源不受限制。chunkserver可以和访问同时进行。GFS系统文件被分成很多个小块,每一个小块的标识是chunk―handle,chunk―handle由master分配。为了保障数据的安全性和性,GFS系统文件会被复制在多个chunk―handle上,文件的副本由用户决定,master会对系统文件进行维护。比如系统访问控制、空间名字。此外它还可以控制系统的活动范围,chunkserver间的迁移和单个模块的垃圾收集等。master还会定期指令给chunkserver,让chunkserver收集它的发展状态。目前谷歌公司开发的GFS客户代码基本已经实现了系统文件的AP,所以用户与master的数据交换,之限制元数据操作,存储数据直接和chunkserver联系,chunkserver和文件数据客户不会缓存。
2.2 Hadoop Distributed File System(HDFS)
Hadoop分布式文件系统是HDFS由多个存储数据的终点和管理节点构成的。它的中心服务器是namenode,客户端和文件管理系统namenode对文件进行访问。每一个namenode节点都有一台普通的计算机对应,运行时与单机计算机文件系统类似,可以在文件系统常见名录、更改文件名。其实系统的底层已经把文件分割成了Block,并⒄庑Block进行不同的存储,从而达到容错的目的。namenode是HDFS文件系统的核心内容,它可以维护一些数据结果,再把记录文件分割成Block,并在namenode获得相关的消息。
3 结语
云计算是一种新型的计算模式,它必须依靠大数据或者在大数据的基础上,为计算机用户提供服务和帮助。为了确保计算机数据的性和安全性,云计算对云端数据采取了分层存储的方式,为用户提供多层次的安全防护。但是如今云计算的安全问题依然是用户关心的重点。云存储已经是未来存储的一种趋势。当前各大云存储运营商正在积极开发应用技术、搜索和云存储相结合的技术,为用户提供更加便利的服务,但是云存储的发展还须加强云存储的安全防护功能和技术研究。
作者单位
河南省师范大学附属中学 河南省新乡市 453002
数据存储技术论文:大数据存储技术及其标准化分析探讨
摘 要:随着现代化技术的不断发展,在数据存储上也发生了极大变化,各行各业均开始运用大数据存储来保障系统运行有效性。本文基于这一背景,简单阐述了大数据以及存储技术的概念,分析了大数据存储的几项技术,并在此基础上针对其标准化展开研究,旨在优化大数据存储方式,提升数据使用有效性。
关键词:大数据;存储技术;标准化
大数据指的是一种存储、积累以及挖掘的大文件达到400GB甚至TB存储程度的现象,在现如今信息化、网络化发展时代下,大数据已经并不罕见,且广泛应用于各行各业。传统数据存储及管理中,面对海量的数据存储,其无论是存储能力还是存储效率,甚至是存储安全性方面,均呈现出滞后状态。目前在存储技术上通常分为网络存储以及直接附加存储两种,其中网络存储又分为存储域网络以及网络附属存储两种。不同存储技术适用范围不同,本文针对其存储方式以及标准化展开分析,现报告如下:
1 大数据存储技术研究
1.1 非结构化数据的处理
在这一方面,要数HDFS具代表性。HDFS主要服务于系统中的各项应用程序,其将一些POSIX接口开放,通过主/从结构让流式访问文件的数据被允许操作。它是由不同的数据节点以及一个名字节点所组成,能够让数据按照一定模式分割为不同的64位数模块,并将其安排到不同分布式集群(由不同数据节点组成)中进行存储。当然,若在使用过程中大数据存储量不断增多,只需要增加数据节点即可轻松实现存储功能,扩展性能较强。另外,非结构化数据处理在数据吞吐量方面性能较好,海量的数据处理不会明显影响到用户体验。
1.2 分布式并行数据库
分布式并行数据库主要用于处理海量的、结构化的数据,是一种无共享、并行处理架构的数据管理系统。这类型系统主要采用Slave或是Master架构。Slave在运用上较多,例如用户数据的存储方面,多是被通过散列方式存储在不同的Slave服务器之中,且数据在Slave的不同节点上也具有副本,在系统适用性上较高。Master架构则只用于对元数据的存储。
1.3 半结构化数据的处理
传统数据处理由于没有使用NoSQL数据库,当遇到大数据存储时往往表现出低性能、低扩展性以及低灵活性缺陷。使用了NoSQL数据库之后,云计算得以适应,目前其数据库类型主要有以下几种:列存储数据库、键值存储数据库、图形数据库以及文档型数据库。
2 大数据存数的标准化分析
2.1 云存储服务
目前在大数据存储上,普通用户使用的云存储服务大多为基于对象类型,表现为以下几种模式:⑴绑定。绑定对象为特定的编程语言,表现为API开发包,这类型的绑定处理利用了在REST接口上的一层封装,让编程语言在运行效率上能够大大提升。⑵接口设置。接口设置方面,主要采用HTTP接口或是REST接口两种,要想实现云存储服务,就必须通过编程实现其交互功能,达到数据存储的有效性。⑶非编程状态下的存储。这一种形式是由第三方软件或是云存储本身所在的运营商通过其门户管理来完成的。对于使用者而言,它不需要再次编程,直接利用管理软件调用REST接口或是图形界面即可使用数据存储功能。在这一形式中,使用者在后台控制上会受到第三方软件或者Portal的限制。
2.2 数据模型的设定及应用接口研究
在数据存储管理方面,应注意对队列对象、能力对象、域对象、数据对象以及容器对象这5个对象的管理,并实现对存储数据的访问功能。在这5个对象中,前三个属于特殊容器对象的一种。在Key-Valuc帮助下,每个对象均能够实现元数据描述功能。这里的元数据指的是使用者自定义数据、存储管理数据以及安全元数据等。
应用接口方面,大数据存储技术的应用系统可分为4种,即对象存储系统、分布式文件系统、分布式关系型数据库系统以及NoSQL数据库系统,不同系统在应用接口类型、应用环境以及特性方面对比如下:⑴对象存储系统。可适用REST或是HTTP接口,用于处理基于对象的设备操作以及数据存储,可有效定义对象的属性,为用户提供基于数据对象的功能操作。⑵分布式文件系统。其应用接口可使用HTTP、CIFS或是NFS,主要应用于非结构化数据的管理以及存储,能够将元数据有效定义,同时为用户提供应用及功能并管理相关数据。⑶分布式关系型数据库系统。可适用SQL、JDBC、ODBC应用接口,应用于结构化数据的管理与存储,能够对关系型数据模型有效定义,访问时基于数据组织结构状态。⑷NoSQL数据库系统。适用于API、REST或是HTTP接口,用于对半结构化数据进行管理与存储,其不支持SQL,数据模型处理原则采用schema-free原则。
3 结束语
大数据存储并非一项单纯技术,而是多种不同存储技术的综合。在具体操作方面,其应用接口类型多样化,目前应用最为成熟的算是分布式文件系统。NoSQL数据库系统以及对象存储系统在应用上尚未达到成熟阶段,相信在今后的研究中会不断完善,让大数据存储不断趋近标准化,提升其使用可行性。
数据存储技术论文:浅谈网络数据存储技术及其应用
摘 要:现在网络已经在人们的生活中得到普及,选择良好的数据存储方式已经越来越重要。目前存储已经从主机系统中脱离出来发展成为了一个独立的系统。网络数据存储技术的发展目标就是低成本、高智能。本文就将对现在出现的网络存储技术进行深入分析,分别研究传统的网络数据存储技术和现代化网络数据存储技术的运用。
关键词:网络数据;存储技术;运用分析
伴随网络快速的发展,对于用户选择一种能够满足需求的高性能网络数据存储方式变得尤其重要。怎样做到保障数据的安全性、一致性、性。怎样能够集中的对网上数据进行访问,做到集中管理不同的数据,又怎样实现保护和访问不同主机类型的数据等一系列问题,都是需要通过网络数据存储技术完成的。现在数据存储中经常会出现数据灾难,小到错误的操作和普通文件的损坏,大到由于病毒入侵或是黑客攻击导致整个网络出现瘫痪。所以现在的各个企业单位必须有完善的数据存储和数据恢复计划方案。现在人们普遍使用的就是采用网络技术将数据信息进行异地储存,也就是数据信息不直接储存到本地的服务器上,而是采用相关网络存储技术将信息储存在和服务器相连的专业设备上。现在主要使用的网络信息存储技术有:DAS、SAN、NAS,以下将对这三种技术进行分析。
1 传统的网络数据存储技术分析
DAS存储技术是指利用光纤通道或是SCSI接口将储存设备直接连接到计算机上。当服务器所在的位置较为分散,无法使用远程连接实现互联时,就可以直接连接。直接连接需要投入的成本较少,而且需要的时间也很短,一般在集群环境中对存储容量进行拓展。DAS已经有很长的发展历史了,也是现在较为普遍的网络储存设备。但是伴随用户数据在不断增长,也就在扩展、存储等方面暴露出很多的问题。问题的出现主要有以下几点原因:
1.1 DAS储存方式。DAS在进行存储维护管理和系统的I/O读写对服务器主机操作系统有很强的依赖性,数据设备和恢复需要占用CPU、I/O等服务器主机资源,数据流必须要流回到主机之后再到服务器连接着的磁带机。一般而言数据存储需要占用20%-30%的主机资源,这也就导致企业的数据日常存储工作一般需要在业务系统不繁忙的情况下进行,防止由于占用到服务器主机资源影响企业业务系统的正常运行。当DAS储存的数据量很大时,就需要花费很长的时间,而且对服务器硬件会有一定的影响。
(1)DAS的SCSI连接。采用SCSI连接DAS与服务器主机之间的连接通道。服务器的CPU不断的加强,存储硬盘空间就会变大,排列出来的硬盘数量也就越来越多,SCSI通道将会成为I/O瓶颈,由于服务器主机的SCSI的ID是有限的,所以SCSI连接通道也是有限的。(2)DAS的限制。将一台服务器拓展成为由多台服务器组成的集群或是拓展储存阵列的容量,都有可能导致企业业务系统出现停机,给企业带来不同程度的经济损失,而且无论是DAS的存储还是主机服务器的拓展都是需要原厂商提供,受到了一定的限制。
1.2 NAS储存技术。NAS是一种数据存储附加技术,在计算机网络系统中有着重要地位,能够将计算机网络系统和计算机磁盘序列直接连接起来,由计算机操作系统和计算机服务器构成NAS技术的服务器,在实际运用中能够发挥很强的拓展性,而且NAS也是带有操作系统的存储设备,就相当于一个专用的文件服务器,对文件系统能进行针对性的优化,具有安全、等优点,在电子出版、法律、教育等方面有广泛的使用。
(1)NAS的关键特性。一是将一般服务器中没有发挥作用的计算功能给去掉,只提供存储服务需要使用的文件系统功能,减少了成本。对系统软硬件的结构进行优化,使得存储和网络之间以最有效的方式发送数据,网络操作系统内核具有多线程、多任务的特点,数据传输速率高、非常适合处理网络的I/O请求。二是NAS主要以网络为中心,直接运用现有的网络资源接入到专用的存储设备,而不需要再连接储存设备
(2)NAS的技术性能。现在NAS得到非常普遍的需求主要因为它有以下优点:一是能够共享和访问大量的文件数据,很好的满足企业的需求。二是企业在不断的发展,大型的磁带库或是硬盘等产品虽然能够解决储存问题,但是由于成本过高,对于一些中小型企业可能很难接受,所以NAS能够改善这个问题。三是文件数据能够通过网络传输到多台客户机上,方便部署。
(3)NAS的存在的缺陷。NAS本身有很大的网络协议的开销,因此在数据访问上一些对访问速度要求很高的场合是不适合使用NAS的,比如数据库的一些运用等。NAS技术在使用时会对LAN相关带宽有所占用,从而会有一部分的网络资源被浪费掉,可能会造成用户的正常使用。NAS还有一个限制因素就是很难统一集中管理多个相关设备,只能够对单个储存设备进行单一管理,目前还无法跨越不同的设备。
1.3 SAN。SAN采用光纤通道技术,在网络服务群后端,使用交换机连接服务器主机和储存阵列,形成专门用于区域网络的存储。
(1)SAN存储性能。一是SAN和一般的网络不同,是为了连接服务器、磁带库、磁盘阵列专门设计的网络,并且具有很高的性能。二是由于具有很好的存储连接,服务器能够访问磁盘阵列、磁带等任何的储存设备,而且储存设备和SAN交换机以及储存设备和储存设备之都能进行信息间传递。三是非常适合一些数据恢复和服务器集群等需要传输大量数据的应用。(2)SAN的技术性能。现代企业对数据存储的要求越来越高,所以有些企业采用SAN技术作为网络基础设施。SAN有以下优点:一是能过实现大容量存储设备的数据共享。二是加强了数据存储的性、开放性。三是利用光纤数据传输效率很快,还具有超强的拓展性。(3)SAN的缺陷。SAN技术在维护和构建时,需要具有很强专业能力、业务知识、丰富经验的工作人员,这也就增加一笔人力费用。并且SAN在连接距离上受到了一定的限制。而且由于连接设备在价格上比较高昂,这也就阻碍了SAN技术的发展。
2 现代化新型网络存储技术
2.1 OBS。OBS是基于对象存储的,它的数据块长度是可以变化的,存储属性的基本容器也是具有可拓展性的存储容器能够提供和文件相似的访问方式,比如能够打开、进行读写等操作。NAS和SAN的一些优点在OBS上得到了综合体现,由于是采用的对象接口,所以在很大程度上提升了网络数据存储技术的性能,具备了非常高的扩展性。OBS有一大显著特点,就是能够将网络数据存储的相关物理视图下放到一些存储设备当中,OBS的技术理念是人们关注的重点内容,它的高性能和极强的扩展性使其得到了人们的认可,也在网络数据存储技术领域占得重要地位。
2.2 云存储。云储存和云计算非常的相似,它的发展基础就是云计算,主要是通过相关软件将网络各种存储数据集合在一起,共同进行工作。使用网络技术或是集群运用等功能,对外进行业务访问或是对相关数据进行存储。
3 结束语
现在NAS、DAS、SAN之间存在的差异正逐渐被模糊。目前所有的网络存储技术在社会经济的不断发展和用户的各种需求下逐步的趋于完善。NAS、SAN都是在人们对网络数据存储的各种诉求中在之前DAS的基础上发展起来的。在新时期又出现了OBS和云存储,目前无论是传统的网络数据存储技术还是现代化的网络存储技术,都还存在一些或多或少的问题,需要不断的进行研究和完善。通过加强网络数据存储的安全性、拓展性、性,来促进网络数据存储技术的运用。
数据存储技术论文:刍议海量数据存储系统的高性关键技术研究与应用
【摘要】近些年,随着存储技术的日益发展,如何对海量的数据进行高效的处理和存储,已经成为计算机信息技术中急需解决的问题,TB或PB级容量存储系统的出现已经成为现实。本文介绍了海量数据的基本特征,分析了海量数据存储的基本原则,提出几种适用于海量数据的存储方式来提升存储的高性。
【关键词】海量数据 存储系统 性 技术
随着信息技术的不断发展,数据已经成为了越来越多人日常生活中的重要资源。据统计,全球信息化进程大步推进,2010年创建、存储和复制的数据总数已达到1.2ZB,2011年又达到了一个新里程碑1.8ZB,根据这种增长速度,预计到2015年将达到近8ZB。与此同时,也有许多海量数据存储单位,如国家地震局、国家气象局、国家图书馆、中央电视台等,每年可高达数几十PB的数据存储量。对于这样的单位和企业,解决他们数据高效的存储问题已经成为当下的主要问题之一。所以在数据爆炸式增长的大背景下,无论是个体还是单位和企业,数据的存储量持续增加必然导致存储设备的不堪重负。为了满足人们日益扩大的数据存储需求,对数据存储的性、安全性提出了更高的要求,传统技术和传统手段已经无法应付目前的形式,如何实现高质量、性高的数据存储已经成为整个行业面临的巨大挑战。
一、海量数据存储的一般基本原则
海量数据是指数据量大、数据记录多,具有非常复杂的不同类型。如何处理这样一种特殊的信息,使其充分发挥作用,是我们关注的问题。出于全局考虑,存储海量数据应遵循以下基本原则。首先,海量数据存储应“分层存储”,引入数据的综合分析概念,区别数据的本质从而采取不同的存储策略。读取频次较高的数据应当存储在大容量磁盘阵列,低速磁盘阵列则应当储存访问频次较低的数据,访问频次极低的数据则应当储存在磁带介质上。其次,配备足够容量的高性能阵列,并辅之以相关的软件将数据自动分层存储管理。再次,考虑需要存储的数据的复杂类型,应设计相对完整的解决方案,以确保数据储存的性。
二、存储系统及其性实现
(一)磁盘阵列存储。
RAID(Redundant Array of Independent Disks) 是冗余的独立磁盘阵列的英文缩写。1988年提出由美国加州大学伯克利分校的David Patterson等人提出了这一概念。冗余是为了纠正错误,并采取有效方法提高性,独立是指阵列不存在于主机内,而是自成一体的系统。一般可以分为多个不同的RAID级别,最常用的是RAID0到RAID6。
(1)RAID0:没有任何冗余磁盘阵列。RAID0无法提供一个良好的冗余或奇偶校验,但它能够提供非常高的传输速率和I/O速率。
(2)RAID1:提供了非常高的性和安全性,适合存放重要数据。
(3)RAID2:并行处理阵列,提供镜像和分段的数据存储。
(4)RAID3:RAID2的基础上,增加一个奇偶校验驱动器,为每个I/O操作提供服务。
(5)RAID4:使用块级拆分,一个单独的磁盘为其他N-1个磁盘保留奇偶校验块。此等级很少使用。
(6)RAID5:RAID4的基础上,将数据和奇偶校验分布在所有N+1个磁盘中,是适合大型数据系统的等级。
(7)RAID6:RAID5的基础上进行改进,提供一个安全网,防止多个磁盘发生故障的情况。
RAID技术为用户提供了可以同时兼顾速度和良好数据安全的解决方案,磁盘阵列可避免单个磁盘故障带来灾难性的后果,从而保障了高性的数据存储。但不同的RAID级别在完整性和性方面还有不同程度的缺陷。
(二)网格存储。
和网格计算类似,是部署和管理分布在多个系统和网络存储的新模式,网格实际上是一个网状网络,它不控制单个集中式交换机或集线器的路由。网格提供了无限的可扩展性的大小和性能,因为它们不会受到集中的中央交换机的舒服。因此,降低了网格网络部件的成本,以产生和灵活的结构。
(三)P2P 存储。
P2P带来的变化是改变“内容”所在位置,从“中心”走向“边缘”,该内容将不再是存储在在几个主要的服务器上的,而是存储在所有的用户PC上。这为网络存储提供了可能,我们将提高网络的剩余存储空间的利用率。对存储容量的需求是无止境的,提高存储容量,在某种程度上也是保障了数据的高性。
(四)存储容灾。
存储容灾是指建立一个异地的数据系统,可以理解为是一个本地副本,可用于存储关键数据。当本地数据及整个应用系统崩溃时,系统保存的异地数据系统可以提供至少一个可用的关键业务数据。该数据可以实时地与本地生产完整数据复制,也可以稍微落后于本地数据,但它是可用的。采用的主要技术是数据备份和数据复制技术。通过特定的容灾机制,可以将崩溃发生后的伤害降到低,较大限度保护海量数据系统的正常应用以及不间断服务。
三、总结
随着互联网技术的快速发展及普及,全球化数字时代已经到来,数据呈现出了飞速增长的趋势,这样就给数据的存储工作带来了大量的工作难度。在数据爆炸式增长的大背景下,无论是个体还是单位和企业,数据的存储量持续增加必然导致存储设备的不堪重负。为了满足人们日益扩大的数据存储需求,对数据存储的性、安全性提出了更高的要求。通过以上四种信息存储方式,可以有效提高海量数据的存储,实现数据的安全性。
数据存储技术论文:大数据时代数据存储技术的发展
【摘要】数据存储技术经历了从手工管理到文件管理、再到数据库管理系统三个阶段,数据库技术中关系数据库占据了主要地位。互联网络的兴起,促使用户数据暴增,大数据时代已经来临,对存储介质容量和数据检索速度都提出了更高的要求,传统的关系数据库难以胜任这一角色,NOSQL数据库逐渐兴起。本文在介绍大数据概念的基础上,分析关系数据库的优劣势,并介绍NOSQL数据库的理论基础和当前NOSQL数据库产品。
【关键词】大数据;关系数据库;NOSQL
一、大数据
1.大数据产生的背景
大数据(Big Data),也称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的资讯,通常被认为是PB或EB或更高数量级的数据。
互联网络从上世纪90年代开始,发展迅速,加快了信息传播和共享的速度,尤其是一些社交网站的兴起,数据量更是以前所未有的速度暴增,文字资料、声音、视频、图像等多媒体数据铺天盖地。据资料显示,上世纪90年代,互联网资源不是很丰富的时代,网民月平均流量1MB左右,之后则快速增长,2000年后,逐渐发展为每月10MB、100MB、1GB,据估计2014年可能会达到10GB。淘宝网每日几千万笔交易,单日数据量达几十TB,数据存储量几十PB,百度公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB数据。
随着技术发展,大数据广泛存在,如企业数据、统计数据、科学数据、医疗数据、互联网数据、移动数据、物联网数据等等。总之,大数据存在于各行各业,一个大数据的时代已经到来。
2.大数据时代的挑战
大数据特点是容量在增长、种类在增长、速度也在增长,面临如此庞大的数据量,数据的存储和检索面临着巨大挑战。比如2007年时,Facebook使用数据仓库存储15个TB的数据,但到了2010年,每天压缩过的数据比过去总和还多,那时商业并行数据库很少有超过100个节点以上的,而现在雅虎的Hadoop集群超过4000个节点,Facebook仓库节点超过2700个。大量的数据现在已经开始影响我们整个的工作、生活、甚至经济,如何存储和高效利用这些数据是需要我们解决的。
二、关系数据库
1.关系数据库概述
关系型数据库是支持关系模型的数据库系统,他是目前各类数据库中最重要,也是使用最广泛的数据库系统。关系型数据库从上世纪70年代诞生到现在经过几十年的发展,已经非常成熟,目前市场上主流的数据库都为关系型数据库,比较知名的有Oracle数据库、DB2、Sybase、SQL Server等等。
2.关系数据库优势
关系数据库相比其他模型的数据库而言,有着以下优点:
模型容易理解:关系模型中的二维表结构非常贴近逻辑世界,相对于网状、层次等其他模型来说更容易理解。
使用方便:通用的SQL语言使得操作关系型数据库非常方便,只需使用SQL语言在逻辑层面操作数据库,而不必理解其底层实现。
易于维护:丰富的完整性大大降低了数据冗余和数据不一致的概率。
3.关系数据库存在问题
传统的关系数据库具有不错的性能,稳定性高,历经多年发展已日臻成熟,而且使用简单,功能强大,也积累了大量的成功案例。上世纪90年代的互联网领域,网站基本都是静态网页,主要以文字为主,访问量也不大,当时用单个数据库可以应对。可近几年,动态网站随处可见,各种论坛、博克、微博异常火爆,在大幅度提升交流方式的同时,用户数据量迅速增长,处理事务性的数据关系数据库得心应手,可面对互联网的高并发、大数据量关系数据库显得力不从心,暴露了很多难以克服的问题:
数据库高并发读写:高并发的动态网站数据库并发负载非常高,往往要达到每秒上万次甚至百万次、千万次的读写请求。关系数据库应付上万次SQL查询没问题,但是应付上百万、千万次SQL数据请求,硬盘IO就已经无法承受了。
海量数据的高效率访问:一般大型数据库在百万级的数据库表中检索数据可达到秒级,但面对数亿条记录的数据库表,检索速度效率是极其低下,难以忍受的。
数据库可扩展性和高可用性:基于web的架构当中,数据库无法通过添加更多的硬件和服务节点来扩展性能和负载能力,对于很多需要提供24小时不间断服务的网站来说,数据库系统升级和扩展却只能通过停机来实现,这无疑是一个艰难的决定。
三、NOSQL数据库
1.NOSQL数据库理论基础
NOSQL作为新兴数据库系统概念,由于其具备处理海量数据的能力,近年来受到各大IT公司的追捧。Amazon、Google等大型网商已纷纷斥资进行研究并开发了适用的产品。谈及NOSQL数据库,首先应该了解支持NOSQL的理论:CAP理论、BASE思想和最终一致性。
(1)CAP理论
CAP理论由Eric Brewer在ACM PODC会议上的主题报告中提出,这个理论是NOSQL数据管理系统构建的基础,CAP解释为一致性(Consistency)、可用性(Availability)以及分区容忍性(Partition Tolerance)。具体描述如下:
强一致性(Consistency):系统在执行过某项操作后仍然处于一致的状态。在分布式数据库系统中,数据变更后所有的用户都应该读取到近期的值,这样的系统被认为具有强一致性。
可用性(Availability):每一个操作都能够在一定的时间内返回结果。“一定时间内”是指系统的结果必须在给定时间内返回,如果超时则被认为不可用,“返回结果”同样非常重要,必须能提供成功或失败的信息。
分区容错性(Partition Tolerance):分区容错性可以理解为系统在存在网络分区的情况下仍然可以接受请求。
CAP是在分布式环境中设计和部署系统时所要考虑的三个重要的系统需求。根据CAP理论,数据共享系统只能满足这三个特性中的两个,不能同时满足三个条件。因此系统设计者必须在这三个特性之间做出权衡。例如Amazon的Dynamo具有高可用性和分区容错性但不支持强一致性,也就是说用户不能立即看到其他用户更新的内容。
(2)BASE思想
BASE(Basically Availble),基本可用,强调数据库的最终一致(Eventually consistent最终一致,最终数据一致就可以,而不是时时高一致),不同于传统关系数据库基于的ACID模型。
ACID特性与高性能是不兼容的。比如,在网店买东西,每个客户买东西时都会通过锁来同步数据操作,操作完成每个客户都可以看到一致的数据。也就是说,不允许多个客户同时买的情况。很明显对于大多数网上商城,尤其是大型网商来说,这个方法并不适用。
BASE思想实际上是CAP理论中AP的衍伸。通过牺牲高一致性,保障高可用性和分区容忍性。BASE思想的组成有以下3个部分:基本可用、软状态、最终一致性。BASE模式指的是一个应用在任意时间首先应该能完成最基本化的工作(即基本可用),并不需要总是一致(即软状态),但最终应该是一致(即最终一致性)的。
(3)最终一致性
数据一致性可分别从使用者和提供者角度看:从使用者的角度,如何观察数据更新;从提供者的角度,也就是服务器端,更新如何在系统中实现。
一致性可分为强一致性和弱一致性两种:强一致性要求更新过的数据能被后续的访问都看到,根据CAP理论,强一致性无法和可用性、分区容忍性同时实现;弱一致性,指读取操作能够见到变化的数据,但不是所有变化的数据。
最终一致性属于弱一致性的一种,即存储系统保障如果没有新的更新提交,最终所有的访问都将获得的更新。如果没有故障发生,不一致性取决于通信时延、系统负载以及复制策略中涉及的副本数。
2.NOSQL数据库产品
NOSQL(Not Only SQL)数据库是指那些非关系型的数据库。NOSQL数据库分为Key-Value、Key-Document和Key-Column这3类。典型的NOSQL产品有Google的BigTable、基于Hadoop HDFS的HBase、Amazon的Dynamo、CouchDB、MongoDB、Redis等。
NOSQL数据库遵循CAP理论和BASE原则,大部分Key-Value数据库系统都会根据自己的设计目的进行相应的选择,如Cassandra、Dynamo满足AP,BigTable、MongoDB满足CP。
四、结束语
本文首先介绍了大数据概念,分析了关系数据库在存储大数据量方面的不足,并介绍了当前NOSQL数据库的基本理论和当前产品分类。大数据时代的来临,我们忙于如何存储和处理这些数据,但随着计算机互联网、移动互联网、物联网等网络的快速发展,数据量会持续大幅增长,如何长期保存这些数据以及如何处理更大级别的数据量,都需要我们思考并解决。