引论:我们为您整理了1篇数据管理论文:范文,供您借鉴以丰富您的创作。它们是您写作时的宝贵资源,期望它们能够激发您的创作灵感,让您的文章更具深度。
数据管理论文:海洋遥感数据管理论文
1多传感器遥感影像数据建模
1.1建模原理
为实现多源异构遥感影像数据的统一管理,需要建立统一的数据模型。在逻辑结构上将遥感影像数据划分为描述性元数据信息和数据实体,在业务流程上将数据建模分为元数据建模和数据建模。
1.2元数据建模
遥感影像通常格式特定、数据量大,而元数据是对影像获取信息、质量信息、空间特征等的概括抽取,通常为文本格式、数据量小,具有信息丰富、读取方便等优点[11-12]。本文根据元数据描述对象的特点和数据管理要求,构建了海洋遥感影像元数据的统一模型,如图1所示。其中,数据要素级信息由元数据解析读取获得;数据集级信息可批量手工录入,便于按照专项、区块、调查单位及时间等对各专项数据进行管理;数据库级信息在数据入库时由系统自动扫描数据的存储路径、大小、状态、权限等生成。
1.3数据建模
本文基于面向对象的思路方法,将多源异构的海洋遥感数据抽象表达为数据实体、元数据、空间特征和快视图等基本组成部分及其对应关系。建立数据模型由E-R图表示,如图2所示。由于目前存档的海洋遥感影像数据包含多种星源影像、航空影像和4D产品,且同源数据还包含不同级别、类型产品,因此,需要对每种产品类型数据分别构建数据模型,完成主数据标识确定、影像ID命名规则、数据对象和元数据识别规则等定义,流程如图3所示。影像数据建模支持面向多种数据源的各种影像目录模型的定义,具备对影像数据存储方式、数据格式、坐标系统等参数的设置。
2多传感器影像数据模型实体自动提取与匹配
2.1技术路线
为将构建的数据模型应用于实践,本文提出多传感器影像数据模型实体的自动提取与匹配技术,解决了如下几个关键问题:①多源异构影像元数据自动识别与解析;②空间特征、快视图及影像覆盖范围矢量自动提取与生成;③数据ID命名规则制定及数据模型实体间自动匹配。技术路线如图4所示。
2.2元数据自动提取与输出
根据构建的数据模型,本文建立了一套自动提取与输出元数据信息表的技术流程,核心是从多源异构的元数据中提取出与元数据模型对应的字段信息,消除数据冲突,并利用元数据中关于空间特征的描述自动生成影像数据矢量覆盖范围。具体如下:1)元数据文件识别:依据建立的数据模型,对每类影像产品定义元数据文件格式。如ALOS影像产品定义“HDR-*.txt”为元数据格式。2)元数据格式解析及数据冲突消除:建立元数据提取配置文件,将多源元数据文件中的字段名称对应至提取配置模板中,消除元数据命名冲突和语义冲突。命名冲突指相同字段(如影像左上角纬度)在不同元数据中有不同名称(如ImageSceneLeftTopLatitude、SCENE_UL_CORNER_LAT等)或同一字段(如ProductType)在不同元数据中表示不同意思(产品类型或产品处理级别)。语义冲突指不同元数据对同一字段在描述方式、内容上的不同造成的语义不一致性,如投影带号在不同元数据中表示为ZoneNumber和ZoneNo.两种形式。本文数据冲突消除方法的实质是通过元数据配置文件将多源元数据字段名称映射到元数据模型的全局名称,通过提取配置模板和输出模板两步实现。3)元数据信息提取:将元数据文件内容全部读入内存,用程序分步定位的方法提取元数据字段信息。以ALOS影像元数据“UTMZone="51N"……”为例,提取投影带号信息需先定位至“UTMZone”字段,查找“=”后、符号“"”之间的字符串,即为带号“51N”。又如,XML格式的RAPIDEYE元数据文件中,提取成像时间需定位至以“<eop:acquisitionDate>”开始、“</eop:acquisitionDate>”结束中间的字符串,即为成像时间。元数据信息提取将原始元数据字段对应至提取配置模板字段,生成中间元数据文件。4)元数据信息输出:定义元数据输出配置模板,将中间元数据文件字段对应至元数据模型中的字段。输出配置模板按卫星影像、航空影像、4D产品和动力卫星数据等设置四类。输出时还可对模板字段进行批量统一赋值。5)矢量范围输出:由元数据提取影像四角坐标值,调用ArcGIS脚本语言函数CreateFeaturesFromTextFile_samples(),将四角坐标文本文件、分隔符、输出矢量文件和空间参考基准作为输入参数,生成带有空间参考信息的ShapeFile格式的影像范围矢量。
2.3基于GDAL的快视图自动提取
以往快视图作用仅定位于数据浏览不同,本文提出的数据模型要求将快视图匹配至影像空间特征,并录入关系型数据库实现集成管理。然而,影像产品数据集中提供的快视图通常不包含空间坐标信息,因历史原因各单位汇交数据中快视图或已丢失或因重命名已不满足数据模型识别要求,加之航空影像、4D产品通常不具备快视图,快视图自动提取面临较多问题。因此,针对多源异构影像,本文基于GDAL(GeospatialDataAbstractionLibrary)对快视图自动提取并匹配至空间特征,流程如图5所示。GDAL是X/MIT许可协议下的开源地理栅格空间数据转换库,支持几乎所有常见的遥感图像文件格式的读取、格式转换和重采样等基本操作。本文选用开放源代码的GDAL库作为多源影像的访问引擎,为影像的访问和基本处理提供统一接口。提取后的快视图具有了和影像文件一致的空间坐标和数学基准。
2.4数据模型实体自动匹配
本文在分析各类影像产品数据建模的基础上,提出基于规则的影像ID命名方法,通过指定影像惟一ID实现影像数据文件、快视图、元数据和矢量范围的自动匹配。具体如下:1)针对特定影像类型,根据数据模型定位至元数据文件,确定元数据存放目录,将元数据上级文件夹记为ParentDirectory(1)。定位至元数据的好处在于:与元数据信息提取的过程相一致避免重复搜索;部分影像数据分波段存放(如中巴、TM等)或分块存放(如WorldView),定位至影像文件很难形成与影像数据包一对一的关系。元数据文件通常与影像文件在同一目录、名称一致,并且元数据中通常有影像文件名信息。2)制定影像ID命名规则,标识惟一影像数据包。通常情况下,元数据文件名能够标识惟一影像数据包时,采用元数据文件夹名命名;若不行,则需要考虑数据文件名、或上级(ParentDirectory(1))至上几级文件夹名(ParentDirectory(N))的组合形式来命名影像ID。部分示例如表1所示。特征的相互匹配,为数据建库和入库管理奠定基础。
3多传感器海洋遥感影像集成与管理
根据数据模型和集成管理的要求,本文研发设计了多传感器影像自动加工工具(以下简称“工具”)和海洋遥感影像管理信息系统(以下简称“系统”)。考虑到数据安全和保密需要,工具设计为单机版,系统采用C/S架构。系统采用.NetFrameWork框架搭建平台,利用ArcGISEngine组件做专业性功能开发;服务器端部署Oracle11g数据库和ArcSDE空间数据引擎,服务器端与客户端通过内网连接。工具研发基于多传感器遥感影像数据模型实体自动提取匹配技术,对不同影像元数据操作提供统一的配置交互界面(见图6)。工具支持用户根据影像类型和建模要求配置元数据提取和输出模板,提供预定义的影像ID命名规则。模板与规则均以XML格式保存,支持用户自定义修改,扩展性强。工具能够从元数据和影像数据文件中批量生成元数据信息表、快视图和空间特征一一对应的标准数据集,并通过影像ID与原始数据包自动匹配,与后端管理系统有效衔接。依据本文构建的多源异构影像数据模型,系统按照“元数据表+快视图+空间特征数据文件”的方式,将数据存储路径记录在二进制变长字段内,并将影像对应的元数据信息表、空间特征和快视图信息存放于关系型数据库表中,从而实现了海量数据的无缝管理。系统提供数据空间范围、快视图、数据包详情的查询浏览、分析统计等功能,并支持用户通过选择元数据记录、下载相应的遥感影像数据实体。如图7所示。数据建模是整个系统的核心内容。系统将入库配置环节设计为功能模块,按照“元数据项管理—资料建模—数据建模—编目管理”的步骤,向导式指引用户完成数据建模和存储规划。其中,元数据项管理完成元数据项的定义;资料建模为元数据模型的定义;数据建模为每类资料构建数据模型;编目管理为数据入库设计相应的数据节点。系统入库需用户提供影像数据实体文件存储路径,以及影像加工工具生成的标准元数据表、快视图和矢量文件。入库过程中,系统首先根据数据模型校验是否能在指定路径下正确识别遥感影像原始数据包。校验完成后,系统根据主标识字段(即影像ID),自动匹配影像数据包、元数据表、快视图和矢量范围,并根据元数据模型判定输入元数据表信息是否正确、齐全。在所有判定条件都满足后,系统扫描并存储每条数据文件的存储路径,并将元数据表、快视图和矢量范围入库。系统支持用户浏览查询、编辑修改和数据下载等操作。用户可按数据节点、数据查询结果等方式浏览影像快视图、矢量覆盖范围和元数据表,并可对元数据表编辑修改。数据查询支持数据节点下自定义几何形状(线或多边形)、跨数据节点综合模糊查询两种查询方案。数据下载通过元数据表、快视图或矢量范围等与数据文件的自动匹配,在记录存储路径下定位相应数据文件并提供下载服务。
4结束语
本文基于面向对象的思想,将多源异构的海洋遥感数据抽象表达为数据实体、元数据、空间特征和快视图等基本组成部分及其对应关系,构建统一的数据模型。从数据要素级、数据集级和数据库集,建立了统一的海洋遥感影像元数据模型;从数据主标志判定、影像ID命名规则、快视图判定等方面完成了各类遥感影像产品的数据模型构建。采用“元数据+快视图+空间特征数据文件”的管理方式,实现了海量数据的无缝管理。依据构建的数据模型,本文提出多传感器影像数据模型实体自动提取与匹配技术,实现了数据实体与元数据信息、空间特征和快视图的自动提取与匹配,构成了多传感器遥感数据实体与元数据一体化集成管理模式的基础,并在我国现有海洋遥感影像数据管理系统中得到了成功应用,从根本上实现了海量多源遥感影像数据的统一集成和灵活管理,提升了现有海洋遥感数据的信息化管理服务能力。
作者:王祎婷 邢喆 李四海 李艳雯 焦红波 单位:北京师范大学 地理学与遥感科学学院 国家海洋信息中心
数据管理论文:油气井生产数据管理论文
油气井生产数据管理软件的总体设计思路是利用DTU配套的ActiveX控件实现了GPRS透明传输;当DTU数据上传到数据管理中心时,触发数据采集、解码、存储等一系列动作,并利用DundasChart控件绘制实时数据曲线。另外,软件根据用户界面操作,触发数据查询、历史曲线绘制、报表导出、参数设置等功能。
1功能模块设计
油气井生产数据管理软件有三个功能模块:数据采集与存储、数据查询与导出、系统设置。数据采集与存储:通过ActiveX控件获取进口DTU上传的数据,然后根据系统设置中的数据结构对数据进行解码和校验。将数据存储于数据库对应表中,并同时将数据写入Dun-dasChart控件,重新绘制对应井的曲线。数据查询与导出:通过井号、起始时间、结束时间等关键字段,进行组合查询,查询的结果以报表和曲线形式呈现,可以对数据进行增加、删除、编辑等操作,也可以导出到EXCEL报表中,方便用户进一步使用或分析数据。系统设置:为其它模块正常运行提供基础参数,包括生产数据管理软件使用的网络IP、侦听端口号、DTU注册ID、DTU通讯密码、DTU对应的井号、实时监控的范围、告警阀值、数据结构(数据解码与校验)、数据库备份与还原、用户名和密码以及拥有的权限。
2数据库设计
数据库设计遵循第三范式的规则,数据表中的每一列数据都和主键直接相关,使得数据冗余度较低,数据库结构合理。数据库包括五张数据表:生产数据、DTU参数、生产井信息、用户信息、本系统参数。生产数据表的主要字段为:DTU注册ID、压力、温度、流量、液面高度、时间等。DTU参数表的主要字段为:DTU注册ID、电话号码、网络协议、网络IP、端口号、登录时间、更新时间、工作状态等。生产井信息的主要字段为:井号、DTU注册ID、生产单位、开井时间、备注等。用户信息表的主要字段为:用户名、密码、所属部门、角色、权限等。
3曲线设计(显示没一点的值)
采用DundasChart控件为生产数据管理软件提供先进的数据可视化功能。利用DundasChart控件创建实时曲线和历史曲线,两种曲线在元素布局上保持一致,方便使用者快速获取和理解曲线中所蕴含的信息,但在样式设计上采用不同风格,以便使用者快速区分实时曲线和历史曲线。另外,实时曲线是不断向左滑动的,当有新的数据时,首先删除最早的数据,然后添加新的数据点,始终保持最近五个数据点的曲线。历史曲线根据查询结果绘制曲线,同时显示所有符合查询条件的点。当使用者更换查询条件或修改数据时,历史曲线会重新绘制。生产数据管理软件最多同时显示六口井的实时曲线,同时监控所有井的状态;当生产数据超过告警阀值,软件会弹出警告提示;如果当前显示的实时曲线不包括该异常井,软件会用异常井的实时曲线替换当前显示的一口井的实时曲线。另外,实时曲线和历史曲线可以放大和缩小,隐藏或显示告警阀值线,隐藏或显示指定井的曲线。
4软件实现
生产数据管理软件在.NET平台上,使用C#技术在Micro-softVisualStudio2008环境下进行开发,后台使用SQLServer2005数据库,GPRS通讯使用OCX(ObjectLinkingandEmbe-ddingControleXtension)控件,绘制曲线采用图表控件。
作者:胡军 单位:中国石化江汉油田分公司石油工程技术研究院
数据管理论文:医疗秘密共享技术数据管理论文
一、秘密共享技术
使用秘密共享技术可利用多个数据中心形成低成本的医疗数据云,实现云计算时代的数据管理要求,即不需要自己保管关键数据,有安全的地方保存关键数据,任何地点、任何时间可使用数据,仅合法用户可访问数据,降低初始投资和运营成本,确保业务的持续性。秘密共享也是一种加密技术。以Shamir[1]的(k,n)门限秘密共享方案为例,其原理是将秘密消息加密并分割成n个分享份额后分布存储到不同的远程数据中心,多个数据中心构成低成本的医疗数据云。每个数据中心存放的单个分享份额看起来毫无意义,传输和存储不再需要额外的机密性保护,秘密只能从不同数据中心收集满任意k个组成的授权子集中得以恢复,而对于不足k个分享份额的非授权子集,即使拥有无限计算能力和无限大的存储器也无法恢复秘密,因为秘密共享技术的安全性不像传统加密技术那样基于复杂的计算,而是基于信息理论,所以可保障秘密的长期安全性,目前主要用于安全要求较高的密钥管理方面。此外,n个分享份额具有冗余性,即使任意(n-k)个分享份额遭到损坏或因网络故障不能获取,也能从其余的k个分享份额中恢复出秘密,这可保障业务的持续性。秘密共享方案可以是的,也可以是不的。(k,n)门限方案具有的安全性,即少于门限值k个的分享份额得不到原始消息的任何信息,方案的缺点是每个分享份额的长度≥原始消息的长度,即所有分享份额的总容量≥原始消息的n倍,如果用于数据量很少的密钥共享是没有问题,目前实际应用的几乎都是秘密共享方案,但对于数据量较大的医疗数据管理来说,效率和安全一样重要。
二、提高秘密共享技术的效率
要提高秘密共享技术的效率首先可从算法入手,目前典型的秘密共享算法是Shamir[1]的多项式插值法,这种算法的优点是不管(k,n)门限方案中k和n取什么值,都能用通用的公式实现加密和解密。有作者提出了(k,n)门限方案的异或运算方法[2-4],异或运算的效率要比多项式插值法高很多,这种方法没有通用的加密或解密公式,不同的k和n取值,需设计不同的加密和解密方法,这使得加密和解密方法也成了秘密的一部分,虽然通用性不高,但安全性更高。Yamamoto[5]提出的(k,L,n)秘密共享方案可大幅减少计算量和传输量,该方案被设计成1个原始消息s可从n个分享份额中的任意k个分享份额获得重构,从任何(k-L)个或更少的分享份额中得不到原始消息的任何信息,但可能会从(K-j)(其中,j=1,2,…,L-1)个分享份额组成的跳板(Ramp)集合中获得一点儿有关原始消息的信息,由于该方案可能会牺牲一点安全性,所以被称为不的秘密共享。但根据对已有(k,L,n)方案的具体算法的研究发现,Ramp集合的不安全性是可以避免和消除的。此方案的优点是:每个分享份额的位长是原始消息长度的1/L,所有分享份额的总容量降为原始消息的n/L,这将使计算量和传输量比(k,n)方案降低大约L倍。(k,L,n)方案的概念自提出以来,根据广泛的国内外文献检索结果显示,目前国际上实际的应用案例还非常少,迄今还没发现任何医院使用这项技术进行数据安全管理。
三、秘密共享服务软件
我们开发了秘密共享服务测试软件,使用了异或运算的(3,2,4)Ramp秘密共享技术,发现该技术可胜任大容量医疗数据的分布式存储。该秘密共享服务软件可为用户提供远程备份、远程访问、共享与交换等医疗数据的安全管理功能。用户通过常规方式在指定文件夹中存储1个文件,该文件就会被自动加密并分割成4个子文件,子文件又被分布存储到4个数据中心,每个数据中心存放的单个子文件毫无意义。用户随时随地再次登录并打开文件时,秘密共享服务软件又自动从不同的远程数据中心收集任意3个子文件,恢复出原始文件,同时相关联的应用程序会自动开启,文件又可被编辑和浏览。任何一个子文件遭破坏或因网络故障无法获取,也不会影响文件的恢复。将秘密共享服务软件用于医疗数据的远程备份可兼顾安全性和冗余性,从而保障业务的持续性;用于远程访问可使远程工作者无需随身携带数据,随时随地通过账号远程登录秘密共享服务文件夹抽取数据;通过多用户共享1个秘密共享文件夹可为多用户或多机构的医疗数据交换与共享提供多一种选择。
四、秘密共享方案的优势
1.兼顾安全性和可用性 由于存储的数据已被加密成非敏感数据,传输和存储不需要额外的机密性保护;分割出来的子文件被分布存储到几个不同的地点,可应对大范围灾难的发生;子文件具有(n-k)个冗余备份,即使(n-k)个子文件被偷窃或由于网络故障等原因不能即时获取,也不会影响原始文件的恢复;少于k个子文件则不能获知有关原始文件的任何信息;用户不需将敏感数据小心地攥在自己手里,合法用户可随时随地远程抽取所需要的数据,避免了随身携带数据可能导致的数据丢失和泄露的风险,如笔记本电脑被偷或闪存的丢失等。2.高效 加密和解密使用异或运算比传统的多项式插值法快很多,同时,(k,L,n)Ramp方案又使得计算量和传输量比传统秘密共享方案降低了约L倍。3.经济 使用秘密共享技术构建的医疗数据云是低成本的存储资源,子文件的传输和存储不需要额外的隐私保护措施,降低了医疗机构的初始投资和运营成本。
作者:龚庆悦 胡孔法 龚志千 申俊龙
数据管理论文:联通用户数据管理论文
1部门信息维护
(1)部门管理:按行政线展示,通过行政管理关系管理部门;按业务线展示,通过业务上级部门关系管理部门。系统缺省提供已有涉及渠道管理部门信息,数据来源M域系统、B-SDM系统、集中渠道系统。部门修改功能。支持按部门名称或部门编码模糊查询。(2)部门行政关系查询:系统缺省提供已有涉及渠道管理部门信息,数据来源总部管理数据库。部门关系树按行政管理部门建立,即可进行行政管理部门查询功能。(3)业务部门管理:系统缺省提供已有涉及渠道管理部门信息,数据来源总部管理数据库。部门新增、修改、删除和查询功能。(4)部门补充信息:将新增的部门添加行政管理部门。(5)部门补充业务线:将新增的部门补充业务线。(6)部门导出:对部门查询出的内容进行导出。
2人员信息维护
(1)自有人员信息管理:支持对部门的人员信息的选择添加、修改和查询功能。支持人员修改时对渠道名称的修改。支持人员添加与管理渠道之间的维护。(2)自有人员导出:查询出符合条件的联通自有人员信息,并且将这些信息导出为EXCLE格式。(3)社会人员导出:查询出符合条件的归属渠道社会人员信息,并且将这些信息导出为EXCLE格式。(4)社会人员帐号管理:支持对社会渠道中的人员信息、帐号信息的新增、修改、删除(注销)功能。支持批量导入注册功能。支持区分人员是实体人员还是虚拟人员,对于标记虚拟人员的员工禁止登入使用系统。支持对是否客户经理以及客户经理类型的区分。支持新增人员与管理渠道之间的维护。(5)虚拟人员维护:查询出归属地域以下的所有存在人员账号信息的自有人员信息。提供虚拟人员新增功能,虚拟人员新增必需要挂靠已有的自有人员帐号下。提供虚拟人员修改功能。提供虚拟人员注销功能。提供虚拟人员详细信息查看功能。
3数据变更提醒
变更提醒:在我的工作台中人工处理M域发起的部门新增、修改、注销操作。提供在我的工作台中人工处理渠道发起的部门维护操作。提供在我的工作台中人工处理B-SDM发起的部门维护操作。
4接口异常处理
记录管理:查询出操作员所在省份的记录信息。通过【查询明细】按钮,可以查询与记录关联的明细信息。通过【重新发送】按钮,对发送失败的明细信息重新发送。通过【人工处理完成】按钮,将发送失败的明细信息置为人工处理完成状态。
5系统管理
系统管理员可以管理用户分组,维护组的信息,通过增加新组添加一个新的用户分类方式。系统有默认的超级管理员,只能做设置系统管理员的操作。由系统管理员设置部门管理员,部门管理员具有对整个系统的部门、用户管理权。部门管理员能设置辖内下级部门的管理员。(1)权限管理:权限管理是按不同的工作范围和角色管理系统操作者享有的资源及访问的范围,通过对一些要素的灵活控制实现权限管理,分为业务操作权限和数据权限。(2)日志管理:日志是系统运行过程中,在某一时刻对系统某一运行状态的记录。集中渠道管理的任一功能模块,均应将处理状态、处理结果、进程执行情况等信息记录日志,供系统维护人员浏览查询。
6结束语
本文对中国联通统一用户管理项目的建设和功能模块做了详细的介绍,通过总部的统一部署和管理,统一管理企业中各个系统的用户的公共信息,解除各个系统中人员信息的冗余。实现了部门分级维护、人员按各种分类方式方便地管理和企业内部各个系统的单点登录。
作者:李莹
数据管理论文:教学资源元数据与数据管理论文
一、教学资源库建设规划
教学资源主要是指教学过程中教师和学生使用的课程资源,可以理解为教学过程中的软资源。教学资源的元数据可分为两个层次:直接对教学资源进行描述的元数据,称为教学资源信息ERI(EducationResourcesInformation);对教学资源的组织目录进行描述的元数据,称为教学资源目录信息ERII(EducationResourcesIndexInformation)。其中ERII根据资源规模可抽象为多个层次。元数据是指描述数据的数据,是指与业务技术过程及企业使用数据有关的所有物理数据以及包含知识的信息,是指来自企业内外所有(软件或其他介质含有的)物理数据和(员工和各种媒介中含有的)知识,包括物理数据的格式、技术和业务过程、数据的规则和约束以及企业使用数据的结构。教学资源中的元数据是指描述教学资源的类型、规格、属性、联系、约束等信息的数据。教学资源库建设规划如下。(1)提取教学资源知识单元,结合教学资源本身及其应用的特点,确定元数据的基本数据结构。知识单元是教学资源中可应用于交流使用并能完整描述一个知识点的最小单元。目前在知识单元划分上还没有具体的规范标准。一般由课程专家和教学专家参照教育部课程建设规范中的要求对教学资源进行三级划分,将划分得到的第三级资源作为知识单元进行管理,并向上逐层扩展,得到相应层次的粗粒度资源。(2)构建教学资源目录树。目录树从根节点开始,包含一个对其所有数据的层次视图,并提供基于树形的搜索系统。教学资源目录信息ERII根据资源规模可抽象为多个层次。按照目前的惯例和一般使用情况,将课程资源按内容及其关系,划分成大的章,章内再划分小节,小节中又可包含若干更细分的知识单元。这种结构可以看作是教学资源目录信息ERII的外在显现,即教学资源目录树。(3)教学资源服务。在教学资源使用过程中,系统存在三种角色:资源提供者、资源管理者、资源消费者。资源消费者是指教师或学生,他们提出资源消费请求,包括对资源质和量上的要求;资源管理者即资源中介,是系统管理中心,主要管理ERI或ERII,并根据资源消费者提出的请求进行必要的计算,反馈消费者信息,满足其需求;资源提供者是教学资源存储中心,主要负责资源的存储,并按接收到的指令为消费者提供相关资源。按照信息流动的不同方式,分析他们之间的工作模式,相应地设置层次结构。将资源与其元数据适当分隔存储管理,在资源服务时采取资源信息处理和资源实体传递两条线的方式,减轻资源的负担,平衡网格环境的负载,有利于提高系统的整体性能。
二、关键技术
1.元数据结构设计
本文拟采用的元数据基本结构如右表所示。需要说明的是,该元数据结构根据教育部课程教学及大纲规范要求,结合本学科方向课程及教学实践,以及资源管理和软件开发的需要,并综合其他相关因素形成。
2.教学资源目录树构建
目录树是指存储有关网络资源信息的特殊数据库,把网络环境中的各种资源都作为目录信息,在目录树结构中分层存储、访问、管理和使用。目录树将分布式系统中的用户和资源,以及其他对象统一组织起来,提供一个单一逻辑视图,允许用户透明地访问网络上的资源。一个由目录树支持的网络系统是一个集成、网络化、统一的系统,而不是各个独立功能部分的简单聚合。目录的内容称为对象类(ObjectClass)和项(Entry)。对象类描述什么信息可存储在目录中,而项把相关信息组合在一起,也可以理解为对象为抽象约束,项为信息内容。ERI之上的ERII逐层抽象或封装生成,下层的ERII是上次ERII的一个项,这是逐层递归或递推的过程,因此它们采用一致的管理操作方式,软件算法具有可复用性。元数据信息采用数据库方式存储,方便检索管理,而资源本身仍以文件方式存储于磁盘。为了管理的方便和统一,资源库的物理存储与资源管理的目录树结构基本保持一致。通过目录树方式记录存储教学资源数据信息,与资源库本身的层次结构(树型结构)相统一,同时也与Internet及各种管理中的层次结构相一致,为教学资源管理提供方便,易于使用现有技术手段进行管理。
3.教学资源服务
在教学资源库中,资源建设是基础,资源管理是关键,要对资源进行深层次的应用,就需要对资源进行规范化建设和管理。资源提供者对资源进行存储、传输等控制管理,资源的搜索、协调传输等任务主要由资源管理者完成。网格资源管理的目的是有效调度、管理、配置可利用资源,将实际上的异构环境转换成一个虚拟的同构环境。基于网格的教学资源管理是网格资源管理的进一步延伸,需要完成资源寻址和定位,找到特定的教学资源。教学资源本身也属于网格资源的一部分,教学资源节点与网格节点也是统一的。在基于网格的教学资源管理中,选择基于的网格资源管理方法,满足教学资源访问中的结构关系,能够方便地搜索到资源及资源信息所在的服务器,与Internet和网格层次管理结构一致,而且层次化的体系也有利于系统的维护和管理。系统在用户和资源之间架起了一座桥梁。基于网格的教学资源体系,通过的方式将异构、分布的大型教学资源库中的资源进行提取共享。通常一个资源请求任务被派分给一组Agent,这些Agent根据被请求资源特征,在构造层各计算节点间自主地移动,寻找资源信息,获得资源服务,完成自身的任务,满足用户在广域范围内对教学资源的个性化请求。结构由三部分组成,如下图所示。上面是用户(消费者),提供资源服务请求;下面是资源提供者,提供教学资源;中间是服务系统。消费者通过就近(或网格结点)提出资源服务请求,通过当前获得的资源信息ERI以及资源目录信息ERII,进行分析计算,并根据结果将请求任务分发到相关的,进一步处理;根据获得的教学资源分布信息,按照一定的模式交付给用户。
三、结束语
综上所述,采用元数据对教学资源进行管理,在一定程度上回避了本体学习和语义这两个目前还不太成熟的处理技术,为教学资源深层次地开发应用打下了基础。采用层次结构,延伸使用了网格技术的成功之处,有利于教学资源的扩展和分层控制管理。资源中介主要对资源的元数据信息进行管理,资源消费者通过与中介交涉获取所需要资源的信息,然后根据获取的元数据信息从资源提供者那里获得所需的资源实体内容。这样将一个教学资源的获取过程分为两条线,从单一任务来看这增加了访问成本和访问时间,但对于网格环境的大量访问来说,起到了任务分流和负载平衡的作用。
作者:许琦 冯羽静 单位:台州职业技术学院台州中小企业信息化应用技术研究所 台州职业技术学院机电研究所 台州职业技术学院台州中小企业信息化应用技术研究所
数据管理论文:天文数据设计数据管理论文
1数据库入库和管理工具AutoDB
随着天文数据的日益增加,存储和管理天文数据变得非常重要,尤其在天文数据的归档和管理方面,占有举足轻重的地位。能够很好地管理海量的天文数据就相当于在后续的科学研究中成功了一大半。通过对天文数据管理方面知识的了解,经过一系列的研究与开发,最终开发了一个高效的天文数据自动入库管理工具AutoDB,旨在帮助天文学家提高工作效率,促进天文学研究的进展。
1.1AutoDB的设计思路与方法
在之前的裴彤等人的设计中,已经实现了天文数据的自动入库,该工具采用Python[11]语言编写,并且能够自动地添加pcode字段,建立HTM(HierarchicalTriangularMesh)[11]索引分区,便于以后的交叉认证工作。HTM是一种多层次的、递归的球面分割方法,可将天球分成多级的三角网络,每个网络都有一个pocde,利用HTM可以将一个大星表从逻辑上分割为多个小星表[11],HTM分级算法采用C语言编写,充分地利用了C语言的高性能和Python语言的高开发效率。然而该程序仅支持底层数据库为MySQL,且只支持CSV格式的文件,且文件中的数据不能为空,若为空则会抛出错误,在使用方面具有一定的局限性。其HTM分区是对ra和dec进行计算产生pcode值来实现天空分区,同时使用pcode_htmN数据列来存储这些值,然后对其进行btree索引,方便后续的高效查询。首先,其计算的算法必须跟随着后续数据的复杂性进行优化,其次,先计算在存储势必有I/0性能限制,使用btree一维索引间接性的对赤经ra和赤纬dec索引,无法利用天文数据的空间性,且若想实现一定半径内的查询需要非常复杂的SQL语句。为了解决这些问题,我们仔细地阅读了裴彤等人的论文和程序代码[12],在深入分析其原理的基础上,对自动入库管理工具进行了更加的完善和改进:(I)底层数据库同时支持MySQL和PostgreSQL;(II)针对PostgreSQL数据库,使用一种新类型Q3C索引,其直接与数据库进行交互,无其他I/0交互,直接对赤经ra和赤纬dec进行空间索引,并且提供简单的SQL语句来实现复杂的查询;(III)数据格式同时支持FITS格式和CSV格式;(IV)数据优化,若其中存在为空的数据项,数据项自动变为’9999’或者’NULL’,则入库时不会抛出错误。下面分别展开阐述。一、底层数据库架构工具的底层数据库是基于MySQL和PostgreSQL两种数据库开发的。这两种都是非常好的开源数据库,对于选择哪种数据库更好取决于哪种数据库更能满足用户的需求。之前采用的是MySQL数据库,然而由于数据量的增加,数据表格越来越庞大,一个表格甚至达到了几十亿行,对于表本身的容量远远地超过了物理内存的大小,甚至出现了连建索引也不能改善性能的情况,这样查询时间会将大大地延长,在此情况下非常有必要对数据进行分表管理,即将表拆分为一系列较小的、与之相关联的表来进行替代,通过对子表的数据查询,就相当于对整个表进行了查询操作。对基于MySQL数据库分表来说,取决于数据引擎(InnoDB),不支持哈希分区表,而PostgreSQL数据库支持临时表、常规表以及范围和列表类型的分区表。而且PostgreSQL的表分区是通过表继承和规则系统完成的,所以可以实现更复杂的分区方式。且在索引方面,PostgreSQL支持B-树、哈希、R-树和Gist索引,MySQL取决于数据引擎,大多数为B-Tree索引。由于天文数据具有空间属性,位置坐标为(赤经ra,赤纬dec),其索引会是一个二维的。建立一个高效的索引非常重要,使用第三方扩展库如Q3C索引即是采用的二维索引,又如使用PGSphere中的GIST索引,会使数据的查询更加高效。所以在当数据量非常大的时候,或者需要使用到第三方库时,对于空间点索引时,采用Postgresql比采用MySQL要方便得多。但若数据量不是很大,对于亿行级以下的数据量,不需要采用第三方库去支持创建索引的数据,则是采用MySQL比较好。同时MySQL的性能方面要比PostgreSQL较为高效。面对种种数据管理的需求,我们增加PostgreSQL作为该入库工具的底层数据库是必要的,天文工作者可以根据自己的需求存储到不同的数据库中。二、Q3C索引庞大的数据储存在数据库中,若想能够高效的使用这些数据,必须对其数据创建索引,索引不仅能够加快数据的查询速度,而且会使数据的管理变得简单容易,可以大副提高系统的性能。当然索引的创建也不是越多越好,因为索引过多会随着数据量的增加而加大数据库的负荷,就起不到提高系统的性能的作用,反而会降低性能,所以索引的使用要得当。在本系统中,由于我们是对天文数据进行入库管理,天文数据的复杂性、空间性决定了普通的一维索引并不能很好地解决天文数据的查询管理要求,所以我们是用了一个全新Q3C(QuadTreeCube)对天空分区索引,其能够很好地对天文数据进行二维的空间索引,Q3C索引方案为开源项目运用于数据库PostgreSQL中,大家在使用的同时也可以随时进行修改,非常适用于学术研究,由于直接运用于数据库,使用者不需要书写任何算法,相比于HTM,首先需要对天文数据进行分区计算pcode值,然而分区计算算法需要由使用者编写,这样会无形地增加风险,同时也带来了复杂化。Q3C的产生是专门针对天文数据的,其目的性非常明确。虽然普通的索引如btree也能够用于天文数据,但是如果需要进行锥形查询,在不使用Q3C索引的前提下,其查询SQL语句会非常复杂,并且查询速度非常慢,而且也只能运用于数据量较少的情况下,数据过多极有可能导致内存不足而出现程序卡死现象,然而上面的问题对于Q3C索引来说都不存在,所以这种基于四叉树的空间索引Q3C就显得非常实用了。Q3C索引不仅能够提供天文数据特有的查询,而且也提供交叉认证功能,这对以后的数据处理来说,很大程度地简化了工作量,同时又容易使用,而且不论是在查询方面,还是交叉认证方面,Q3C会提供的简单的SQL语句就能够执行处理工作,而HTM方面则需要从数据库中提取数据,然后利用算法进行处理,当数据量非常大的时候,程序的性能就会受到影响。三、支持的数据文件格式入库管理工具同时支持两种类型的数据格式文件:CSV(Comma-SeparatedValues)格式文件和FITS(FlexibleImageTransportSystem)格式文件。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。FITS格式是天文学界常用的数据格式,它专门为在不同平台之间交换数据而设计。1988年的国际天文学联合会IAU(InternationalAstronomicalUnion)大会指定IAU的FITS工作组全权负责此格式的修订。FITS文件由文件头和数据组成。在文件头中存储有对该文件的描述,如观测目标、源的位置、观测时间、曝光时间等信息,同时也可以在文件头中注明观测时的视场、精度等,便于后期的数据管理和分析之用。文件头部分每行占80个字符,并以END结尾。FITS文件的容量大小通常比相同数据量的CSV文件小,在本地存储中占用硬盘容量小,且天文数据文件采用FITS格式存储的文件占大多数。针对FITS格式文件数据,我们开发了一个分析FITS文件头文件的工具,用来得到头文件中表格数据中的列名和每个列对应的数据格式,方便天文学家在使用入库工具时编写readme文件。在输入不同格式文件时,工具会自动地判断文件的格式选择相应的程序实现自动入库。四、存储数据的优化庞大的天文数据中有时难免会存在的超过数据库中较大数据存储大小的数据或者小于数据库中支持的最小数据,不过在数据库中可以自己定义数据类型来支持导入的数据,但这样便失去兼容性了,使得不同数据库之间数据的交换和融合变得很困难,而且在对于文件中的数据项为空的时候,存储到数据库中会产生一些错误,所以在入库之前很有必要先对数据进行优化。因为不符合要求的数据非常少,而且改变其大小不会影响到后续的数据分析环节,故在入库前,在程序中把超出数据库较大支持数据的记录数和小于数据库最小支持数据的记录数更改为数据库所支持较大和最小的数据记录数,同时对于文件中为空的数据项,程序会根据数据类型的不同,自动的填充‘9999’或‘NULL’字样,方便数据的录入和后续的计算分析。
1.2AutoDB流程图
在存储FITS格式文件的数据时,我们还专门开发了一个分析FITS文件头文件的小工具,方便天文学家存储时选择自己想要存储的数据列。在使用过程中,天文学家也不需要编写任何的代码,同时该工具有很好的易用性。根据不同的格式文件,有着不同的入库流程,下面给出了文本CSV文件和FITS文件的入库流程,如图1所示。
1.3AutoDB系统环境支持
AutoDB采用Python语言编写,推荐使用Linux操作系统。由于Python是跨平台型语言,若需要在WINDOWS系统中使用也非难事,需要安装Python,一般的Linux发行版本都会自带Python程序,同时也需要下列数据库系统(异地或本地均可)和第三方库作为支持:1)PostgreSQL(9.0+):支持近期的SQL语法,更高的功能完整性。2)MySQL(5.1+):性能非常的高效。3)Q3C(QuadTreeCube):一种基于PostgreSQL数据库的新的天文数据的索引概念,提供海量天文数据的查询与融合。该工具中同时嵌入了一个很好的虚拟终端,用户可以根据虚拟终端的反馈,了解自己在使用过程中出现了哪些错误,从而纠正错误,使得程序地运行。
1.4AutoDB图形用户界面
AutoDB图形入库界面如2所示,用户可以选择入哪种数据库,入库的数据文件及数据的说明文件,创建HTM的级数,每次分次上传的记录数,赤经赤纬列要指出等。在这里,用户可以直接点击程序运行图形界面,也可以手动地在命令行中使用命令来运行图形界面,其图形界面和主程序是分开的,其协助用户按照各个参数,并收集起来,按照一定的规范得到收集的参数,供主程序使用。也就是说主程序不依赖于图形界面,用户也可以手动地编辑被指定的文件来运行主程序。FITS头文件分析工具会把FITS头中的数据输出到文件中,该文件名由用户定义,在FITSSOURCEFILE对应的一行中浏览添加FITS源文件,然后在FITSHEADFILE一行中输入想要创建FITS头文件名,界面如下图3所示。在使用入库工具时,用户需要编写readme文件供程序使用,其格式如下:及时行为各列列名(即数据库表中的列名字段,请参照MySQL/PostgreSQL对字段命名相关文档),以一个或者多个空行分隔;第二行与及时行相对应,为每列的数据类型(如:float、char、varchar、double、int,具体请参照MySQL/PostgreSQL数据类型相关文档[13]),同样是以一个或者多个空行分隔,内容中不能有引号,字段不能为空或NULL。同时在对FITS文件进行入库时,需要参照头分析工具得出的头文件以及格式转换文件编写readme文件。头文分析工具得到的头文件实例如图4所示,格式转换文件如图5所示。编写readme文件完毕后,即可使用自动入库工具进行数据的录入,数据库可以自己选择,数据库服务器可以是本地服务器或远程服务器。使用远程服务器时,应该保障远程服务器支持远程连接,否则将会报错。
2实验结果
2.1Q3C索引与非Q3C索引的查询性能比较
在使用索引的时候,我们最在意的是索引是否能够提高查询效率,对于具体选择哪种索引方式,要看哪种索引提高的性能更高些。为此我们做了如下的实验测试(在数据库命令行的形式下使用SQL语句进行查询的实验)。实验数据为Pan-STARRS数据,总共11,495,847个星表源数据。对比使用Q3C索引情况下和不使用Q3C索引(对ra与dec进行B-tree索引)的情况下,实现以赤经赤纬(5度,50度)为中心,查询半径在0.1度到0.9度变化范围内的锥形查询,比较随着提取结果源数目的增多上述两种方案的查询时间,其结果如图6和图7所示。我们从图7和图8中可以看出,随着查询半径的增大,符合查询条件的源数目也在不断增多,同时查询时间以近乎线性速度增长,说明查询元组数目越多,消耗的时间也就越多。还发现使用非Q3C索引的查询时间是使用Q3C索引时间的至少100多倍以上,可见Q3C索引方式的有效性。Q3C索引具有层次结构、平等区域、异维度分布等特性的天空分区方案,对天文数据的处理具有得天独厚的优势。特别是对于数据量大的情况下,我们非常有必要使用Q3C对数据索引,其表现不仅仅是数据查询速度的提高,对日后的交叉认证起到了打下了很好的基础。这也正是我们选择Q3C索引的原因。
2.2AutoDB工具的应用
AutoDB能够快速地将数据存储到相应的数据库中,上传数据的速度与本地机器硬件性能、数据库的配置以及数据库服务器的位置(本地或异地)、数据量的多少以及索引的复杂程度都有着直接或间接的关系。建议在使用过程中本地机器中不要运行太多的其他程序。我们使用的是SDSS部分数据进行的实验,总共有100,000,000行数据导入数据库中,测试平台使用的是两台计算机平台,一个是本地数据库平台和程序运行平台,另外一个是远程数据库运行平台,通过百兆以太网访问远程数据库平台。具体配置如表1所示。在实验过程中多次分别对本地和远程数据库进行了入库,在入库时将数据分割为100,000,00行,200,000,00行,400,000,00行,600,000,00行,800,000,00行,100,000,000行数据导入数据库中,得出实验结果,如表2所示。单从数据上传的速度来看,MySQL数据库的速度要优于PostgreSQL数据库。
3总结与展望
针对当前天文大数据的特点,我们致力于开发高效、易用的海量天文数据自动入库工具。考虑到天文数据的海量性、分布性等特点,我们分析了现有的入库工具的优缺点,总结了前人的设计成果,结合实际需求,应用了高效的Q3C索引方案,改进开发了一个更加高效的大型天文数据自动入库工具AutoDB,同时也参照了国际上SAADA工具的功能。该工具能够更好地协助天文工作者方便地存储、管理和处理数据。为后续研究工作中的数据融合、分析与挖掘做出了很好的铺垫,是海量异地异构多波段天文数据融合和挖掘工作的根本保障。AutoDB还有很多需要值得改进的地方,因为我们底层数据库的设计是基于MySQL和PostgreSQL,所以用户的数据库选择方面只能选择MySQL和PostgreSQL,这点对于用户来说就有点局限性。在自动入库的工作中,数据库的性能是一个不能忽视的方面,性能是否良好会直接影响CPU的利用率,所以非常有必要对数据库性能进行调优,在数据量非常大的时候,除了对数据表进行分表以外,也可以对数据库内存进行调整,来达到最适合当前CPU工作的状态内存容量,同时也可以安装一些数据库的监控工具和趋势预测软件,如vmstat、iosta、top、Munin等等,对数据库进行实时的监控,保障数据库在任何时刻都处于高效状态。在程序的编写方面,我们使用的是INSERT语句对文件的数据进行上传的,而没有使用更加高效的数据库自己所带的专有命令,如PostgreSQL的copy命令,这样势必会影响数据的插入速度和效率,由于专有命令没有一个接口程序去引用,这个我们会在后续的工作中进一步研究。参照SAADA工具的设计思路和优点,如SAADA工具支持大部分的关系数据库,SAADA不仅可以建数据库,而且可以收集不同的数据进行整合分析,同时能够将整理好的数据在web中真正地实现了数据的共享,下一步工作,我们也会根据需求进一步实现基于web服务,实现网页建库和网页查询,这样工具使用起来就会更加的方便,也会根据大家使用的情况反馈来进一步地加以改进和提高。当然一个设计好的工具永远不是尽善尽美的,结合不断变化的需求,工具也要随之调整,从而一步一步地健壮起来,这样才能够与时俱进,不断地促进天文学研究的发展。
作者:钟守波 韩波 张彦霞 赵永恒 何勃亮 单位:武汉大学国际软件学院 中科院光学天文重点实验室
数据管理论文:高速公路机电设备数据管理论文
1高速公路机电设备
要构建一个基于物联网的高速公路设备数据管理系统,首先要对数据的源头或者说是数据的归属地进行研究。主要有以下几大方面:1)收费系统设备高速路收费系统设备是由控制机、栏杆机、报警器、收费显示屏、车辆分离器、信号灯以及辅助的计重系统组成的[4]。所产生的数据主要有车辆车牌号、驶入高速时间和地点、驶出高速的时间和地点、车辆重量、车辆型号、收款数量。收费系统总监控室还要汇总收费站数量、收费岛数量、收费人员工号等基本数据。2)监控系统设备监控系统一方面是设置在收费站的车道、收费广场、收费亭内等收费监控地点;另一方面是设置了高速公路沿线交通状况监控、设备运行情况、设备故障数据等。摄像机的种类也会因安装和用途的不同采用不同的型号。3)通信系统设备高速机电系统的通信主要依靠光纤传输、数控交互、图像数字数据传输、移动通信及电源等部分组成。建立基于物联网的高速公路设备数据管理系统,对通信系统的要求较高,要求该系统要稳定、快速、实时,多采用光纤传输。
2基于物联网的高速公路设备数据管理系统
2.1基于物联网的高速公路设备传输通信
RFID技术是建立物联网数据传输通信的基本技术,它主要包括阅读器(例如手持机如图2所示)、标签、解读器、应用软件等部分组成[3]。标签进入扫描磁场之后,能够收到解读器的射频信号,然后将产品信息从芯片中提取出来,以一种感应电流的方式输送给解读器进行解码,送到信息处理中心进行数据处理,形成数据流,通过无线网络,例如WIFI、3G\4G网络,到达数据中心。整个系统中的阅读机是系统中至关重要的设备,一般会具有读、写功能,和信息控制和数据处理的功能,主要由收发模块、控制模块、耦合模块和接口组成。应答器可以通过耦合从阅读器那里得到能量和时序,如果存在地域、用户、管理模式的差异,系统能够更好的保持稳定性和安全性。针对高速公路机电设备的阅读器数量较多,在收费站、收费广场、收费亭以及高速公路沿途设备都要有设置。
2.2设备资产全寿命周期管理
通过对设备使用情况的登记、定期核查等措施,将高速公路设备的租赁、购买时间、周期维护时间、事故处理情况、报废时间等数据输入到设备数据管理数据库中,并设定到期提醒功能,对周期维护进行警告提醒,对事故处理情况进行定期清查,对使用年数较长的设备要重点管理,对全系统的设备进行科学的分类,实现分类批量的管理和维护。对设备故障情况实现分析统计,提高设备利用率、降低维修率。
2.3设备数据存储结构
本系统的数据存储结构主要采用链表结构。链表结构的数据库更方便更新,当设备出现维护或更换信息时,对链表进行及时的更新。在系统日常管理中,也可以将链表数据保存成文件的形式,但是如果需要重新更新数据,要将文件数据恢复成链表结构的有序表形式。链表中的数据类型包括所有的该系统中的有效信息,例如设备出厂时间、维护时间、使用次数等。
2.4设备数据挖掘
数据挖掘是从海量的数据中通过各种分析手段,例如关联、聚类、演变等分析方法,找出数据中隐藏的某种规律,为系统的管理和使用提供有用的决策。本文所建立的高速公路设备数据管理系统储存了大量的设备数据和信息,我们通过对设备数据的分类、排序、检索等方法,通过关联、演变等分析,能够实现设备的使用率、设备的维修率、设备故障点统计的分析,进一步实现设备维护周期的科学制定、设备故障自动检测和诊断等决策类的功能。对高速公路路况信息,收费系统数据的挖掘,能够实现高速公路的路况分析、拥堵路段的分析,进一步实现高速公路收费站合理设置地点和数量的决策功能。为高速公路管理智能化提高了数据支持。
3结论
本系统通过物联网的射频技术建立高速公路数据传输和管理系统,实现了对高速公路设备的生命周期进行管理,以及机电全过程智能管理应用数据挖掘,实现对资产和过程的智能化感知、识别和管理。本系统能有效地为高速公路机电系统管理提供设备使用和采购分析等数据,为日后建立更为的高速公路机电设备智能化管理系统提供技术基础。
作者:王琛 单位:山西欣奥特自动化工程有限公司
数据管理论文:COM组件数据管理论文
1系统设计
业务模型设计依据管道SCADA系统维护流程,采用面向对象思想对系统业务模型进行描述,业务模型如图1。数据库设计根据客户方要求,数据库设计需要每个区域每种类型的数据分开存储,以防数据混乱,但基本就分为四类:字典数据库、静态数据数据库、子表数据库、测试相关人员数据库。
2系统实现
2.1数据录入
遵循“所见即所得”的思想,主要的录入界面与报告证书界面保持高度一致,这样每个页面就代表了一个报告,为了更方便用户使用,我选择了用树形结构的菜单。子表数据的录入使用了DatagridView控件。
2.2数据查询
本系统采取的措施为,将每个功能模块需要查询的属性列名存储在字典数据库中,当我们指定了某个功能模块后,就可以在数据库中查询需要被查询的属性列名。这样不仅有效的达到查询的目的,还使代码量减少。
2.3报告出具
2.3.1Word报告出具
由于word本身是一个实现了自动化的COM组件,所以我们可以用C#语言和其提供的结构来访问和操纵Word文档。具体实现步骤如下:(1)生成word程序对象。(2)指定word模板路径。(3)生成word文档对象并打开模板文档。(4)获取模板中的所有书签。(5)给所有书签赋值。(6)保存word文件。
2.3.2Excel报告的出具
Excel报告的出具有两种方案可以实现。一种是基于流和COM组件的操作,一种是只基于COM组件的操作。考虑到效率,我们选择后者,实现步骤如下:(1)获取到处的数据表。(2)将所有满足要求的数据以流的形式全写入一个excel中。(3)生成Excel程序对象。(4)定义一个新的工作簿。(5)打开模板工作簿(此模板可以说一个空的excel文档,不起到任何作用,只是提供了一个载体而已)。(6)得到一个sheet。(7)将数据分割为一个一个的报告,并循环填充表格的表头(可适当的增减行列,以达到需要的目的)。(8)另存为。(9)退出Excel,并且释放调用的COM资源。
3结束语
系统从SCADA维护中心本身出发,根据其工作流程及计算机的实现技术,充分考虑SCADA维护中心获取数据的方法与流向,使系统设计更为合理。开发过程遵循“方便实用、能解决问题,能够满足用户需求”的根本原则,综合考虑数据库设计,数据库建设以及软件开发相关理论采用“高内聚低耦合”的原则,从科学、实用的角度划分模块。此系统的成功开发,将进一步规范评价工作,大大提高工作效率。
作者:李晓鹏 余传梅 王伟
数据管理论文:环境监测数据管理论文
一、环境监测的特点
环境监测一般包括常规监测和污染源监测[6]。常规监测的对象是大气、噪声、河流等,污染源监测对象通常是一些工业单位,我国的工业单位众多,单位之间有各不相同,给环境监测工作带来了更大的困难。大气、河流、降水甚至噪声都是环境监测的内容,每一项检测内容又有不同的监测指标,此外还涉及到污染物的排放量、治理效果等,所以环境监测工作量繁重。环境监测工作关联性较强,而且还是按照一定的顺序进行的。环境监测工作和其他的环保工作也相关联,因此环境监测工作在满足自身要求的同时,还需要同时满足各项工作要求。必须建立健全环境监测数据管理系统。在进行数据统计分析工作时,必须按照要求生成格式化的标准报表与非标准报表。
二、环境监测数据管理系统
1、环境监测模块
该模块的功能在于通过时间触发器连续或间断地对某地区环境条件下的污染物性质变化进行判断,同时对污染物浓度发展情况、趋势进行预测,通过预测分析污染物的变化趋势及其可能性,判定环境问题、污染问题发生的结果。环境监测通常是按照检测目的划分的,其中包括两部分,即监视性监测、特定监测。在系统设计过程中,应当参照监测目的对相关模块进行划分,并在此基础上确定监视性监测、特定监测子系统。环境监测数据管理系统,围绕着空气质量、水质质量以及废弃物和噪声进行常规性的监测,从而实现数据管理、预测和统计分析,重点数据绘制环境质量图过程中显示出来,从而使其更加的直观。其具体的功能结构设计如下图所示。
2、排污申报与环境污染源管理模块
环保法及相关法规规定的排污单位,一定要履行申报义务,排污申报是污染管理系统的一个非常重要的功能。对于该模块而言,其包含如下功能:数据汇总,即对污染源数据进行及时的汇总,采取相关信息资料。数据查询:根据排污单位、污染源对其进行查询;数据管理,即排污申请填写,对污染源信息资料进行维护;数据分析,即针对性的对重点企业、污染源进行分析。在数据查询功能设计过程中,查询危险源以及排污企业,并且基于GIS技术的应用在地图上对排污企业的具体位置显示出来;按单位名称和污染源名称对其进行查询,并且按地区对污染源进行查询。数据分析功能设计为:分析污染事故缓冲区,对重点污染源进行分析,并且用图表将其显示出来;污染物历年数据分析;地区污染物以及污染企业分析等。排污申报及污染源管理系统如下图所示。
3、环境在线监控模块
监控的主要内容是污染源排放在线监控烟尘、污水(主要是COD、流量、TOC以及总磷和pH值等),同时还包括污染源噪声。首先,系统登陆。客户端管理软件提供具体的授权访问模式,以确保该系统管理的安全性。授权用户利用账号、密码登录该数据管理系统,并且用户权限由管理员进行分配。比如,管理员可以进行建库、控制、监测以及其他高级功能;一般用户则只能使用基本的系统功能,比如在线监测和基本的图表报表打印等。系统登录过程中,先输入用户名、登录密码,然后验证身份,进入该系统主界面。其次,系统界面。客户端管理界面为XP风格界面,客户端管理软件所有功能均可通过在界面右侧选择任务栏目实现,任务栏为可展开/收缩的风格控件,功能栏目为类Web风格的超级链接。界面中部为GIS地理信息系统,GIS的主要功能通过GIS工具栏实现。界面右侧还有若干窗口显示即时消息、系统报警以及快速查看数据等功能。数据输入:把各类污染物的监测数据都存储起来,构建成一个数据库,这样可以方便数据统计,也为技术人员的分析提供了数据基础。通过先进的计算机技术,把这些数据都统一管理,然后按照监测地点、监测类型、监测时间等信息,分类处理这些数据,方便用户选择,使他们可以快速的掌握到想要了解的信息。此外,必须注意数据的存储工作,多做一些备份,以免数据丢失,影响环境监测工作不能正常的进行。数据修改:录入环境监测数据以后,管理人员要认真仔细的核对数据,要及时的修改和更正以及删除无效的数据,确保数据的性[4]。数据修改有条件修改、当前记录修改和替换修改的功能,这些功能的设置,可以方便管理人员快速、高效的进行修改工作,也能提高数据的性。数据备份:由于环境监测数据众多,而且是环境监测分析工作的基础,一旦丢失,就会给环境检测部门带来很大的损失,所以管理人员在管理数据的时候必须注意数据的备份工作,把数据存储在不同的工具下,预防电脑崩溃使数据丢失。确保数据的安全性,保障环境监测工作的顺利进行。数据查询。数据查询可以帮助用户很快的找到他们需要的数据,使他们更好的进行环境监测工作。在查询数据的过程中,用户可以设置条件,然后数据库中相关的数据就会自动出现,这样可以减少查询时间,提高查询的效率,而且还能保障数据的性。数据输出:数据输出一般采用打印输出、屏幕输出[5]以及文件输出三种输出方法。打印输出,顾名思义就是把数据报表通过打印机打印出来;屏幕输出则是把数据制作成图形和图表的形式显示在电脑屏幕上,供用户查看,然后根据这些信息来分析环境状况;文件输出就是把环境监测数据、分析结果通过不同的文件格式存储在磁盘上,可供用户下载查看。数据统计:数据库中的数据一般只是环境监测的原始数据,可供用户进行查看、统计分析,然后更好的进行环境保护工作。数据统计分为常规统计和选择统计两种。常规统计是按照报表的要求进行的,要计算监测点以及区域的年、月、日均值等,然后保存。选择统计则是按照用户的定义条件进行的,灵活性较大。数据分析:数据分析是把数据转化为图形或者图表的形式来展示数据信息,可以使用户更加直观、清晰的掌握环境的质量和变化情况,方便环境监测部门快速、高效的处理环境问题,更好的服务环境保护工作。
4、环境监测部门的职能
建立环境监测数据管理系统是为了更好的管理环境监测的数据,为了使环境监测部门管理人员可以、快捷的掌握环境质量信息,因此必须要符合环境监测部门的工作要求,提高工作人员的管理水平,满足环境信息化的需求,做好环保工作。环境监测主要是监测污染源以及常规的监测,做好了这两种工作才能保障我国环境污染状况不再加剧。常规监测是一项衔接性很强的工作,需要经过一系列的过程:现场采样,样品登记,分析实验等等,通过审核签字才能生成分析报表。在进行常规监测工作的时候,一定要有序进行[3],这样才能保障分析报表的性。污染源监测也是一项非常繁琐的工作,进行污染源监测工作时首先要委托登记,其次分配任务,然后按照现场采样、样品登记等的顺序进行监测工作。现阶段我国已经控制了污染源的排放量,只有减少污染源的排放,我国的环境质量才能得到彻底的改善。
三、结语
综上所述,开发和实现环境监测数据管理系统,是当前我国环境监测部门的主要任务。建立健全了环境监测数据管理系统,可以提高管理人员的工作效率,可以增加监测数据的性,是用户进行数据分析的基础。系统的建立也实现了环境监测数据管理的科学化、现代化,而且把数据转化为图形图表使用户可以更加直观的了解了环境质量的现状,推动了我国环保事业的发展。
作者:周春何 张秀云 单位:丽水市环境监测中心站
数据管理论文:海洋水文气象数据管理论文
1数据多重存储和分级管理
数据多重存储体现在同一数据既要存储到本地数据库中又要存储到相应的文件中。存储在本地数据库中的数据即可用于本地管理与存储,也可用于数据的查找和对外提供二次开发接口。存储在文件中的数据以文本文件的格式被传输至海洋环境预报单位[4]。数据分级管理主要体现在数据库结构设计上。将水文、气象观测数据进行分级存储,分为临时数据存储表和最终数据存储表。临时存储表中存储当前小时进入数据管理系统的数据,并在后续小时数据进入系统后将临时数据表中数据打包插入最终数据表中。临时数据表限定数据量阈值,超过设定阈值后临时数据表数据将被自动删除。最终数据表每个观测要素一个表,记录该数据当天数据,包括该要素当天各整点数据值、数据极值和当天每分钟的数据值。
2系统功能模块设计
根据观测数据使用对象的不同[5],将系统进行模块化设计为:数据上传模块和本地数据管理模块。数据上传模块将实时观测数据上传至海洋环境预报单位;本地数据管理模块用于海洋观测站本地数据管理与存储,并对外提供二次开发接口。此外,该模块可根据业务需求生成数据上传模块所用的数据文件。系统结构类见图2。软件开发环境针对上述业务需求,采用了VisualStudioC#2010作为软件开发平台,数据库系统采用SQLServer2005。其中,VisualStudioC#2010是一种现代的面向对象的程序开发语言,它使得程序员能够在新的微软.NET平台上快速开发种类丰富的应用程序。.NET平台提供了大量的工具和服务,能够较大限度地发掘和使用计算及通信能力[6]。SQLServer2005能提供大型系统所需的数据库服务,可实现成千上万的用户同时连接。SQLServer2005为这样的环境提供了的保护,具有防止问题发生的安全措施,可在多个用户之间有效地分配可用资源。此外,还可以在一台计算机上运行多个SQLServer2005实例[7]。
3系统实现
3.1数据库逻辑结构设计
海洋站水文气象观测数据要在海洋观测站、海洋中心站、海区预报中心及国家预报中心等各单位使用,其中:海洋观测站端仅使用本站数据;海洋中心站使用本中心站下属各海洋站数据;海区预报中心使用本海区下属各海洋站数据;国家预报中心使用所有海洋站的数据。这些数据是连续不间断产生和使用的。因此,在建立海洋站水文气象数据库时,必须考虑大规模数据的存储问题。在建立数据库的同时,构建出符合海洋观测预报业务的数据模型,设计了水文要素临时数据表(tempdata_sw表)、气象要素临时数据表(tempdata_qx表)和风要素临时存储表(tempdata_wi表)、风要素数据存储表(WI表)、相对湿度数据存储表(HU表)、气温数据存储表(AT表)、气压数据存储表(BP表)、降雨量数据存储表(RN表)、能见度数据存储表(VB表)、海水温度数据存储表(WT表)、海水盐度数据存储表(SL表)、潮位数据存储表(WL表)等多个表格。其中,临时表每个要素每小时1行数据,用于存放近3d每分钟生成的实时数据。数据存储表每个要素每天1行数据,用于存放整点值数据、极值数据以及该天每分钟数据(表1至表5)。以上5个表为数据库逻辑结构设计所需的表,其中表1至表3为临时数据存储表,表4为气象要素数据表、表5为水文要素数据表,其余水文气象要素数据正式表的表结构与表4和表5结构一致。此外,风要素表结构中DataXX为风向值与风速值的组合,即“风向值风速值”。
3.2系统程序实现与运行结果
3.2.1数据库触发器设计结构化查询语言StructureQueryLanguage(SQL)是专门为数据库建立的操作命令集,是一种功能齐全的数据库语言。SQL主要由两部分组成:DDL(DataDefinitionLanguage)和DML(DataManipulationLanguage)。其中,DDL是建立数据库表及列的指令群,DML是操作数据库记录的指令群。以下SQL语句实现了海洋水文气象数据库触发器的设计。上述程序以潮位(WL)数据为例,实现了水文要素的数据临时表向正式表的级联更新。其中,水文要素数据更新为本时刻00分数据到正式表本小时的更新。利用以上函数接口,实现了水文气象数据管理,并被海洋站上位机软件调用,完成了海洋站水文气象数据的管理。
4结束语
系统利用数据库技术和面向对象技术,整合现有观测设备的数据类型,实现了海洋观测数据的自动化管理,有效降低了海洋观测系统的管理成本,同时系统为海洋观测数据的模块化管理和使用提供了对外接口。实现了海洋水文气象观测数据的模块化和业务化应用,为进一步提高海洋观测预报的精细化水平,更好服务于海洋经济发展管理的支持能力奠定了基础。
作者:李博 王斌 叶颖 王鹏 孙成龙 闫秦 单位:国家海洋技术中心
数据管理论文:桥梁结构海量数据管理论文
1海量数据管理系统的总体设计
1.1中央数据库
中央数据库部署在北京数据中心,采用Ora-cle/SqlServer群集,具体随方案选择而定。入库方式:通过人工或网络传输的方式获取数据库备份,经过导入程序入库;中央数据库存储项目的历史数据,其存储数据量比现场数据库要高出1~2个数量级。中央数据库要支持快速的数据查询、文件导入导出和Web访问,主要功能如下:将经过处理的实时数据写入现场数据库;支持数据的历史回放和离线分析;支持历史海量数据库的实时备份、清除和异地恢复;提供与评估软件平台的文件导出和数据接口;支持数据的后期操作和查询、编辑、更改[3]。各模块功能见表1,整体结构设计见图2。
1.2现场数据库
现场数据库针对具体项目,部署在现场监控中心,存储的是处理后的实时数据,要求定期备份、删除、异地恢复、更新。实时数据的特点是数据量大,数据入库较快。在设计现场数据库的时候,主要考虑如下:各个监测类型原始数据互不干扰;数据写入要求实时,考虑拥堵策略和故障恢复策略;灵活配置监测项、监测点的数据存储库表结构[4];一定时期的历史数据在线回放和分析;单一监测类型数据存储(由于处理系统需要在较长时间内持续对采集数据进行处理,即使一种设备,持续累计多天的时候,数据量也会非常大,需要考虑以何种方式对多天数据进行组织)。现场数据库配置版本为SQLServer数据库。
1.3结构特征值数据库
本数据库主要存储桥梁结构采集数据的特征值,包括结构应变、加速度、索力等原始数据的较大值、最小值、平均值及方差等,特点是数据量相对较小,但数据计算频繁,使用频率较高。此数据库数据量小但关系较复杂,由于其入库频率相对于原始数据来说比较低,故采用较为简单的单库表结构。特征数据库配置版本为SQLServer数据库。
2海量数据库详细设计优化方案
2.1高速大容量数据存储与管理
通过对系统的总体评估,拟采用以下措施解决系统中大数据量的存储与管理问题。通过使用OracleRAC(集群)模式加强底层数据库的处理性能;使用存储过程的方式来进一步加强数据库的交互性能;定期进行数据备份与清理,避免存储过多的低使用率数据(比如,数据库一般可以保持6个月到1年的数据,其它数据通过磁带库等存储介质将数据备份转移,减轻数据库的处理压力);对海量数据进行分区操作(例如针对按年份存取的数据,我们按年进行分区,不同的数据库有不同的分区方式,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O,减小了系统负荷,而且还可以将日志、索引存放于不同的分区下);建立广泛的索引[5]。对大表建立索引,例如针对大表的分组、排序等字段,都要建立相应索引,一般还可以建立复合索引。当插入表时,首先删除索引,插入完毕,建立索引,并实施聚合操作,聚合完成后,再次插入前还是删除索引。要注意索引使用的时机,索引的填充因子和聚集、非聚集索引都要考虑。在对海量数据进行查询处理过程中,查询的SQL语句的性能对查询效率的影响是非常大的[6]。在对SQL语句的编写过程中,例如减少关联,少用或不用游标,设计好高效的数据库表结构等都十分必要。
2.2数据库优化设计
桥梁结构桥梁索力数据量较大,由于实时数据处理系统平时的主要操作是桥梁索力的插入及数据查询,对数据的实时性及可恢复性要求不高,并不要求的精度,允许一定的数据损失,对数据库的一致性、并发性及事物的隔离性要求不高,但对于大数据的吞吐量要求较高,故可将其定位为针对插入操作的OLTP系统及部分的OLAP系统[7]。所以考虑降低数据库的隔离级别和并发一致性控制以提高数据库性能,优先满足海量数据插入的吞吐量要求。Oracle版本的数据库优化设计如表2所示。
3系统应用项目及领域
本系统已经软件实现并应用到南京第4长江大桥的结构监测后期运营管理中,不但能较好的弥补新系统的数据处理与存储管理短板,还能融合到已经投入使用的大型结构监测系统中。同时,本系统力争建立一个基于结构监测的北京大型数据中心,中心数据库主要服务于建立全寿命期的数字化、信息化桥梁数据中心,用于桥梁结构海量历史数据的存储管理和挖掘分析,为日后的离线数据分析和历史状态追溯提供支持。同时,以中央数据库为基础和平台,根据结构的分析和报告编制需求,可以单项和并行的完成数据应用和管理。
作者:周兵 周锋 单位:中交公路规划设计院 桥梁结构安全监测事业部 河南中原水利水电工程集团有限公司
数据管理论文:国有企业数据管理论文
一、培养大数据高端人才
大数据管理与大数据应用都离不开大数据技术,但更离不开大数据人才。没有人才,再先进的设备只能是“豪华摆设”;没有人才,再先进的技术也只能是“纸上谈兵”。因此,推进大数据管理,除了需要培养一大批的IT人才外,还迫切需要培养一大批大数据人才———数据管理师、数据分析师,造就一批数据科学家等高端人才。因为只有他们才能驾轻就熟处理海量的信息,并从中挖掘出“数据财富”。此外,面对全体员工传播大数据知识,普及大数据技术,培训大数据技能,奠定推进大数据管理的群众基础和技术基础,同样也是一项长期而艰巨的任务。
二、构筑大数据管理“一站式”工程,建设“大数据管理智库”新平台
1.加强内、外部数据的“一站式”管理。对企业来说,数据无处不在,无时不有,究其来源,无非企业内部和外部两个渠道。内部数据的活水源头是各单位、各部门、各专业的统计报表提供的数据;外部数据一方面是国家管理部门、行业管理部门、机构等的统计数据,另一方面是来自互联网、移动互联网、各种传感器等信息感知和采集终端采集的数据。这些数据,日积月累,最终“百川归海”,汇成大数据的海洋。大数据时代,企业通过建立“大数据管理智库”,打破渠道的边界,把不同来源的数据整合在一起,实施一站式管理,让数据时时刻刻为企业提供服务。2.注重数据挖掘环节的“一站式”管理。企业数据挖掘过程也是数据发现和梳理的过程,其有4个重要环节:采集、存储、分析、预测。企业建立了“大数据管理智库”,对这4个环节实施一站式管理,可以大大“提纯”数据价值。首先是尽可能采集异源甚至是异构的数据,去伪存真,多角度验证数据的性和可信性。其次是要用到冗余配置、分布化和云计算技术,分类、过滤和去重,减少存储量,同时加入便于检索的标签。第三是将高维数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,导出可理解的内容。第四是将数据分析后预测出的结论应用到企业中去。3.突出价值链上数据的“一站式”管理。企业价值链可以分为基本增值活动和辅助性增值活动两大部分。基本增值活动,即一般意义上的“生产经营环节”,如材料供应、成品开发、生产运行、成品储运、市场营销和售后服务。这些活动都与商品实体的加工流转直接相关;辅助性增值活动,包括组织建设、人事管理、技术开发和采购管理。价值链的每一个环节都有相伴而生的数据。过去这些数据处在分散状态。大数据时代,企业通过“大数据管理智库”平台,对这些数据实施一站式管理,有利于每一个环节的价值再创造和价值链的增值。
三、构筑大数据管理“一体化”工程,打造“大数据管理融合”新生态
1.大数据与云计算技术融合。大数据作为非结构化和电子化的海量数据,数量之大、类型之多、变化之快,前所未有。以云计算为代表的计算技术的不断进步,为我们提供了强大的计算能力,从而构建起了一个与物质世界相平行的数字世界。国有企业推进大数据管理,就必须建立和完善自己的云计算系统,否则,就是“巧妇难为无米之炊”。2.大数据与市场调研的融合。大数据时代,没有数据是不能的,但数据也不是万能的。比如:数据不懂社交、不知道背景;数据不能反映客户的心理;数据分析擅长的是“量”而非“质”等。因此,国有企业在推进大数据管理时,如果将传统的市场调研智慧与大数据的巨大威力相结合,可能会在定性分析和定量分析方面产生巨大的优势。尤其在背景分析、心理分析方面,可以弥补大数据的短板。大数据时代,没有调查研究、没有大数据,就没有发言权,就没有决策权。3.大数据与信息化建设融合。大数据发轫于信息化建设,伴随着信息化建设的进程同步成长,但同时又遵循自身发展的规律,自成一体。改革开放以来,国有企业在信息化建设方面迈出了坚实的步伐,这为推进大数据管理奠定了扎实的基础和一个高的起点。大数据时代,可以真正实现大数据管理与信息化“一体化建设”,相互促进,共同发展。4.大数据与电子商务的融合。大数据与电子商务是“前店后厂”的关系。电子商务在前台直接面对客户,大数据则在后台充当“幕后英雄”,默默无闻为前台提供强大支撑和品质服务。电子商务作为一个新的商业模式从真正的兴起、发展,也仅仅只有短短十多年的时间。实践证明,电子商务相较传统的钢铁贸易交易,能够极大节约时间、人力、资金和渠道成本,能够更快速、更深入、更广泛的开发消费市场,同时,也能够密切联系供应商、采购商、服务商等产业链上的各个环节,不断拓展企业的发展空间。当前,由于制约钢铁企业电子商务发展的因素还很多,因此,钢铁企业电子商务发展非常缓慢,这显然落后于时代前进的步伐。相信在大数据时代,电子商务将焕发出勃勃生机,成为钢铁企业独领风骚的新的商业模式。
作者:李国甫 单位:武钢大学
数据管理论文:高校电子数据管理论文
一、我省高校电子数据管理中存在的问题
1.高校信息化建设条块分割,缺乏统一规划
目前高校所开发与使用的软件大多只针对特定的业务,没有一个综合的管理平台,各部门各自为重,而部门对数据管理的意识不足,数据标准与格式不一,缺乏全局性的规划,各个软件系统生成的数据不具有兼容性,许多数据离开生成软件便不具有可读性,海量的数据不能为大众所利用,成为信息孤岛。正因为这些软件生成的数据对软件的依赖性,导致无法向档案部门提供可利用的电子数据,不同的软件生成的数据只能保存于不同部门的特定电脑或服务器上,由特定的人进行读取,有些数据虽然能纵向传输,但无法实现真正的数据共享。此弊端首先表现在同一单位内部各部门之间无法进行高效通畅的数据共享和交流,协同办公无法真正实现[1]。其次,由于数据不能共享,造成许多不必要的重复劳动。当同一套数据需要通过不同软件向不同部门多头报送时,形成了多个部门在做同一件事的格局。如果数据能共享且具有较强的可读性或者各数据需求部门所需的数据格式一致的话,那么只需一个部门即可完成,作为一个单位,对外提供的数据也才会真正保持一致性。
2.高校电子数据缺乏统一管理
目前高校垂直传输的数据如何保管、利用没有相应的规定,从而导致不必要的混乱。首先体现在网络版业务软件的推行使工作人员放松了纸质档案存档的意识,认为反正系统中随时可以调用,没必要再多此一举。对于垂直传输的数据,正常情况下随时都可以在软件中调用,但是基层部门要不要保留数据,如何保留,上级部门也没有硬性要求。一旦所使用的软件系统出了问题,很容易导致电子数据的丢失,比如,省内某高校报教育部门的基层统计数据,是通过网上直报,后来上级教育部门的软件进行升级与数据置换时将以前的数据丢失,要求各高校重新上传以前的数据,而此高校统计员没有及时进行数据备份,也没及时打印纸质报表,一切工作必须重新开展。这种对系统的过度依赖思想给自己酿成了不必要的麻烦。其次由于高校电子数据分散于各个部门,而电子数据的可读性低,一方面,许多电子数据离开数据生成软件便不具可读性,另一方面电子数据本身容易损坏而失去可读性,如电脑遭受病毒攻击可能导致电脑中的数据丢失,备份的电子载体如受到划伤、潮湿、折叠等损毁,或者随着保存时间的延长而变为不可读,电子数据的这些特殊性迫切需要有专门的人、专门的设备与工具进行统一的保管与维护,定期对其可读性进行检查。此外,目前各单位购买的办公软件或自行开发的协同办公系统,也主要停留在网上收发文以及公告、通知与新闻的。并且这些数据自动生成后都是存放在网站所处的服务器上,也没有专门人员对数据进行管理,更谈不上异地备份,一旦服务器损坏或者网站内容已过有效期,这些数据便会逐渐消失或人为删除。因此,在信息化的推进过程中,电子数据的管理急需跟进。
3.高校电子数据的真实性缺乏相应规范
纸质档案的真实性易于维护和识别,但电子档案的任何修改通常不会留下改动痕迹,其真实性辨别的难度大。如果有人为因素进行伪造的话很容易达到目的,因此,电子数据作为证据的可信度远不如纸质档案。电子档案的鉴定不仅要开展内容鉴定,还要开展技术鉴定、利用多种软件硬件检测设备,检测电子文件的完整性、真实性与可读性,即双重鉴定才能实现[2],从而导致电子数据的社会认可度相对于纸质档案来说要低得多。
二、关于电子数据管理的对策
1.加强对电子数据管理顶层设计
教育信息化建设主要是以各类业务的需要为出发点,各自为营,没有考虑数据的存取与易读性及公众利用数据的便利性。高校各业务部门都比较热衷于各类业务软件的购买与开发,但各类业务软件的设计往往只考虑了局部业务流程如何进一步简化,并没有从学校信息化的总体规划上去考虑,只考虑了本部门工作需要,缺乏顶层规划。而网站建设也仅定位于网上审批和新闻,强调无纸化办公,而对信息存储、管理与使用等没有给予应有的重视,缺少对数据资源的整合。我省高校教育信息化起步较早,上个世纪90年代末就成立了信息化领导小组,负责对全省高校的信息化建设进行规划与引导,但高校档案信息化建设近两年才真正启动,2014年底已完成了一期(省级平台)项目,今年初开始组织开展教育系统档案信息化二期工作,省教育厅主要负责省级数据中心建设,参与建设的高校主要负责本单位不涉密档案目录数字化及纸质档案选择性数字化等。目前档案信息化平台的构建只是针对现有的档案资源的管理,还没有针对高校各业务软件的对接及相应电子数据的管理。我省信息化建设是分领域分部门推进,档案信息化只是作为其中的一个子项目参与建设,并没有真正融入信息化建设的全过程,因此,很多信息化建设项目忽略了数据的存储、管理与利用,而侧重于业务问题的处理及数据的垂直传输。因此,我们有必要在推进教育信息化的过程中,考虑电子档案管理的要求,对电子数据管理进行顶层设计,建立全省高校数据中心,高校所有的业务软件生成的电子数据最终都能汇集到这里,形成一个大的高校数据云,供大家随时随地利用。这样不仅解决了数据的管理与存储问题,还能大大提高数据的可利用性。
2.借鉴科层化管理模式,加强电子数据管理
“科层化”管理模式,是由德国社会经济学家马克思•韦伯在《社会组织与经济组织理论》中构建的一种基于法理的,以实现高效率与合理化为目标的理想化的组织管理模式[3]。目前我省高校所使用的业务软件种类丰富,同一业务软件版本众多,大量的重复开发与引进造成了资源的浪费,信息的重复采集大大降低了工作效率。省级教育行政部门作为科层式组织结构中的顶层管理者,可以承担起省级高校数据中心的模型构建,确定数据中心需要汇集的基本数据类型与模型,组织开发相关的业务软件与应用界面或向全国引进的软件加以改造与完善,然后在省内高校推广使用,这样有利于统一数据的采集标准与格式,有利于数据的集中管理与利用。各高校作为科层化管理模式的中层,其职能是贯彻决策,使业务软件在相关的业务部门得到应用,为软件的正常运行提供必要的条件。高校各部门的工作人员作为基层工作者,主要职能是执行决策,对业务数据按要求进行录入处理。借鉴科层化管理模式,明确各层级的职责,才可避免每个高校都搞信息化设计,每个业务部门都开发或引进业务软件的现象。重复开发重复建设,造成许多的资源浪费,导致大量信息孤岛的形成,背离了信息化建设所要实现的节约行政成本、简化工作、信息共享、便于利用的目的。
3.制定相关的数据管理规定与标准
标准是对重复性事物和概念所作的统一规定,它是以科学技术和客观实践经验为基础的,其目的是为了获得工作、生产、科研的秩序和社会效益[4]。制定相关的数据管理规定与标准能够优化工作流程,简化工作程序。对于数据的形成与管理,我们必须用相应的标准加以规范,实施前端控制,以规避数据格式的混乱,让数据一产生就是标准的,包括其使用的语言、生成格式、字段名、字段长度、数据描述等等,只有这样,信息化建设对电子数据的管理才能符合档案管理的要求。此外,对于电子数据的真实性、安全性,电子数据如何鉴定和归档,电子印章的使用等问题都有待进行明确的规定。只有有了统一的规定与标准,才能实现电子数据的科学管理,为数据中心的构建与实施提供必要条件。
4.提品质案管理人员的业务水平
档案工作者习惯于传统的档案管理方式,强调纸质档案的保管。尽管现在数字档案馆的建设如火如荼,但也仅停留在电子公文、电子照片、电子视频等电子文件的收集与管理,以及将纸质文件电子化方面,把信息化仅仅当作部门工作的计算机化。由于大部份电子数据离开相应的生成软件便不具备可读性,业务部门及档案工作部门缺乏相应的技术实力,无法实现对业务软件的设计与数据的转换,没有相应的实力对各类数据进行整合与开发。档案工作者原有的知识结构已不适应电子数据管理的要求,面对五花八门的电子数据显得无能为力。档案部门既懂软件设计又懂档案管理的人才非常稀少,因此无法真正参与到信息化的设计当中去。信息化的设计过程中,为了简化程序设计,往往也会忽视数据的存储与管理这一块,由于多方面的原因,档案工作部门作为一个边缘部门在信息化过程中常被边缘化,因此,通过进修与培训提高现有档案工作人员的信息化建设水平,通过引进信息化建设中的中高端人才加入档案工作领域,提品质案工作队伍的整体业务水平,才能有实力参与到高校信息化的设计过程中去,才能在未来的信息化建设中发挥自己应有的力量。总之,我省高校的电子数据管理还处在一种分散的状态,数据分布在高校不同的部门和网络环境中,同时经过多年的信息化建设,高校各业务部门都已拥有自己的业务软件,这些软件由于使用的编程语言不同,使用的数据标准与结构不同,导致数据无法共享与直接利用,与信息化建设的初衷是相违背的。我们有必要对这些分散的数据进行集中管理,而要实现这一目标,就必须构建一个全省高校数据中心的模型,借鉴科层化管理模式,由教育行政部门组织开发各高校现有的业务模块,包括学籍、教务、财务、科研、图书、资产等管理系统,各高校通过统一的平台入口将相关数据直接上传到数据中心,真正实现数据的综合管理与利用。
作者:何艳平 单位:湖南广播电视大学
数据管理论文:企业公共数据管理论文
1公共数据管理技术发展趋势
Gartner的研究报告显示,公共数据管理应被视为实现企业内信息管理战略的一部分,没有广泛的企业信息管理和基础架构的支持,公共数据管理解决方案将不能有效的维持高质量和可重用性的数据。图5为2012年Gartner的关于公共数据管理技术的成熟度曲线。纵观公共数据管理技术成熟度曲线,公共数据管理市场正在逐步走向成熟。虽然在两年之内还没有新的技术出现,但是从整体上看,公共数据管理市场仍具有可开发的潜力。2012年的公共数据管理技术成熟度曲线的特点是,有些技术在高峰期到达前就已过时,这些技术将被更广泛的公共数据管理技术所替代,如多域公共数据管理解决方案。使用低质量的公共数据去改善业务过程只会导致低预期的结果,所以维护单一版本的公共数据是非常有必要的。
2公共数据管理体系
公共数据管理体系主要涵盖了公共数据标准、管理组织、管理流程和质量管理4部分,旨在创建企业级信息视图,建立一个有效的端到端的数据管理体系,在整个数据生命周期内采用一项综合、协调且有计划的方案,从而提升决策过程中所需数据的一致性和可信度,提升数据的安全性及质量水平,将数据对收入的贡献潜力较大化。2.1公共数据标准体系2.1.1公共数据标准识别企业公共数据编码标准体系是基于企业业务运作及管理需求而建立的,首先以各项业务分析作为关键输入,分析出核心业务组件(CBM)模型,而后根据公共数据识别的原则定位各业务相关的公共数据对象,并按照公共数据分类的原则,从公共数据共享的业务领域、信息系统范围等角度出发,筛选出公共数据,从现行标准、应用集成情况、数据责任人、管理流程及平台支持维度对每一项公共数据对象进行详细分析,确定管理策略,制定公共数据标准,进而形成公共数据标准体系。2.1.2公共数据标准体系企业公共数据通常包括人、财、物、业务伙伴和基础数据5个方面,代表了企业整个层面公共的业务实体,跨业务领域、跨信息系统。因此公共数据标准是应用于多个信息系统的基础类标准,需在整个企业范围内统一制定,并严格执行。2.1.3公共数据标准管理流程公共数据编码标准管理流程一般包括注册与立项、制修订与、宣贯与执行、检查与复审、使用与维护等5个阶段,实现公共数据的全生命周期管理(图6)。2.2公共数据管理组织和职责在公共数据管理过程中,从标准的制定到标准的执行会涉及标准和数据责任部门、标准部门、标准执行部门3个重要的角色。通常标准和数据责任部门是财务、采购部门,主要负责公共数据编码标准的制修订、解释和监督执行。企业的标准化管理机构负责标准,标准由企业的各级公共数据责任部门分级负责执行。在整个组织体系中,标准和数据责任部门(DataOwner)直接影响公共数据管理的最终效果和管理水平。实践证明,最有效的公共数据责任部门是业务与管理高度统一的部门,但具体企业还需具体分析。2.3公共数据编码管理根据企业业务管理特点和要求的不同,公共数据将采取集中制、审批制和备案制3种管理方式,归口业务管理部门将按不同的方式对公共数据进行编码。公共数据管理从公共数据的业务活动出发,逐个分析各节点的业务需求,为数据标准、数据质量、管理体系及系统功能的提升提供需求指导和应用思路。图7展现了数据从产生到消亡的生命周期管理。2.4公共数据质量管理数据质量管理主要从事前防范、事中监控及事后治理3个方向进行管理。,管控流程一般主要包括数据质量监控、数据质量分析、数据清理及长效保障4个环节(图8)。
3公共数据管理系统建设
企业要实现公共数据管理,需搭建相应的系统用于公共数据的申请、审批和集成管理。公共数据管理系统包含公共数据的查询、申请、审批、、质量管控和集成等功能,通过企业服务总线实现与企业各信息系统的集成,为各集成系统提供公共数据编码服务(图9)。通过公共数据管理系统的建设,不仅可以落实企业公共数据标准的执行、规范公共数据管理流程,还能较大化发挥公共数据管理的实施效益,为企业应用系统集成应用和信息共享奠定坚实的数据基础。
4总结
随着信息化建设的不断成熟,公共数据管理将作为企业运作过程中一种常态的管理职能。企业通过公共数据管理,可取得一系列成果:①制定一系列公共数据编码标准,既可满足企业跨部门、跨业务领域的数据共享需求,也满足了企业系统间信息交互数据一致性的需求;②成立数据管理组织,可指导企业公共数据编码标准的制修订、推广实施、运维管理等工作;③建设相应的公共数据编码管理系统,为企业各信息系统的数据共享提供技术支持;④建立企业统一共享公共数据编码库,有利于企业做出正确的统计分析及业务决策。综上所述,公共数据管理是企业信息化建设过程中必不可少的部分,将为企业的系统集成、业务协同、决策应用等发挥更大的助力作用。
作者:黄幽丽 冯霈 张栋 朱丽娜 路艳玲 单位:中国石油集团东方地球物理勘探有限责任公司信息技术中心
数据管理论文:存储资源池数据管理论文
1存储虚拟化技术应用过程
首先对原有分割的San网络进行改造,形成统一san网络,为数据中心的所有存储设备和服务器提供端到端的通讯;其次通过现场测试比较选购一台具有虚拟化功能的容量为100T高端存储设备对原有存储进行整合,虚拟化为逻辑上的存储资源池,并按照存储设设备类型和性能划分高、中、低三个存储资源组;另外根据各应用系统对存储性能、容量的要求进行分类;在保障业务数据安全的前提下,对各业务数据进行整理,逐一分级迁移到新建存储资源池中。
2应用效果
项目实施后形成了逻辑上的存储资源池,实现了多台存储设备的集中监控和统一管理,工作量和维护成本得以降低。各应用系统共享统一的存储资源池,可按照资源需求规划和既定策略进行资源分配,应用系统暂时不需要的资源可以动态分配给其它系统使用。通过存储动态分层技术,确保现最重要最繁忙的数据总是保存在性能好的存储上,而次要数据保存在其它存储资源上;通过克隆或镜像方式将重要数据复制到存储资源池中低端存储设备上,使老旧设备继续发挥作用,并以较低的成本提高数据安全性。
2.1提高资源利用率实现了存储资源的集中统一管理
项目实施后将原来各独立的存储域逻辑上整合成一个整体的存储域,并按逻辑分区方式保障业务性能等级,通过虚拟资源调配将整个虚拟化整合后的资源动态供应给相关应用,改变原有存储独占模式为多应用共享,提高资源利用率。实现在各个存储层次,根据业务性能等级数据实现动态分层,对业务系统系统进行存储改造,最终实现最重要最繁忙的数据总是存储在性能好的存储上,而次要数据将保存在性能普通的阵列。数据在性能好阵列与普通阵列的迁移将是自动的并且对应用是透明的。如图1所示。
2.2有效的提升了重要数据的读写速度
将业务数据,按照重要性和使用频度进行分级(1)使用在线中高端磁盘系统,保存实时的、高使用价值的业务数据;(2)使用近线中低端磁盘系统,保存不常访问的、但有较高使用价值的数据;(3)使用离线磁带设备,保存基本需保留的、低使用价值的历史数据。
2.3以较低投入带来了数据安全性较大的提高
通过项目建设可以极大的提高云南电网业务数据的安全性,实现方法是通过存储资源的集中统一管理我们可以在异构存储上通过数据克隆技术,以较低的成本实现基于时间点剥离做数据复用,将重要数据在磁盘阵列内甚至在磁盘阵列间进行复制,同时保持多份可以方便使用数据除了能提高数据安全性外,还可以为开发测试、查询、备份等功能,简单、易维等一些临时任务提供一个数据副本,对生产数据不造成任何安全和性能影响。如图2所示。
2.4实现存储的网络扩展使存储资源的使用更加方便灵活
对原有存储设备升级改造完成后部分原有老设备将不再提供给业务应用系统使用,为了更好利用这些设备考虑增加一套NAS网关,并将其接入到SAN网络,NAS网关可以直接使用已经池化得富余或者暂时不用的存储空间(这些空间可以分别来自于多台存储),并通过网络提供给那些无法接入到SAN的服务器或计算机使用。部门或者个人可以将文件通过NAS网关提供的文件共享服务,方便、安全的进行共享和交换。NAS网关提供的NFS作为一个工业级标准的共享文件系统,NFS卷的安装和卸载非常简单,并支持多用户端,任何与网络相连的服务器可以方便利用虚拟化软件来使用和运行虚拟机。和SAN比较NAS网关提供的NFS虽然受带宽限制(SAN一般为4GB/S,NAS一般为1GB/S)但是由于服务器使用网络存储资源时不用配置LUN和SAN,只需ip可达就可以方便的使用,因此利用NFS能更快的实现虚拟机的故障切换和数据迁移,特别当部分无HBA卡的服务器需要进行虚拟化应用时,可利用NAS作为服务器共享存储。
3结论
通过实践证明存储虚拟化技术的应用不但能提高存储资源的利用效率,而且能有效的提高存储系统运维管理水平,并为未来该领域的其它性新技术的应用奠定了夯实的基础,随着应用的深化可以依托存储资源池进一步为用户提供网络文件同步管理、云备份等存储服务。
作者:胡永华 白枫