空间信息元数据的规范化与格式化
(戴勤奋,青岛海洋地质研究所,qddqinfen@cgs.gov.cn)
1 元数据
元数据(metadata)一般定义是关于数据的数据(data about data),具体说元数据是描述一个资源对象,并有助于该对象管理、定位、获取与利用的数据。元数据并非信息时代的新生产物,图书馆的图书卡片,档案馆的资料目录,工业产品的广告印刷品都是元数据的传统形式,计算机与网络的大众化及数字信息资源的主流化赋予了元数据新的意义与作用。
元数据是具体资源对象基本特征、主要内容、形成过程、质量评价、及获取途径等多层次信息的集合,它信息量大但载体量小,有利于网上检索、传输及浏览。通过元数据,潜在用户可在海量信息中快捷地定位所需要的资源对象,而且不必接触具体资源对象即可对资源对象有基本的了解和认识,从而确定资源对象的取舍。
元数据与具体资源对象虽密切相关,但它是独立于资源对象的,也就是说,两者只是逻辑上的联系,物理上是分离的,因此元数据能独立地、不受限制地面向公众开放,不必担心具体资源对象的安全性问题,对有偿或面向有限人群服务的资源,元数据解决了资源又要共享又不能无限制开放的矛盾。
最基本的,元数据能保障资源对象的管理与重利用,避免人员调动等原因导致的资源对象无法理解和使用,以及误解与误用。
总之,元数据是资源对象的对外窗口,是资源对象的导航器,是资源对象与潜在用户之间的桥梁,也是资源对象的使用指南。
2 空间信息元数据的规范化
实现元数据在数据结构、文件格式、语义语法等方面的一致性和整体性,不仅能简化元数据的著录、审核与管理,也有利于不同单位、或异构系统间的元数据共享与互操作。
2.1 国内外研究现状
元数据规范化的唯一途径就是制定相应的元数据标准。
国外在元数据标准化方面的研究工作开展得较早,对于空间信息元数据,90年代中期以来已有不少的国家和国际性组织发布并实施了各自的元数据内容标准,如美国联邦地理数据委员会的FGDC元数据标准,欧洲标准化委员会的TC287元数据标准和澳大利亚、新西兰土地信息委员会的ANZLIC核心元数据标准等等。2003年5月国际标准化组织/地理信息委员会(ISO/TC 211)发布了国际标准ISO 19115:2003 《地理信息 元数据》,该标准是以FGDC、TC287和ANZLIC等已有标准为基础研制的地理信息元数据标准,标准从工作草案(WD—1996),委员会草案(CD1—1998,CD2—1999,CD3—2000),国际标准草案(DIS—2002),最终国际标准草案(FDIS—2003),正式国际标准(ISO 19115:2003),经历了近十年的历程。从内容上看ISO19115与FGDC十分相似,但在元数据内容的组织结构上两者却有着根本的区别,ISO19115用面向对象的UML结构化模型来建立空间元数据的树状结构框架,将更有利于元数据的扩展及元数据XML格式化存储,目前的发展趋势是ISO19115地理信息元数据标准正在逐渐成为各国共同的元数据标准。
我国的国家基础地理信息中心从2000年开始立项研制《地理信息 元数据》标准,最初基于FGDC标准,最后经过修改调整采用了国际标准ISO 19115:2003,由国家基础地理信息中心负责起草的国家标准《地理信息 元数据》2004年9月已通过了专家审查。该标准适合于基础地理信息的描述。
2.2 专用元数据标准的定制
以国际标准为基础建立专业应用方案及其扩展,是制订适合特定领域的专用元数据标准的捷径,也有利于国际接轨,实现数据的大范围共享。ISO 19115定义了普遍适用的空间信息元数据内容框架及其扩展规则,为专业领域元数据标准的建立提供了一个基础平台。各专业领域可以在ISO 19115的基础上,遵循ISO 19115的专用标准定制规则,建立自己的专用元数据标准(Profile)。
由ISO 19115定制专用元数据标准的过程应包括:
(1)保留ISO 19115中必选的及核心的元数据实体和元数据项;
(2)根据本领域的专业特点与需求选取ISO 19115中可选的元数据实体和元数据项;
(3)遵循ISO 19115的扩展规则,扩展专业需要的元数据实体和元数据项;
(4)拟定元数据包UML类图,建立所选取的和扩展的元数据实体和元数据项之间的关联环境与层次结构,同时限定各元数据实体和元数据项的可选性及允许出现的最大次数;
(5)标准内容本地化,将元数据实体与元数据项英文名称翻译成中文,并按中文习惯调整它们的先后次序,同时确保元数据实体及元数据项英文标识符的唯一性,以便在元数据格式化文件中作为唯一标识,最后建立元数据实体及元数据项的数据字典;
(6)按照我国的标准编写规则(GB/T 1.1—2000,标准化工作导则,第1部分:标准的结构和编写规则),编写标准化文档,形成专业领域的专用元数据标准。
利用国际标准定制专用元数据标准的过程中应遵循以下的基本原则:
(1)以用户需求及本地环境为本:因为元数据标准的最终目的是为了向用户提供更好的信息服务,因此在元数据实体和元数据项的取舍、命名、扩展、布局上应充分考虑用户的需求与习惯。首先中文元数据标准应符合中国文化的特点及语言习惯,以“联系方式”元数据项为例,英文习惯是由个人、单位、市、省到国家排列,而中文习惯则完全相反,在定制过程中应予以改写;其次元数据内容应尽可能符合我国的国情,以数据质量描述为例,ISO 19115中有关数据质量的元数据内容非常详尽,而我国在质量评价方面笼统居多,因此应通过扩展“质量综述”数据项等途径来解决国内外的差异,否则有关数据质量的元数据项会形同虚设。总之,在专业标准定制过程中不能完全照搬照抄,应根据用户需求及客观环境进行本地化;
(2)注重元数据标准的易操作性:ISO 19115中定义了数百条的元数据项,在实际应用中必定有所取舍,在取舍定制过程中应尽量以简单易操作为原则,这样能有利于将来各方专业或非专业人员的元数据著录与理解,当然这种简单化应建立在一定的准确度之上,也就是在简单化与准确度之间平衡,在简单化的同时,保证元数据能突出资源对象的不同特点,避免造成元数据千篇一律的现象,使元数据能真正发挥元数据应有的作用。
(3)保障核心元数据内容的落实:核心元数据内容包括ISO 19115中必选的及核心的元数据内容,以及专业领域重要的元数据信息,在标准定制过程中至少应保证这些信息将来能切实落到实处。标准中规定的核心元数据应覆盖描述性,管理性及应用性三方主要信息,在展示资源对象的名称、类型、建立日期、创建单位、覆盖区域等外观特征的同时,还能反映资源对象的历史与变更、质量与评价,同时提供资源对象的内容、参照标准、使用方法及获取与联系途径等,以利于提高将来检索结果的准确度。
3 空间信息元数据的格式化
标准的元数据内容并未保证标准的元数据格式,采用什么语言与语法结构来组织元数据内容是决定元数据检索效率及互操作性的关键。目前国内采用得比较多的是一般的文本文件,如TXT、WORD文档,以及关系型数据库表,也就是把元数据内容分成多个有关联的数据库表,这样的元数据表现形式缺乏灵活性,很难体现元数据内部的嵌套、引用及标签多次重复,也不利于元数据的转换与互操作。相比之下,采用XML格式来描述元数据内容具有其它数据格式无法替代的优越性。
3.1 XML空间信息元数据的优越性
用XML来描述元数据的优势在于:
(1)XML数据描述技术是今后的重要发展方向;
(2)有利于元数据的跨系统、跨平台共享;
(3)便于元数据的网络传输与交互;
(4)能充分体现元数据内部的结构与层次;
(5)通过XML SCHEMA定义元数据描述框架可实现XML元数据文挡的有效性检验;
(6)XML具有数据内容与显示方式分离的特点,通过XML XSL样式单,可以定义不同的元数据显示方式,将同一元数据以不同的面貌展现给不同的用户。
3.2 XML空间信息元数据的实现
下面以ORACLE 9i数据库为例,说明XML元数据描述及存储的具体实现过程:
(1)根据标准中拟定的元数据包UML类图编写 XML SCHEMA,目前有多种软件支持XML SCHEMA的设计,Altova的XMLSPY(http://www.xmlspy.com)就是一个很好的XML可视化编辑软件;
(2)在数据库中注册XML SCHEMA,创建对象类型;
(3)创建数据库数据表,并将其中一列的数据类型定义为XML SCHEMA对象类型,用于存储XML元数据文件,这样每当XML元数据加载时,数据库会自动检测其合法性与有效性;
(4)创建符合XML SCHEMA定义的XML文件框架,用于具体资源对象的元数据著录,最好能编制与标准配套的元数据编辑器,以方便元数据著录。
(5)设计XSL样式单,加载到服务器端,使XML元数据能按该样式显示元数据内容;
(6)著录具体资源对象的XML元数据,然后加载到已创建的数据表中,XML元数据存储即告完成。
3.3 一个实例
下面是一幅专业图件的XML元数据文件的起始部分,其中“mgsd.xsd”是指定路径下的XML SCHEMA用于元数据文件的有效性检验,“Chinese.xsl”是指定路径下的样式单用于元数据的显示。当元数据加载时数据库会自动检测其有效性,调用时会自动以既定的样式显示元数据内容。
<?xml version="1.0" encoding="GB2312"?>
<!-- edited with XMLSpy v2005 sp1 U (http://www.xmlspy.com) by qimg -->
<!--Sample XML file generated by XMLSpy v2005 sp1 U (http://www.xmlspy.com) -->
<?xml-stylesheet type="text/xsl" href=" http://1.22.3.4/CHINESE.xsl"?>
<metadata xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:NoNamespaceSchemaLocation="http://1.22.3.4/mgsd.xsd">
<dataIdInfo>
<idCitation>
<resTitle>中国海域1:100万南通幅底质类型图</resTitle>
<datasetSeries>
<seriesName>中国海区1:100万南通幅基础环境图集</seriesName>
<issId>B1000000</issId>
</datasetSeries>
<resRefDate>
<refDate>20041217</refDate>
<refDateType>
<DateTypCd value="001"/>
</refDateType>
</resRefDate>
<citId>I51A00</citId>
<citRespParty>
<rpOrgName>青岛海洋地质研究所区域地质室</rpOrgName>
<role>
<RoleCd value="001"/>
</role>
</citRespParty>
<citRespParty>
<rpOrgName>青岛海洋地质研究所信息室</rpOrgName>
<role>
<RoleCd value="009"/>
</role>
</citRespParty>
<presForm>
< resFormCd value="005"/>
</presForm>
</idCitation>
……
海洋地质元数据编辑器 .rar
(1016 KB, 下载次数: 34)
|