史珂,徐建良
(中国海洋大学 信息科学与工程学院,山东 青岛 266100)
摘要:在研究叙词表分类的基础上,调研了国家海洋局第一海洋研究所海洋科技信息数据。根据这些电子资源的存储方式与存储结构,对其进行数据的转储,设计了标准的XML文件,以便数据资源的二次使用与共享。
关键词:叙词表;海洋信息;数据转储
0引言
在对现有的海洋科技信息数据的研究中发现,其存储方式大多数以是Word文件或Excel文件的形式分散在科学家和各个研究部门手中。由于各个科研机构的管理方式和科研工作者的编写习惯不一致,导致异构数据源在不同文件中的组织结构、语义层次不同,从而使整个海洋科技信息的数据出现杂乱、重复、语义不一致等现象,这就造成了海洋科技信息的数据资源没有办法满足海洋科研工作者的科研成果的共享与二次使用,同时也不能满足与国际科研机构的数据交换[1]。这种情况对我国海洋科学考察领域的发展产生了严重的阻碍。
把这些碎片化的异构数据源进行整合从而达到规范化是目前各个机构和科研工作者的首要任务。通过对海洋科技信息数据格式和内容的研究,本文设计了一种规范、标准的XML文件,把海洋科技信息数据资源转储到该自定义的XML文件,使海洋相关数据得到最大化的共享和利用,同时也为我国即将开展的数字海洋计划提供了一定的数据资源。
1海洋科技信息数据格式
按照Soergel的理论把叙词表分为两类,分别为基于术语的叙词表(termbased thesaurus )和基于概念的叙词表(conceptbased thesaurus )[1]。其中,前者是一种集合,该集合结构清晰,因为这种类型的叙词表只包含一种实体类型,这种实体就是术语,而术语与术语之间存在的关系分有3种,分别为层级关系、相关关系、等同关系[2]。而另外一种叙词表,即基于概念的叙词表,则由两种实体类型组成,其中一种是概念,另外一种是术语。概念是一个简单的结构单一的思想单元[3],概念的基本信息包括优选术语、非优选术语、范围附注等,概念之间同样也存在层级关系、相关关系。结合海洋科技信息数据源的存储结构和存储类型,可以把这些数据资源简单分为两类:
(1)把以Word文档作为存储结构的叙词看作基于概念的叙词表,不仅有术语、关键词,还有概念,概念用来对关键词进行进一步解释。
(2)把以Excel文档作为存储结构的叙词看作基于术语的叙词表,不仅有术语关键词,还有词间的层级关系。
其关系结构如图1所示。

2Word和Excel模板规范
海洋科技信息文档的格式和组织架构虽然相对比较固定,但仍然存在语义与结构的不一致现象,直接从这样的Word和Excel文档中提取关键信息,容易导致数据的混乱,同时也对提取的算法要求颇高,这就需要先通过Word的语义模型和Excel的行列关系规范文档的结构。
通过域的设定,可以把字体、位置、颜色等显示样式规范化[4]。域中的数据都是可变的,如果以后用户自主创建Word文档,只需更改域中的文字信息即可,不需要再对样式、排版进行编辑,其中叙词用加粗字体表示,对应概念用普通字体表示,叙词与概念之间用空格衔接,如图2所示。对于这种建立模版方法,在插入每一个域时,都需要输入相应的提示文本,作为该域的语义信息。

而对于Excel文档,一般情况下总共4列,同一行上后一个列属于前一个列的子类,最后一列对应叙词,除此之外的每一列都对应一个分类,如果以树状结构列出表中的层次关系的话,即每个叶子节点为叙词,每个非叶子节点都为分类,且分类中也可包含其他分类,如图3所示。

3Word和Excel信息抽取
Microsoft Office 2010提供了通过将自定义XML Schema架构插入工作薄,导出符合结构需求的XML文件的功能。该功能是在Office文档和XML结构之间创建了一个映射,进行Office文档中数据的分离。
3.1自定义XML Schema
XML Schema文件的主要定义可扩展标记语言的合法构建结构,它可以定义出现在文档中的元素、元素的层次结构、子元素的次序、子元素的数目、元素是否为空、文档中的属性、元素和属性的数据类型、元素和属性的默认值以及固定值等[5]。本文自定义的XML Schema文件结构如下。
<?xml version="1.0"?>
<xsd:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema">
<xsd:element name="dump-file">
<xsd:complexType>
<xsd:sequence>
<xsd:element name="username" type="xsd:string"/>
<xsd:element name="security" type="xsd:string"/>
<xsd:element name="category" type="xsd:string"/>
<xsd:element name="page">
<xsd:complexType>
<xsd:sequence>
<xsd:element name="category" type="xsd:string"/>
<xsd:element name="title" type="xsd:string"/> <xsd:element name="text" type="xsd:string" />
</xsd:sequence>
</xsd:complexType>
</xsd:element>
</xsd:sequence>
</xsd:complexType>
</xsd:element>
</xsd:schema>
3.2Word到标准XML文档
使用了上文通过域定义的语义模版后的Word文档如图4所示。使用XML Schema中定义的元素对Word文档的关键字进行手动映射,这样就把与逻辑相关的一些标记插入到了Word文档中,以便根据实际需要通过标识符来方便地对文档进行处理。具体实现方式如下。

(1)在菜单中选择“开发工具架构”,在弹出的窗口中选择“添加架构”,将XML Schema文件附加到Word文档。
(2)在添加架构完成后,就可以利用该Schema文件中的元素批注Word文档。Word文档右侧的“XML结构”窗格可将附加架构中的自定义元素映射到文档关键字。
完成Schema文档中的元素与Word文档关键字的映射后,需要对刚创建的文档进行保存,其保存格式为XML文件,保存后的XML文档结构效果如下。
<?xml version="1.0" encoding="gb2312" standalone="yes"?>
<dump-file>
<username>王一</username>
<security>公开</security>
<category>大洋调查</category>
<page>
<category/>
<title>站位</title>
<text>若在某一海域中需要进行相应的调查目的的采样,则用站位号来表示这一区域。 </text>
</page>
<page>
<category/>
<title>采样点</title>
<text>在某一站位进行采样时,可能需要在不同区域进行多次取样(仪器入水后在多个区域采样),对于每个采样的区域称为一个采样点。一个站位可能零到多个采样点。</text>
</page>
<page>
<category/>
<title>入水经纬度</title>
<text>进行采样作业时,仪器入水时的经纬度为入水经纬度。一个站位只有一个入水经纬度。</text>
</page>
</dumpfile>
3.3Excel到标准XML文档
把XML Schema文件添加到Excel文档中的具体步骤如下。
(1)在菜单中选择“开发工具源”,在弹出的右侧窗口中选择“XML映射”,将XML Schema文件附加到Excel文档。
(2)使用“XML源”将Excel文档单元格映射到XML架构元素。
Excel会自动创建一个XML映射对象,通过鼠标拖曳XML映射元素到相应关键词上,实现它们之间的映射,这样就可以将单元格中的数据反映到XML架构的元素上,其显示效果如图5所示。

完成Schema文档中的元素与Excel文档关键字的映射后,Microsoft Excel导出的标准XML文件格式如下。基于这种通用结构,可以方便有效地完成海洋数据向各个应用或者数据库的转储工作。
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<dump-file>
<username>王二</username>
<security>公开</security>
<category>地球科学服务</category>
<page>
<category>数据分析和可视化</category>
<title>校准/检验</title>
<text/>
</page>
<page>
<category>数据分析和可视化</category>
<title>地理信息系统</title>
<text>移动地理信息系统</text>
</page>
<page>
<category>数据分析和可视化</category>
<title>地理信息系统</title>
<text>桌面地理信息系统</text>
</page>
<page>
<category>数据管理/数据处理</category>
<title>数据互操作</title>
<text/>
</page>
<page>
<category>数据管理/数据处理</category>
<title>数据互操作</title>
<text>数据格式化</text>
</page>
<page>
<category>数据管理/数据处理</category>
<title>数据挖掘</title>
<text/>
</page>
</dump-file>
4结论
本文研究的资料直接来源于国家海洋局第一海洋研究所,能客观真实地反映该领域的知识结构框架,概念更专指,能有效克服“嵌入迷失问题”(词表过大导致用户迷失了方向)和“艺术博物馆现象”(用户花了很多时间却没有找到任何有用信息)[6]。本文通过使用Microsoft Office 2010自带的映射功能完成标准XML文件的生成,为数据的管理和二次利用提供了有效的途径。
参考文献
[1] 傅强. 中国大洋研究成果数据库平台系统建设[D]. 青岛:国家海洋局第一海洋研究所, 2007.
[2] BANERJEE S, PEDERSEN T. Extended gloss overlaps as a measure of semantic relatedness[C]. International Joint Conference on Artificial Intelligence, IJCAI, 2003: 805810.
[3] BUDANITSKY A, HIRST G. Evaluating wordnetbased measures of lexical semantic relatedness[J]. Computational Linguistics, 2006, 32(1): 1347.
[4] Chen Zeqiang, Chen Nengcheng. Use of service middleware based on ECHO with CSW for discovery and registry of MODIS data[J].地球空间信息科学学报(英文版), 2010, 13(3):191200.
[5] LEE D, CHU W W. Comparative analysis of six XML schema languages[J]. ACM Sigmod Record, 2000, 29(3):7687.
[6] AITCHISON J, CLARKE S D. The thesaurus: a historical viewpoint, with a look to the future[J]. Cataloging & classification quarterly, 2004, 37(34): 521.
