《电子技术应用》
您所在的位置:首页 > 嵌入式技术 > 设计应用 > 环保领域本体的构建研究
环保领域本体的构建研究
2015年微型机与应用第10期
张 旭,朱勤东
(福州大学 福建省空间信息工程研究中心,福建 福州 350002)
摘要: 为了解决环保部门多源数据的语义异构问题,研究了各领域本体构建思路与方法,结合环保领域的实际特点,提出了一种环保领域本体构建方法。以建设项目环评审批基本信息为例,在领域专家帮助下,详细描述了其本体的构建流程及其本体模型,为环保领域应用研究奠定了基础。
Abstract:
Key words :

  摘  要: 为了解决环保部门多源数据的语义异构问题,研究了各领域本体构建思路与方法,结合环保领域的实际特点,提出了一种环保领域本体构建方法。以建设项目环评审批基本信息为例,在领域专家帮助下,详细描述了其本体的构建流程及其本体模型,为环保领域应用研究奠定了基础。

  关键词: 环保;领域本体构建;建设项目环评

0 引言

  环保部门为了加强对环境的管理,提高办事效率,需要对不同应用系统的各种业务数据进行集成。然而,不同数据源的数据在语义上往往存在较大的异构性,造成数据难以集成。本体既能准确地描述概念的含义又能描述概念之间的内在关联,并通过逻辑推理获取概念之间蕴涵的关系,具有很强的表达概念语义和获取知识的能力,因此逐渐应用于各种数据集成系统中。

  研究基于本体的数据集成首先要研究本体的构建,本体构建质量的好坏决定集成系统的运行效果。本文在研究各领域本体构建的基础上,通过了解环保领域知识,提出一种环保领域本体的构建思路与方法,并且尝试构建建设项目环评审批基本信息本体,为环保领域本体的构建及以后基于本体的数据集成奠定基础。

1 本体理论概述

  1.1 本体

  本体起源于哲学,是对世界上客观存在物的系统描述,后来,本体在人工智能、知识工程、信息系统等诸多领域得到了发展和应用。不同领域的研究者对本体的定义不同,引用比较广泛的是STUDER R等人提出的“本体是共享概念模型的明确形式化规范说明”[1]。

  1.2 本体构建

  本体构建是一项庞大的系统工程,需要按照一定的构建准则,在合理方法论的指导下,采用合适的本体描述语言和便捷的本体开发工具加以实现[2]。

  1.2.1 领域本体构建方法

  领域本体是用于描述指定领域知识的一种本体,是对领域实体概念、概念间的相互关系以及领域特征或规律的一种形式化的描述[3]。常见的领域本体构建方法有:KACTUS法、TOVE法、SENSUS法、METHONTOLOGY法、IDEF-5法、骨架法、七步法等[4]。其中,比较成熟的是七步法,该方法由美国斯坦福大学医学院提出,主要应用于领域本体的构建,采用7个步骤来构建本体:(1)确定本体的专业领域和范畴;(2)考查复用现有本体的可能性;(3)列出本体中的重要术语;(4)定义类和类的等级体系;(5)定义类的属性;(6)定义类的分面;(7)创建实例。

  1.2.2 本体描述语言及开发工具

  现有的本体描述语言有多种,此次选用比较常用的OWL(Web Ontology Language)来对领域本体进行描述。本体的开发工具有OntoEdit、Protégé等。其中protégé本体构建工具的界面友好,容易上手,另外具有可扩展性,可以根据需要添加自定义的模块,自定义属性,成为大多数本体构建的首选工具。因此,本文选用的本体构建工具是protégé4.0。

  1.2.3 本体构建原则

  目前没有一个标准的本体构造方法,研究人员提出了不少本体创建的标准,最有影响的是GRUBER T R[5]提出的指导本体建立的5个准则:清晰性、一致性、可扩展性、编码偏好程度最小、本体约定最小。目前大家公认在构建领域本体的过程中需要领域专家的参与。

2 环保领域本体的构建方法

  目前,国内外关于环保领域本体的研究较少,可供借鉴参考的先例不多,对于环保领域的本体构建是一种尝试。环保领域本体构建是在相关项目的支持下,由环保领域专家对本体的概念体系和逻辑结构进行指导与评价。因此,此次构建本体,在七步法的基础上进行改进,不考虑对现有本体的复用,同时加入本体评价这一步骤。最终,根据此次领域本体构建的实际情况,提出一种环保领域本体构建方法,如图1所示。

001.jpg

3 环保领域本体构建流程

  3.1 明确本体构建目的和范畴

  本体的构建不是无的放矢,明确领域本体的应用目的,对于限定其范围、增强针对性,进而降低构建难度、缩短构建时间,具有重要意义[6]。环保领域本体的构建目的是为了实现语义检索,即为数据集成系统提供一个共享的词汇库,在数据集成中主要起三大作用:概念定义、查询模型和推理基础。通过本体的基础推理作用,在异构、分布环境下的数据集成中,可以提高数据的查全率和查准率[7]。此次构建的本体包含构建对象范畴内需要集成的数据涉及的概念和关系。

  环保领域范围非常广泛和复杂,为减少难度,仅对福建省环境保护部门关于建设项目环评审批的基本信息数据进行本体建模。本体模型采用的词汇取自国家环境保护行业标准HJ/T416-2007《环境信息术语》、《福建省建设项目环境影响评价文件分级审批管理规定》、《建设项目环境影响评价分类管理名录》、项目资料以及被大多数专业人士认可的环保领域专业性词汇。

  3.2 领域知识的收集和获取

  确定范围之后,收集本体所涉及的知识并列出重要的术语。知识的收集和获取是一个复杂的过程,可以通过网络、书籍、文献、专家、项目等渠道获取相关知识。本次对领域知识的收集,除上述渠道外,还按照构建业务对象模型的思路对领域知识进行解读。业务对象模型将结构的概念与行为的概念结合起来,它探索业务领域知识的本质,在建设数据架构时起着重要的作用,主要体现在数据来源分析方面,即“有什么数据”。确定业务对象定义、对象间关系、对象名称和对象间关系名称的流程,使得能够以一种被业务领域专家理解和验证的精确方式来表达业务领域知识,对提取领域内的概念及关系,进而构建本体有极大的帮助。业务对象模型概念及关系如图2所示。

002.jpg

  3.3 列举概念

  在相关业务人员的帮助下,通过对领域知识的了解,提取领域内的概念和术语。列出一份尽量全的术语清单,而暂时不考虑概念间的关系。

  在确定术语过程中需要注意两点:(1)此次本体构建的对象是建设项目环评审批基本信息,只包含建设项目环评审批工作进行之前需要登记填写的信息,并不包括审批批文等信息;(2)建设项目的行业作为建设项目的一个特征,经常作为数据分类的依据,同时在数据表单、数据库中作为一个重要的字段、数据项出现,因此列举的概念中需包含建设项目的行业及其分类。

  参考相关文献资料,通过与环保部门业务人员和领域专家的交流,归纳总结出78个领域概念,行业及其分类详见《建设项目环境影响评价分类管理名录》,其余包括:项目名称、建设地点、建设内容、建设规模、总投资、环保投资、建设性质、联系人、联系电话、通信地址、邮政编码、单位名称、法人代表、评价经费、证书编号、甲级报告书评价范围、乙级报告书评价范围、报告表评价范围、有效期、基本情况、污染物名称、实际排放总量、核定排放总量、实际排放浓度、允许排放浓度、环境要素名称、保护目标、质量等级、涉及敏感区名称。

  3.4 确定类和类的层次

  类的层次的定义有3种方法,即自上向下法、自下向上法和混合法[8]。混合法将自上向下法与自下向上法相结合,先建立那些显而易见的概念,然后分别向上与向下进行泛化与细化。一般来说,混合法比较适合大部分人员。

  运用混合法,在领域专家的帮助下,经过识别、分析和统计,最终确定了行业、组织机构、建设项目、环评类型、主要污染物、区域环境现状作为核心概念。核心概念作为整个本体概念模型的顶级概念,可以有子概念,即核心类可以有子类,例如组织机构分为建设单位和环评机构。本体类层次如图3所示。

003.jpg

  3.5 定义类的属性

  类的属性包括数据属性(DataType property)和对象属性(Object property)。数据属性的属性值为基本类型值,即非领域中概念,对象属性的属性值为领域中概念。本体概念间的关系主要有4类:属性关系、继承关系、整体和部分关系、类和实例关系。上一步所定义的类的层次就是继承关系。除上述4种常见的关系外,还可以根据领域知识自定义属性,如建设项目和行业之间的具有关系,建设单位和环评机构之间的委托关系等。自定义关系通过对属性的定义和约束予以实现,约束包括属性的定义域、值域的约束。对于不同的类,在约束时将相同属性特征的定义域设置为其父类,根据子类继承父类的特性,子类不用定义就会获得这些特征,减少了冗余。类的属性可以有多个,并不需要对每个属性都进行定义,而是要结合领域范围和本体构建目的,进行适当的取舍。此次自定义36个属性,部分属性如表1所示。

004.jpg

  当属性特征确立之后,借助Protégé4.0将属性进行编辑并存储,图4是部分对象属性的编辑,图5是部分数值属性的编辑。

  3.6 创建实例

  支撑项目从福建省各级环保部门收集了许多建设项目环评数据,这些可以作为本体实例的重要来源。建设项目环评审批基本信息本体实例的数量非常巨大,鉴于文章篇幅,也为了便于实验测试,只列举少数实例。

  通过领域专家对所建本体的审核和评价,发现本体概念体系及逻辑结构的不足,返回前面第三步进行修改。在领域专家的帮助下,经过反复修改,最终构建一个简单的建设项目环评审批基本信息本体模型。部分本体模型结构在Protégé4.0中的视图如图6所示。

005.jpg

4 结论

  建设项目环评审批基本信息本体只是环保本体的一部分,也是基于本体的环保业务数据集成的开端与基础,最终目的是为了更好地实现环保业务数据的集成。本文结合本体的应用目的,设计了一种该领域本体的构建方法,提出了基于业务对象模型分析领域知识的思路,尝试性地构建了建设项目环评审批基本信息本体,为基于本体的相关应用奠定了基础,也在一定程度上促进了环保领域知识管理的发展。

  鉴于作者水平所限以及对领域知识了解不够,本文构建的本体在规模、深度上都比较简单,本体的领域范围和深度都有待扩展。另外,本文无论是概念、关系的获取,还是本体编码都是纯手工完成,当领域范围较广,本体比较复杂时,纯手工完成费时又费力,因此,如何半自动、自动化地实现本体的构建也有待继续研究。

参考文献

  [1] STUDER R, RICHARD B, DIETER F. Knowledge engineering: principles and methods[J]. Data and Knowledge Engineering,1998,25(1-2):161-197.

  [2] 兰春秋,李樱.音乐领域本体的研究与构建[J].计算机光盘软件与应用,2014(3):76-79.

  [3] 李勇,张志刚.领域本体构建方法研究[J].计算机工程与科学,2008,30(5):129-131.

  [4] 李恒杰,李军权,李明.领域本体建模方法研究[J].计算机工程与设计,2008,29(2):381-384.

  [5] GRUBER T R. Towards principles for the design of ontologies used for knowledge sharing[J]. International Journal of Human-Computer Studies 1995,43(5/6):907-928.

  [6] 刘紫玉,黄磊.高速铁路领域本体构建方法研究[J].情报学报,2009,28(2):195-200.

  [7] 李星毅,高文浩,施化吉.基于本体的异构数据集成方法[J].计算机工程与设计,2009,30(8):1931-1933.

  [8] 甘健侯,姜跃,夏幼明.本体方法及其应用[M].北京:科学出版社,2011.


此内容为AET网站原创,未经授权禁止转载。