Ontology三篇

2024-09-09

Ontology 篇1

关键词:跨媒体,Ontology,检索

基于Ontology的跨媒体检索是建立在基于内容的多媒体检索基础之上,用Ontology存储多媒体语义信息的新型检索模式。首先从不同类型的媒体中提取对象特征,然后利用机器学习的方法获取Ontology中各个概念对于各种类型媒体的类中心。再计算用户每个检索请求的特征向量和各个类中心的相似度获得其从属概念,最后使用概念实现对各种类型媒体的检索。

1 相关研究

跨媒体检索是基于内容的多媒体检索中的一个新的研究领域,目前还没有较为成熟的检索算法和技术。由于跨媒体检索从不同类型媒体中提取的低层特征是异构的,所以同单模态的多媒体检索相比,其复杂性更高。比如,在基于内容的多媒体检索中,只需比较单模态特征之间的相似度,而跨媒体检索需要计算多模态特征的相似度,如x维的图像特征与y维的音频特征。目前,跨媒体检索复杂性处理常采用下面两种方法:

(1)建立跨媒体关联表。通过分析不同类型媒体间的特征相关性,建立关联表来维持不同媒体间的相关性。常用的典型相关性分析CCA是把不同类型的特征向量映射到同一空间中,并在新空间中计算其相似度。外部隐含的关联关系还可起辅助作用,如利用Web页面的超链接关系可以找到不同媒体的关联等。该方法推动了跨媒体检索的发展,缺点是对媒体之间的关联程度描述不够准确。

(2)建立跨媒体知识库。如分析某高校数字图书馆中的多媒体数据,可以首先对不同类型的媒体分别建立索引,再实现跨媒体的检索。该方法的特点是主要以关键字为基础,缺点是工作量大又不能恰当描述各种媒体包含的信息。因此,介绍以基于内容的多媒体检索为基础,采用Ontology组织多媒体信息,通过分析多媒体的内容和语义,在语义层实现各媒体间的跨越检索。

2 基于Ontology的跨媒体检索

2.1 跨媒体检索系统结构

如图1所示是一种实现跨媒体检索的系统结构。用户登录后,首先提交检索请求,系统对请求进行预处理(如平滑、分割等)后,调用特征提取模块生成特定维度的特征值,再遍历Ontology中的各个概念节点,对该特征值与各概念的相似度依次进行比较,确定该媒体反映的语义信息。最后根据用户请求,返回该节点下的各种媒体作为结果,从而达到跨媒体检索的目的。

新媒体的入库与上述检索过程类似,加入的新媒体经过预处理和特征提取后,与Ontology中的规则依次比较,确定该媒体表示哪种概念后,把它附在合适的概念节点下并调整该节点的内部结构。

2.2 Ontology的结构

通过上面的分析可得出,Ontology在整个检索方案的各个环节都具有重要作用。在Ontology的结构中每个节点代表一个抽象概念,下一层节点表示概念的范围从属于上一层节点表示的范围,整个Ontology由多个Ontology节点及各节点的联系构成。其中每个Ontology节点的结构如图2所示,每个概念按媒体类型划分为平行的若干部分,代表不同类型的媒体可以代表同一个概念。在每种类型下划分出多个中心集,中心集代表该类媒体中描述当前概念的一个面。通过从不同侧面描述同一个概念。满足上述规则的媒体(该媒体提取出的特征向量)也依附在中心集上,并按当前概念相似性的大小排序。中心表示某个描述侧面下的所有条件,用各种特征类型的代表性特征向量来表示。通常条件匹配程度越高,媒体与该概念的相似度越接近。

例如,老虎的概念可以由多种媒体来描述。单图像领域就可以从多个侧面来描述,如外貌是全身黑白黄相间、身上毛茸茸。也可以有其他描述方法,每种描述方法就是一个中心集,而“黑白黄”对应的颜色直方图和“毛茸茸”对应的纹理特征则是此中心集下的一个类中心。

上述Ontology结构还可以扩展,因此,该结构可以应用于大型跨媒体检索系统。

3 检索算法

现在以用户提交一幅新图像A为例,返回相似的图像和其他类型媒体。

算法1:跨媒体检索算法

(1)利用特征提取算法提取A中的各种特征。

(2)自顶向下遍历整个Ontology中的节点,对所有节点重复(3),计算A与每个节点的相似度。取相似度最大的节点作为A所从属的概念,记该Ontology节点为M,转(4)。

(3)计算A与某个Ontology节点的相似度,遍历该节点的所有中心集,根据算法2计算提取的特征与每个中心集的相似度,选择最大的值作为A与该概念的相似度。

(4)在节点M下所有的图像中,利用基于内容的图像检索方法,返回最近的k1个结果,结果集记为B1。

(5)在节点M下所有其他类型的媒体中,各返回队列中靠前的k2个结果,结果集记为B2。

(6)B1∪B2就是返回给用户的结果。用户根据返回的结果是否满意进行相关反馈。

还可以根据用户需求对查询进行扩展,直接检索与目标媒体相似的各种媒体外,也可用以下方法进行处理:

(1)用户期望检索同时包含多个概念的媒体。用户先设定每个概念的权重,检索时先用算法1列出这些概念下的所有媒体,比较各个概念的权重得出返回结果。

(2)用户期望检索到包含一些概念的媒体,但不包含另一些概念。让用户设定每个包含概念的权重,不包含概念的权重设为负值,按算法(1)进行处理。

从上面的结构可以看出,每个中心集是由多个类中心构成,它表示的规则是一个n维向量组,每个向量即为该中心集下所有媒体特征值的平均(即类中心)。使用如下算法计算某个媒体与中心集之间的相似度:

算法2:

(1)依据被选的X个特征,调用对应特征提取过程,得到含有X个向量的特征向量组x1。

(2)对比中心集中特征的类型,舍去不包含在中心集中的特征对应的向量值,得到含有X’个向量的特征向量组x2。

(3)分别计算X’个向量与中心集中对应向量的距离(欧式距离)Di(0

4 用户反馈

系统把检索结果返回给用户时,期望得到用户的相关反馈,用此记录结果是否满足需要,并对Ontology节点的内部结构进行调整,以便使下一次检索更准确。如,用户检索一幅图像A,期望得到满足条件的图像和音频。此时,利用算法1计算A与中心集和概念节点的距离,返回给用户检索出的图像和音频媒体,并把A添加到Ontology中。对于返回的音频文件,让用户标记正确的返回结果,在A中即记录了这些相关结果。当下次检索到图像A时,上述结果便可以一并返回。

参考文献

[1]张文俊.数字媒体技术基础.上海:上海大学出版社,2007.

Ontology 篇2

Internet上信息资源的飞速增长,使得人们越来越习惯于在网络上搜集自己所需的信息。其中各类文献资源信息也以电子文档的形式,在网络上广为传播。然而要从庞大的文献资料库中准确、方便、迅速地找到并获得自己所需的信息,却往往比较困难。传统的基于关键词匹配的文献信息检索方式存在一些弊端如“忠实表达”、“表达差异”[1]等问题。这种方式对文献资源的处理粒度大,网络搜索引擎在执行用户查询的时候,只是提取用户查询请求中的关键词,会丢失用户查询的语义信息和相关同义、近义以及上下位关系外延的资料信息,这些直接导致检索结果的不准确。以关键词检索文献资源的方式无法提供高质量的知识服务。

解决上述问题的关键在于把资源检索从传统的关键词层面提高到语义知识层面。Tim Berners-Lee于2000年提出了语义Web[2]的概念。语义Web是一种能理解人类语言的智能网络,它的实现能有效提高互联网使用效率。要实现检索系统的语义化,很自然的需要引入本体(Ontology)[3]。Ontology作为语义Web的核心概念和技术,本身具有一定的推理能力和概念知识结构,能很好的描述实例的内涵及实例与实例之间的关系,经过推理还能表示隐含的各种知识之间的关系。通过本体,搜索程序可以进行基于语义的精确搜索,可以把页面上的文献资源与某些知识结构和规则链接起来。基于Ontology的文献领域语义检索机制可以从语义层上支持对文献资源的查询和共享,从而在一定程度上提高了文献检索的查准率和查全率。

2 文献本体的构建

2.1 本体知识

在语义W eb中,Ontolo gy具有非常重要的地位,弥补了资源描述的不足,是解决语义层次上Web资源共享和交换的基础。Studer等人认为"An ontology is a formal specification of a shared conceptualization"[4],这个是目前为止最完善的本体的定义。文献[5]分析了本体的概念、本体描述语言、本体的分类、本体的构建原则。文献[6]给出本体包含的4层含义、本体的目标、领域本体及其构建。总结这些文献资源可以发现:本体不仅提供了对领域知识的捕获、描述和共同理解,还给出不同层次模型中概念间相互关系的明确定义,具有较强的表达能力。本体的核心就是知识共享,通过减少概念和术语上的歧义,使得人们和组织(或者机器)之间的交流准确无歧义。

2.2 本体构建方法

一个本体由多个概念以及关系组成,本体的创建就是用来表达概念和概念之间的各种关系。根据具体工程和领域的不同,形成不同的构建方法。文献[7]详细介绍了本体的构建方法,如七步法、生命周期法、骨架法、IDEF-5方法等。文献[8]以七步法的思路为基础,综合生命周期法和软件工程的原型法,以骨架法为本体构建的指导方针,提出了一个创新的构建领域本体的原型七步法,过程是螺旋式上升的,符合人们的思维认知规律,操作性和扩展性强。

2.3 文献本体的构建

文献领域知识库的建立是实现语义检索和推理的关键步骤。本文以七步法的方法为基础,根据文献资源本体构建的需要,提出一种较为简单的本体构建方法,图1描述了该构建方法的流程。

文献领域本体描述了文献中的实体、实体之间的各种关联以及实体的属性和关联的属性。基于本体的文献语义检索系统中关注文献(Paper)、作者(Author)和期刊(Magazine)三类重要的概念实体。三个概念又通过相应的属性关联起来,定义了三个对象属性(ObjectProperty),其中isPublished描述了文献与期刊之间的出版关系,其定义域是Paper类,值域是Magazine类;Citing(isCited)等属性的定义域和值域都是Paper类,它描述了论文与论文之间相互引用的关系;对象属性hasAuthor定义域为Author类,值域为Pap er类,它描述了作者与文献之间的关系。建立的文献领域本体如图2所示。用户通过检索文献可以了解到文献的作者、内容、类型、关键词、发表时间、引用和被引用的文献等。而同引和同被引可以通过文献的引用和被引用情况推理出来。

3 文献领域语义检索的实现

3.1 基于本体的文献领域语义检索模型

分析了传统的文献检索模型之后,提出了基于Ontology的文献领域语义检索系统模型,如图3所示。该模型采用基于B/S的三层结构,即把该系统分为三层:表示层、业务逻辑层和数据层。用户向系统发出检索请求,系统对检索请求进行信息提取,根据检索信息和所定义的语义规则对文献领域本体进行语义推理,从而实现用户的检索要求。

3.2 实验环境及工具

本系统所使用的开发工具为Java、Jena2.5、protégé3.4本体开发工具;使用OWL本体描述语言和SWRL规则语言[9];Tomcat6.0作为Web服务器;实验环境为:CPU InterCore 2、1.83GHz、1G内存、80G硬盘的Windows XP操作系统进行实验。

3.3 系统语义推理

基于Ontology的文献领域语义检索系统,是关于语义层面的检索,关键在于概念及其概念之间关系的推理,这种推理可以将隐含在显式定义和声明中的知识通过一种处理机制提取出来,即根据用户提交的语义查询进行相应的语义扩展,譬如可以从检索出的文献引用关系中推理出它的同引和同被引文献。然而这种推理需要相应的规则,没有规则系统是无法理解本体概念之间的语义,只能进行关键字机械的匹配。Jena是基于规则的推理机,因此在基于本体的文献检索系统中建立了能真实表现概念之间关系的规则,实现系统的语义理解,从而检索出满足用户需求的信息。

在Jena推理机的基础上,结合OWL和SWRL规则(用户自定义规则的补充表达),使得在pro tégé下编辑规则,更加灵活和直观。首先自定义了一组语法:符号“→”表示蕴涵,将前提和结论逻辑关联起来;变量以“?”开头;引用的子公式插入符号“∧”进行连接;同时提供内置函数,类似方法调用,返回值为变量的值。

定义规则:A(?x)∧B(?x)→C(?x)

以一阶谓词逻辑的角度来分析上述规则,可以得到如下的语义:如果变量x是类A的实例,同时也是类B的实例,那么变量x也是类C的实例。其部分推理规则如下所示:

规则一:hasCiting(?a,?c)∧hasCiting(?b,?c)→bothCiting(?a,?b)

规则二:hasCiting(?a,?b)∧hasCiting(?a,?c)→bothCited(?b,?c)

规则一说明:文献a引用了文献c,文献b也引用了文献c,a和b的关系为不相等,则可以推出a和b的关系为同引(bothCiting)关系;规则二说明:文献a引用了文献b,文献a又引用了文献c,b和c的关系不相等,则可以推出b和c之间是同被引(bothCited)的关系。

4 实验结果与分析

通常用查准率(Precision)和查全率(Recall)来衡量智能信息检索系统的性能。查准率主要描述的是检索结果的有用性,是检索结果中有效信息量与检索总量之间的比例关系。查全率主要描述检索结果的遗漏情况,表示的是信息检索结果中有用信息量与用户需求信息量之间的比例。设检索出的文档数目为N,检索出的相关文档数目为Ra,所有相关文档数目为Rb,则查准率和查全率的计算方法如下:

本文选取互联网上计算机领域的相关科技文献作为实验对象,以2008-2011年期间的在计算机相关期刊上发表的学术论文,针对计算机不同的领域,选取300篇文献作为本体库。对采用Ontology技术前后的检索性能进行比较,得到的结果如表1、2所示。

实验结果表明:基于Ontology的文献检索系统返回符合检索条件的大量的、精确的文献资源,包括文献编号﹑标题﹑作者﹑关键词﹑文献出处﹑内容﹑同引和被同引等详细内容信息。本系统的查全率与查准率高于传统的关键词检索的效率,这主要是因为系统在本体的基础上对检索关键字进行了语义的分析、扩展和推理。因此将本体技术应用到文献检索领域是可行的。

5 结束语

结合文献信息的特点,本文提出了一个新的本体构建方法,创建了文献领域本体,建立了推理规则,构建了一个文献领域语义检索系统模型。该模型可以方便、快捷的查找出目标文献。用户向系统输入检索请求可以通过对本体的推理,检索出目标文献引用的文献、引用目标文献的文献、同引关系和被同引关系的文献。最后通过实验,验证了基于本体的文献领域检索系统的优越性。

摘要:针对传统基于关键词匹配的信息检索系统存在的问题,结合文献信息的特点,本文设计了一个基于Ontology的文献领域语义检索系统模型,提出新的本体构建方法,构建了一个文献领域本体,定义了推理规则,通过语义推理挖掘出隐含的同引和同被引文献关系,帮助和引导用户快速有效地查找到相关文献。通过实验,验证了基于Ontology的文献领域检索系统的优越性。

关键词:语义Web,本体,语义检索,语义推理,OWL,SWRL

参考文献

[1]朱庆生,邹景华.基于本体论的论文检索[J].计算机科学,2005.32(5):172-173,176.

[2]T BERNERS-LEE,J HENDLER,O Lassila[J].The Semantic Web.NewYork:Scientific American,2001:284(5):34-43.

[3]What is an ontology?[CP/OL].[2011-02-10].http://www-ksl.stanford.edu/kst/what-i s-a n-ontology.html

[4]FENSEL D.ONTOLOGIES.Silver Bullet for Knowl-edge Management and ElectronicCommerce[M].Stanford:Springer,2001:50-53.

[5]刘垣,君忠.本体理论及其在E-Learning中的应用[J].计算机应用与软件,2012,29(4):114-117.

[6]柴留祥,何丰.基于Jena及其本体推理的研究[J].计算机技术与发展,2011,21(11):117-119,123.

[7]USEHOLD M.Ontologies principles,methods and applications[J].Knowledge Engineering Review,1996,6(11):2-3.

[8]梁婷婷,李春青.一种领域本体构建方法及其在相片管理中的应用[J].计算机系统应用,2012.12(5):140-144,104.

Ontology格义 篇3

Ontology格义

Ontology的汉译问题并非单纯的语言翻译问题,而是直接关联于西方哲学及文化传统的深层次的学理及义理问题.Ontology纯粹属于传统西方哲学的理论建构方式.从学理上看,古希腊哲学关注的主要还是系词意义上的`“是”及“是论”,以黑格尔为代表的德国古典哲学关注的是“有论”及“存有论”,海德格尔等现代生存哲学家试图挖掘的还是“生存论”,但它们之间是相互渗透的.作为一种学说的Ontology,承载并通向西方超验的精神传统及其信仰关怀.存在论的论阈包含三方面:一是“是”作为系词的共相普遍性及逻辑整全性,在此,“是”表达的是一种信念;二是确立起作为“是”之殊相及谓词样式的“是者”及“存在者”,并由此构成一个“世界”结构;三是对“是”的状态或“存在”的状态的先验构造,这一构造旨在通向超验者的存在(出场).

作 者:邹诗鹏 作者单位:华中科技大学哲学系主任、教授、哲学博士,武汉,430074刊 名:南京社会科学 PKU CSSCI英文刊名:SOCIAL SCIENCES IN NANJING年,卷(期):2004“”(12)分类号:B016关键词:Ontology Being 本体论 存在论 是论 生存论

【Ontology】推荐阅读:

Ontology模型08-23

上一篇:急性脑梗死的诊治体会下一篇:落地生根

热搜文章

    相关推荐