本体网络结构及其演化研究

本体具有共享与重用的优良特性,做为语义Web的核心和知识组织的手段,近年来,其在科学研究与实际应用中被越来越广泛的采纳和使用。然而,伴随着互联网和语义Web的研究与发展,本体等语义数据的数目越来越多。一方面,由于存在本体构建泛滥的状况,各个本体构建机构声称权威,导致本体质量参差不齐。另一方面,由于领域的差异与发展,导致目前的本体规模也越来越大,给本体的理解、重用等带来了新的挑战。同时,领域知识和需求的变化,使得本体处在不断的演变过程中,导致对本体的认识需要用动态的视角来审视,也给本体的演化管理活动带来了困难。在这样的环境下,本文使用复杂网络分析技术从三个角度来研究本体网络拓扑结构的复杂性及其演化规律,即本体网络拓扑结构描述、本体网络模块化和本体网络演化代价三个层面,来进一步加深对本体结构的理解,同时为本体重用提供模块化方法与技术,对本体的演化代价及管理活动进行指导。本文通过分析探索本体网络研究与传统复杂网络研究领域的异同,指出本体网络拓扑结构复杂性的独特性。通过设计新的本体形式化方法,将本体表示为具有精确语义的概念网络,指出本体是一个具有语义内涵的含有多重边和环的具有k种关系的n型层次复杂网络。并从本体词汇分布、本体网络度分布、本体网络集聚系数、本体网络最短路径长度、本体网络的层次体系等角度来度量本体网络的结构复杂性。实证研究发现OWL本体的词汇分布呈指数分布,并验证了大规模本体网络服从幂律分布,具有无标度特性,且幂律曲线可能伴随震荡现象,集聚系数很小,不具有小世界特性;同时指出大规模本体网络的层次体系是一个扁平球形的形状,而不是金字塔结构体系,叶节点概念占很大的比例,继承关系占主要地位,大部分节点只有出度而没有入度;分析结果说明了节点的度并不是衡量节点领域重要性的绝对指标,节点度高的值集中在本体层次体系的中上层,本体网络的聚-度分布具有无标度特性,验证了本体网络的层次性;本体网络的最短路径分布先递增后递减;另外本文设计了计算本体概念节点比例深度的方法,发现绝大部分非继承关系位于本体比例深度的底层、层次体系的中间层,且随着本体层级的升高,同一节点度的节点数先增加后减少,不同节点度的层次分布曲线相似;本体模块相对于本体概念节点的研究视角更大,在本体模块化的研究中本文指出传统本体模块化方法以及网络社区检测方法在本体模块化操作中的不足,其模块划分结果不具有可比性且这些方法在实际的模块化过程中很少考虑本体网络的语义特性。因此,本文设计了融合本体拓扑结构及语义内涵的本体模块化方法,该方法可适用于本体重用、本体推理、本体可视化等多个场景,且具有很强的灵活性,可以根据实际的应用场景来获取不同规模的本体模块。并以基因本体为模块化对象,从模块的规模、模块数、内聚度和耦合度等指标分析了本体模块的可视化效果,验证了本体模块化的作用与意义,并发现本体模块之间具有自相似性,且本体模块规模越小越趋近于星型结构。通过本体的模块化操作使得对大规模本体的分割、重用以及可视化等成为可能;本体网络演化的研究视角更为宏观,在本体网络演化的研究中本文分析了本体演化的动机及影响,以及本体演化研究的作用与意义,指出本体演化有一个复杂的生命周期过程,并且和传统的复杂网络演化模型具有很大的差异,不存在统一的本体网络演化随机生成模型;本文总结了本体演化的操作策略及子策略,并对其进行了形式化表达,同时和本体网络的中节点和弧的操作进行了映射。分析了GO中演化操作的策略类型,进一步发现本体演化操作的复杂性。本体中不同的演化操作会造成不同的扩散效应,且不同的演化需求会产生差异很大的子演化操作策略,本体演化过程不存在统一的子演化操作执行路径。本体演化对具体应用的影响是十分巨大的,如本体的演化会导致基于本体的语义标注结果需要重新修订,本体知识库需要进行修改。例如,本体概念被删除,那么该概念中的所有实例需要被删除或重新进行分配,给本体知识库的检索及应用造成了巨大影响。本文构建了本体演化的代价模型,从结构代价和应用代价两个角度来衡量本体演化操作的代价,设计了最小演化代价算法,可以根据演化需求计算出本体演化最小执行代价的演化路径。并通过GO本体进行了模型的科学性验证,说明了本文模型的有效性和优势,对本体演化操作与管理具有指导意义。

本体网络; 复杂网络; 本体模块化; 本体演化; 演化代价;

董慧;

TP391.1;O157.5

14118516101K
在线咨询 用户反馈