龙源期刊网 http://www.qikan.com.cn
结构相似性的比较
作者:刘 丹 许淑伟 王 健
来源:《管理观察》2009年第05期
摘 要:越来越多的网上信息交换依附于XML文档,许多软件需要检索、存取、处理相关条件的XML文档并且返回近似值,因此XML文档的相似性评价受到越来越多的关注。本文对XML文档的结构相似性的几种常用的比较方法进行了总结和分析,对于今后提出更精确的方法做了必要的准备。
关键词:XML文档 结构相似性 边集
1.引言
XML(Extensive Markup Language可扩展标志语言)是W3C机构继HTML之后提出的又一超文本标记语言。越来越多的网上信息交换都依附于这种形式,许多软件需要检索、存取、处理相关条件的XML文档并且返回近似值,因此XML文档的结构相似性评价受到越来越多的关注。最近几年,许多学者对XML文档的相似度问题进行了广泛研究,其中比较传统的方法有元素比较法、边集比较法和编辑距离法[1][2][3]。
2.元素比较法
元素比较法是指通过计算两个XML文档有元素的数量占这两个文档中所有元素数量的比例来反映文档之间的相似度。
龙源期刊网 http://www.qikan.com.cn
假设E(T)={e1,…,ei,…,en}表示文档树T中包含的所有元素,给定两棵文档树T1,T2,C(T1,T2)={c1,…,ci,
…,cm}
表
示
T1
和
T2
共
有
元
素
的
集
合
,
其
中
ci=e1j=e2k,LevelC(ci)=Max(Level(e1j),Level((e2k)),C’(T)={c’1,…,c’i,…,c’n}表示文档树T1,T2中非共有元素的集合,则有计算文档树T1,T2之间相似度的公式如下: