在我国, 随着人民对法律意识的不断增强, 对法律问题的查询也不再成为专业人士的专利, 利用现有检索工具来查询相关的法律信息, 得到的结果往往有一大堆的信息垃圾。根据iProspect 在2004 年4 月间发布的搜索引擎用户使用习惯调查报告表显示:81.7%的用户不会浏览三页之后搜索结果, 而52.2%的用户只会关注搜索引擎返回的第一页搜索结果。也就是说, 通常用户只关心搜索引擎返回的排在前列相关度较高的页面。如果占在前面的都是些垃圾信息, 那么用户将“永远”找不到自己想要的东西。
因此笔者借鉴本体论的基本思想, 提出了一种基于本体论的法律信息检索方法, 它通过对分类目录的进一步智能化处理, 更好的满足用户的查询需求。
1、 本体的概念
本体(ontology)的概念起源于哲学领域, 本体论概念在引入人工智能领域后, 被赋予了更为具体的意义。最著名并被引用得最为广泛的定义是由Gruber提出的,“本体是概念化的明确的规范说明”。
本体是领域内重要实体、属性、过程及其相互关系形式化描述的基础。这种形式化描述可成为软件系统中可重用和共享的组件。总的来说, 构造本体的目的都是为了实现某种程度的知识共享和重用。
2、 基于本体驱动的法律信息检索
2.1 基于本体的检索方法
目前, 基于本体的检索构建方法大致有如下几种:Uschold和Kong 的“ 骨架法”, Gruninger 和Fox 的“ 评估法”(又称TOVE), KACTUS 方法, METHONTOLOGY 方法, SENSUS 方法和七步法。其中“七步法”是由斯坦福大学医学院开发, 主要用于领域本体的构建。本文将借鉴“七步法”来构建基于本体的法律信息检索模型。
2.2 基于本体的法律信息检索的一般模型
法律信息检索方法的优劣一般采用查全率和查准率两个概念来衡量。查全率用以衡量搜索到的法律信息的多少, 而查准率用以表示搜索到的法律信息的准确度, 即是否是期望所搜索的法律信息。
目前比较流行的是基于网站分类技术和全文检索技术, 这两者都不能很好地满足查全率和查准率的要求。虽然网站分类技术为法律网络信息导航带来了较大的方便, 但是其网站描述信息相对简单, 不能满足查全率的要求;而基于全文检索技术虽然能够解决对网页细节的检索问题。但这又导致搜索的信息太多, 因此查准率很低。
而本体具有良好的概念层次结构和对逻辑推理的支持, 一方面, 用户的信息需求需要通过共享本体转化为计算机可理解的查询表达。通过共享本体中概念与概念之间的关系扩展查询表达, 可以有效的提高查全率。另一方面, 被检信息资源需要通过同样的本体进行标引, 信息资源的表达包括逻辑判断等, 使信息表达成为本体结构中的一部分。在基于本体的信息检索过程中, 查询表达与信息资源之间进行相应的匹配, 这一过程能够按照查询的表达形式和逻辑理解方式来实现, 这就大大提高了查准率。
2.3 构建基于本体的法律信息检索模型
构建基于本体的法律信息检索模型的主要步骤如下:
(1)建立领域本体
法律领域本体, 是法律专业性的本体, 提供了法律学科领域中概念的词表以及概念间的关系, 或在该领域里占主导地位的理论。构建法律领域本体, 可以解决在用户或软件代理间达成对于法律信息组织结构的共同理解和认识, 为基于知识的法律信息检索提供基础。
模型中基本上构建了法律本体由29个类组成, 如: 宪法类、经济法类、刑法类、民法类等, 每个类下包含若干子类。系统本体的元语基本分为三种:一是法律实体概念, 如抢劫、贩卖毒品、放火、爆炸等; 二是能体现法律实体间关系的概念, 如预备、未遂、中止、剥夺、豁免、撤消等; 三是一些辅助性的助词、限定词、连词、代词等, 这类词同样也包含一定的语义信息, 如共同, 间歇性、完全丧失等。与本体相匹配的还有一个基本术语的词典---参考[美]费曼著《牛津法律术语小典》, 其涵盖了本体中的所有概念, 并且包括每个概念的不同词形, 如- s, - ed, - ing 等。法律本体同时也作为用户接口, 可以供用户选择查看。其基本领域本体局部示意图如图2 所示。
图2 领域本体局部示意图。由此可见, 本体在表现概念之间关系上有着明显的优势。
(2)收集信息源中的数据
参照已建立的本体把收集来的数据按规定格式存储在元数据库(如关系数据库、知识数据库等)中。使用XML 描述语言来表示本体, 数据保存在知识数据库中。
① 标引过程。从PDF、DOC、HTML 中导出相关的摘要、题名、全文信息或关键词的纯文本数据, 根据本体用XML 对其进行注释。再将提取出的作者、年份、参考文献, 以及文章链接等信息共同存入数据库中, 形成关键词和本体类别标引文件, 供检索使用, 其中的关键步骤为本体注释。
② 本体注释。利用本体对语料库中的文档题名、摘要及全文中的每个词和关键词进行标注, 生成XML 文件。系统对本体的注释分两步进行:
a.标注每个词, 计算机先从词典中找出其原形形式, 再从系统本体中找出其对应的概念, 然后利用本体对应概念用XML语言进行标注。对于没有语义信息的词, 即在本体中没有对应概念的词, 用<text>标注。
b.标注句子, 将标注的词组成句子。
(3)数据存储
由于文件是基于XML 语法对本体进行序列化表示, 而XML 具有跨平台的特性, 这样表示的领域本体可以在多个用户及大范围团体内实现共享和重用, 但是当本体的规模增大时,文件形式的本体处理效率较低。所以本文结合当前本体开发和应用的主流技术, 利用Jena 平台向用户提供的RDF、API、OWLAPI 实现对本体的结构化存储, 并以四元组方式将领域本体存储于关系数据库MySQL, 记作O=<C, A, R, W >。其中, C 是概念集, 表示领域本体包含的概念;A 表示属性集, 主要用来表现概念自身的特征;R 是关系, 指领域中概念间的交互作用;W 为Web 资源URI。
(4)过滤
在本体的帮助下, 我们可以很好地学习用户的兴趣, 若要通过用户的个性化偏好对结果进行过滤, 就要求我们对用户的(兴趣)提问进行规范化。
一般用户的提问很模糊, 事实上大多用户会使用自己日常使用的词汇、语句进行查询, 其输入的关键词可能是本体中类、属性、个体中任何一个。因此我们要通过“过滤”来规范用户的查询。当人机接口递交提问(关键词)后,“过滤”首先访问领域本体库判定哪些关键词是本体库中包含的类、属性、个体, 对用户提问概念进行规范化。
由于领域本体以四元组的方式存储于本体库中, 因此规范化实质上就是判断输入概念哪些属于四元组的C、A、R、W。判断结果一般有三种情况:所有关键词都包含于领域本体库;部分关键词包含于领域本体库;没有关键词包含于领域本体库。判断过程如下:
假设输入关键词的集合为T, 当T≠ 时:
① T≠ , T 中的概念为C 的存入集合XC
② T- XC≠ , C- XC 中的概念为A 的存入集合XA
③ T- XC - XA≠ , T- XC - XA 中的概念为R 的存人集合XR
④ T- XC - XA - XR ≠ 时, T- XC - XA - XR 中的概念为W存入集合XW。
⑤ T- XC - XA - XR - XW≠ 时, T- XC - XA - XR - XW≠ 中的概念存入集合U。
经过判断后, 用户递交概念被划分为五个概念集XC 、XA、XR 、XW、U。其中集合U 中的概念不属于本体库, 因此当U≠时, 采用改进的正向最大匹配法与本体库的类、属性、个体匹配, 对此概念规范化进行处理, 向用户提供相近的本体概念, 供用户选择。
最后,“过滤”后的系统将提供四个概念集XC 、XA、XR 、XW。
(5)人机接口设计
对用户检索界面获取的查询请求,“过滤”按照本体把查询请求转换成规定的格式。
使用关联规则库中的规则, 可实现对本体的语义扩展, 充分挖掘概念之间潜在的关系, 因此该模型在关联规则库的帮助下从本体数据库中匹配出符合条件的数据集合, 然后返回给用户。其基本框架图如图3 所示。
图3 基于本体的法律信息检索模型基本框架
其中使用的匹配算法为查询扩展算法。
查询扩展的基本思想为:q∈(XC 、XA、XR 、XW);//查询子串s=getSubset(q); //按项数递增的方式.依次生成q 的子集,for all s 的子集do。
从本体库中表取得该词语的所有子层词语按信任度大小排序。取前r 个相关词语, 写入RS(SK)f RS(SK)为空。
从关联库中相关关系表取得该词语的所有相干词语, 按信任度大小排序, 取前r 个相关词语, 写入RS(SK)RS(s)=∪RS(SK), 将RS(SK)集合中所有相关项按权值大小进行排序, 存入RS(s)。
Q =q∪RS(s)//Q 为查询串q与扩展串RS(s)合并后得到的集合。
2.4 模型主要功能
基于本体的法律信息检索模型包括本体的概念查询、语义扩充查询、分类浏览等。
其检索功能提供用户指定类、子类的组合, 布尔逻辑检索,指定关键词在文中出现的频率, 选择查找题名、摘要或正文。用户还可以选择其查询表达是与文档全文还是句子匹配, 按照全文、摘要、题名、作者、年份等项查询。
3 仿真实验与评价
试验测试集是100 篇经过专家评定的法律方面的文章, 分成6 类, 分别检索文摘和全文。试验结果显示, 文摘的查全率是75.2% , 查准率是83.4% ;全文的查全率是93.8% , 查准率是79.8%。经分析, 本体构建的质量直接关系检索的效率。一般错检的句子, 70%是由于检索用的关键词缺乏语境造成的。因此,我们应该明确, 现在的本体匹配还处在初级阶段, 从某种程度上来说, 一对一的匹配本身是不尽合理的。重要的是在研究本体匹配的过程中能发现更多有价值的理论和方法使之用于其领域检索。
4 总结
本体是对概念化的明确描述, 是当前人工智能、计算机交叉领域的研究热点。大量国内外专家的实验证明, 基于本体的信息检索技术能形成较好的语义理解, 能有效地提高信息检索的效率, 是一种值得研究的方法。
作为知识表示的一种方式, 本体在概念语义的表达上涵盖语义检索, 但是本体的构建却是该研究领域的瓶颈, 一方面很难形成大规模通用本体, 另一方面本体构建现在很多是人工进行, 工作巨大。因此在深入研究基于本体的领域信息检索时, 需要结合机器学习技术, 发展本体自动获取工具。
本文作者创新点:现在本体论是一个新型的研究课题, 其本身的构建方式就不同于以往的信息检索, 具有良好的概念层次结构和对逻辑推理的支持。本文以本体论作为驱动, 在专门的领域, 即法律信息检索方面着手, 提出这样一种检索方法, 还是很新颖的。
其次, 本文结合当前本体开发和应用的主流技术, 引用并改进了领域本体的存储方式, 即使用了四元组方式, 将领域本体存储于关系数据库MySQL, 这是一个创新点。其中, 该模型还结合使用了数据挖掘的相关算法, 并进行了相应的改进。本模型与关联规则相结合对领域本体进行过滤, 不仅智能地提高了查准率, 还对分类目录进一步智能化处。