1 司法实务中信息检索的主要问题
随着互联网的发展及各种电子文献资料的普及, 高效的信息组织管理和检索成为信息资源利用的关键问题。而目前较成熟的信息检索工具和搜索引擎大多是基于检索提问式关键词匹配技术。这种检索导致的两类主要问题是“信息过载”和“内容不匹配”, 前者指在检索过程中系统返回的信息量过多, 与关键词相关或不相关的内容都冒出来, 使用户应接不暇, 难于接受; 后者指因对同一个概念的表述出现多义、歧义, 返回的信息并非用户真实的查询意图和内容。就法律领域而言, 大量的法律文献、法律法规、案例判例信息主要来自于互联网的查询, 采用检索关键词的方法, 信息的查准率和查全率都得不到保证。司法决策人员在查询目标不很明确的状况下选择决策依据时,注重的是如何从浩如烟海的数据中快速地调出与案件相关的法律法规及判例, 而不是遍历庞大的互联网或数据库资源漫无目标地去搜寻。
根据这样的状况, 组织以知识和案件为核心的信息资源,建立有法律领域专家指导参与的、基于本体的语义检索模型和相应的法律信息元数据标准, 按照案件关联、以义索文、主题提炼、综合分析的思路来设计法律信息语义检索方式就显得十分迫切和必要。
2 基于本体的法律知识表述
2.1 本体的知识组织体系
2.1.1 本体的基本概念
所谓知识组织体系( Knowledge Organization Systems) , 是对知识的内容概念及其相互关系进行描述和组织的机制, 能够对各种信息对象按照知识内容和知识结构进行管理和组织。
目前本体( Ontology) 技术被广泛运用于知识管理过程中。B.Chandrasekaran 等人认为:“Ontology 是研究特定领域知识的对象分类、对象属性和对象间的关系, 它为领域知识的描述提供术语”; Thomas R.Gruber 认为:“本体是共享概念化的明确的规范说明”, 综合相关学科的研究结果, 人们普遍认为: 本体是关于领域的显式的、形式化的共享概念规范。本体首先是按照一定的组织形式聚合起来的概念集, 这些概念集常常潜在地包括大量不同的层次和含义, 往往具有某些类型特征和本质性的关联; 其二, 本体是对这些概念的涵义、属性、层次、关系等的明确说明和规范。
2.1.2 本体的知识结构
在本体中, 知识划分为三个层次, 即具体事实知识、领域概念知识和通用概念知识。
通用概念知识是一种公理化的大家认同的知识, 无需做特别说明, 也不会有二义性的理解, 用通用本体来刻画。领域本体是专业性的知识体系, 汇集了与专业领域相关的所有概念及其之间的关系, 以及该领域所涉及的具体事实。领域本体内的具体事实知识是用来描述、解释或求解领域内具体事物、具体事件或具体问题的知识, 它用领域概念知识来表达具体事物、具体事件。
构建领域本体可以按领域需求分类搭建该领域本体的知识层次结构、共享专业领域知识, 同时还能够避免在知识抽取和共享时所产生的概念语义歧异。例如:“诉”是一个通用领域中的词汇, 可以理解为“ 告诉”、“ 诉说”、“ 倾诉”? ? , 而“ 诉讼”一般只适用于法律领域,“刑事诉讼”则适用于更狭窄的“刑法”范畴。
根据对概念关系的揭示程度, 可以将本体中的知识组织体系分为三个层次:
( 1) 词汇表( Term Lists) , 强调概念的定义, 一般不涉及复杂语义关系和分类结构, 例如: 词汇表、字典、人名表等。
( 2) 分类聚类体系( classification/categorization) , 强调概念间的层次聚合和类别体系, 例如: 主题词表和分类表。
( 3) 关系列表( Relationship Lists) , 强调表现概念之间关系, 例如: 叙词表、语义网络和概念集。
2.1.3 主题关系词表及其语义环境
按照上述知识组织体系的划分, 主题关系词表在领域本体中扮演着极其重要的角色, 它将本体中的知识进一步概念化、具体化、形式化、显明化, 使用专业术语或词汇的集合表达概念及其各种聚类、所属关系; 作为一种将网络资源和信息用户的自然语言转换为规范化语言的工具, 主题关系词表搭建了本体与语义检索之间的桥梁, 对信息的有序组织与机化管理提供了有力的支撑, 在文献标引和信息检索等方面具有广泛的应用。主题关系词表也通称主题词表, 是一种主题检索系统所用的检索词的有序化词汇表, 设有参照系统和各种索引, 以显示词间语义关系和提供各种查词途径。主题词是能够表达自然语言之间语义关系的、有标引和检索意义的词或词组。
主题词表具有知识的结构, 是一种简单的本体, 本文后面将介绍以此实现的一个简单的基于主题词表的法律领域本体信息检索系统原型。
2.2 法律信息本体的构架
按照前述领域本体中知识内容的层次关系, 可以对法律信息大致进行不同知识层次的划分:
第一层, 法律信息公共资源的一般性、概括性的描述。通常适用于描述供归档的法律公文( 法律公文、法律法规等) 信息,由一组抽象出来的专业术语表征, 基本上可以罗列出如下若干项: 发文编号、发文机构、文件名称、主题、摘要、发布日期、发布范围、使用语言、事件、关联、密级、有效性等( 可用“ 元数据”描述) 。
第二层, 从法律信息的应用角度( 性质或适用领域等) , 对法律信息的知识单元进行组织和描述, 如, 把它们分为刑事类、民事类、行政类、海事类, 或者分为起诉类、判决类、合同类、公告类, 还可以把它们分为法律、法规与判例、案例, 形成针对不同问题域和检索目标的知识维。
第三层, 依据具体信息内容进行概念的抽象和描述, 通常可以针对法律公文的主题、内容摘要以及描述具体案件、事实的信息( 往往用若干个关键词来描述) , 如: 罪名、事由或案情简介, 并定义其下属概念、内容和相关的属性及关系, 如, 案情摘要中的主要关键词, 原告、被告、被害人及其姓名、性别、年龄、身份、特征等。通常第三层信息较零散、模糊、不规范, 属半结构化或非结构化信息, 涉及的实例多, 难以描述, 如: 案情摘要中的犯罪动机、造成的危害及后果等。归纳起来, 面向案件事实的法律公文包含的知识主要有:( 1) 法律文献信息;( 2) 机构或个人信息;( 3) 事件信息;( 4) 犯罪信息等。
进一步将这些抽象出来的概念整理, 找出它们之间的逻辑关系。以司法文书中的起诉书为例, 从第一层所描述的司法文书的名称、主题、摘要中可以抽出下层有关罪行、犯罪性质和犯罪事实信息, 再进一步寻根索骥, 调出犯罪人、犯罪动机、作案经过、犯罪后果以及判决结果等详细说明信息, 这些又直接与罪行相适应的法律条文和判例相关联。由此, 就形成了一个依据描述法律事实的司法文书而搭建的本体( 语义网络) 。
如图1所示。
3 建构于本体之上的法律信息语义检索
3.1 依据法律本体的语义检索
所谓信息检索( Information Retrieval) , 是指从大量的信息资源中方便、快捷、有效地查找出与使用者需求相关的内容。目前的信息检索技术大致分为三类: 全文检索( Text Retrieval) 、数据检索( Data Retrieval) 和知识检索( Knowledge Retrieval) 。全文检索和数据检索从本质上说都属于关键字匹配的检索技术, 这种基于关键字匹配或是基于学科分类的检索工具之所以不能令人满意, 最主要的原因之一就是它们无法挖掘概念之间的内在联系, 搜索出更深层的含义, 在查全率和查准率方面都有一定的局限性, 因此, 采用基于本体语义匹配技术的知识检索, 因其检索效果更好而成为了当前信息检索领域的研究重点。
本体在信息检索中的功能主要表现在:
( 1) 消除自然语言理解中的歧义, 明确概念所属范畴和涵义, 提高信息检索的查准率。通常, 信息检索流程的第一步就是通过人- 机界面接口输入用户检索请求( 查询关键词) , 由于自然语言具有丰富多彩的表达形式, 有大量的同义词、近义词、多义词存在, 计算机要自动识别检索词的准确含义, 就需要借助__本体中概念和概念约束的明确规范说明, 帮助系统在多个可能的词义中选择最适合的含义, 给予该信息的准确的定位。例如:“主体”一词通常表示事物的主要部分, 一般用于描述事或物,而把它放入民法的范畴中, 用来描述民事法律关系———“民事主体”, 则指享有民事权利和承担民事义务的法人或自然人。
( 2) 在语义标引的基础上, 借助本体进行语义推理, 利用文献的语义标注和概念集的语义关系及推理规则, 从而挖掘出相关或隐含信息, 实现智能检索和知识组织, 提高检索结果的可用性。比如, 在表述案情的司法文书中, 通过司法文书的元数据( 标题、主题词、类型、摘要等信息) , 可以挖掘出该司法文书所指控的案件罪名、适应的法律范畴及其它属性, 并建立相关的法律、法规和判例的链接。再如: 假设用户想了解法律领域里有关合同的信息, 在系统中输入关键词“合同”, 该系统输出来的不仅是对“合同”的概念解释以及它的同义词、上、下位词, 还应该输出合同的特点、格式、分类、范本、用例等本体中的相关信息, 并舍弃与之无关的东西。
3.2 法律信息主题词表的设计
如前所述, 法律本体是根据法律专家长期司法实践的经验和法律专业知识汇总形成的。由于目前在法律界关于基于本体的法律信息语义检索方面的研究还属于空白, 尚未编制出一套用于语义检索的、可共享的法律本体标准。为了实现本文所提出的基于法律本体的语义检索意图, 我们依据“最高人民法院关于印发《人民法院公文处理办法》的通知”( 1996 年4 月9日, 法发〔1996〕9 号) 附录中的“人民法院公文主题词表”, 并参照中国科学技术信息研究所编制的“综合电子政务主题词表( 试用本) ”, 设计了一套用于本研究检索原型系统的法律信息主题词表查询模板。
在“人民法院公文主题词表”中一共设有379 个主题词, 其中刑事审判类138 个, 民事审判类64 个, 经济审判类34 个, 行政审判类66 个, 海事审判类17 个, 审判程序类60 个。以民事案件的主题词为例, 这些主题词大致可以分为两类: 一类是在归档时用以区分法院各审判庭审理的案件, 如“民事审判”、“民事案件”、“民事纠纷”、“民事权益”等, 按照前述领域本体的划分, 这些主题词可归类为领域概念知识; 另外一类是通过民事审判庭内部审理案件的具体事实来定类的, 如“抵押”、“不当得利”、“扶养”、“遗产”、“继承”、“遗嘱”等, 在领域本体中可归类为具体事实知识。在具体事实类主题词中, 如果词之间的相关度比较高, 主题词中还有属- 分的逻辑关系, 如主题词“知识产权”是上位概念, 而“著作权”、“专利权”、“商标专用权”则是下属概念;“人身权”是上位概念,“健康权”、“姓名权”、“肖像权”、“荣誉权”、“名誉权”等则是下属概念。由此可见, 司法中的主题词是建立在对某类法律事实性质的界定下的。参照“综合电子政务主题词表( 试用本) 的范畴表归类, 对“人民法院公文主题词表”中部分主题词进行了分类编码, 给出如表1 样例。
样例中, 主题词表的自左至右体现了主题概念的树形层次结构。第一列表示主题词的所属范畴, 如:“刑事”、“刑事”??。第二列为归类于左列范畴下的主题词, 如:“刑事责任”属于“刑事”范畴。第三列为与左列主题词相关的概念, S-( 属) 项, 表示该词的上位概念; F-( 分) 项, 表示该词的下位概念; C-( 参) 项,表示该词的参考概念; T-( 同) 项, 表示该词的同义词。第四列为左列包含的概念, 每一概念下又可继续下分具体内容( 如:第五列) 。
例如,“刑事处罚”属“刑事”范畴, 它的上层类属( 上位词)是“处罚”, 它的下层分类( 下位词) 是“主刑”、“附加刑”、“劳动改造”, 它的参考概念是“刑法”, 它的同义词是“刑罚”; 而在其下层概念中又包含了更下层( 下位) 的概念, 如,“刑事处罚”的“主刑”中可包含“ 管制”、“ 拘役”、“ 无期徒刑”、“ 有期徒刑”、“死刑”,“死刑”中更具体的是“立即执行”和“死缓”。
3.3 法律信息语义检索系统模型
依据法律信息主题词表, 作者在其上试制了一个原型系统Law- Retrieval。系统主要由三个部分组成:( 1) 按照法律信息元数据及其标识机制对网页上法律公文( 包括反映法律事实案例的司法文书) 自动进行标引和分类, 通过元数据建立法律公文主题词与法律信息主题词表相关概念的映射关联, 将关联的主题词及对应的网页法律公文地址( URL) 存放在指定的数据库表中。( 2) 根据用户输入的查询请求关键词, 在本文设计的法律信息主题词表查询模板中进行相关概念和上下位概念的检索,找出与之相关联和匹配的主题词或上位、下位词。( 3) 按照元数据所标引的主题词的网页法律公文地址( URL) 检索出网页中用户所需要的法律公文内容以及相关的法律知识。
如图2所示。由于信息系统开发是一项大型、复杂、艰巨的工程, 尚有许多的基础工作要做。为了快速实现上述基本思路, 本文采用小型的关系数据库管理系统ACCESS 对Law- Retrieval 原型系统进行了简单的、理想化的模拟。
( 1) Law- Retrieval 原型的基本结构
Law- Retrieval 原型的主要数据结构是4 个数据库表。它们分别是: 叙词词表Main, 叙词关系表Relation, 分类表Category,和文件索引表Docfile。其中Main 表记录了本文所设计的主题词表模板中的所有概念, 对于这些概念中的非正式主题词提供了与其同义的正式主题词在该表中的位置, 对于一般要求的检索和标引, Main 即可实现控制功能; Relation 表记录了主题词的位置及主题词间的各种关系( 包括该词的同义词、参照词、上下位词, 主题词间的分、属关系也记录在该表中) , 据此表可以提高信息检索的扩检功能; Category 表记录了主题词所属分类范畴; Docfile 表记录了用元数据标识的某个主题词对应的网页上的法律公文主题词的映射关系, 以及该文档索引名称和相关URL 网址。用分类法和主题词法结合起来构成系统上层本体的词汇网络, 下层由Web 中的法律文档构成实体信息资源。之所以这样设计系统, 目的是使得检索系统能够表达法律信息元数据和主题词表概念间的两种关系, 各表之间的层次关系
通过上面的数据结构以及层次结构的分析可以看到, 以法律信息主题词表为基础构建的原型系统不仅仅是一个有关法律主题词的抽象概念的集合, 更是一个包含了具体法律信息实例的知识网络。系统中的两个层面———上层的本体和下层的实体信息由元数据被紧密地结合在一起, 从上而下, 使下层的法律文档作为本体的具体实例很好地继承了上层本体中概念间的关系; 也正是通过这些关系, 下层的具体实例拥有了丰富的语义联系, 不再是孤立的信息单元, 而成为关联的知识单元, 借此可以提取法律本体中与用户查询需求相符合的、有助于司法决策的关键信息。
( 2) 检索输出
在用户输入区域输入某个关键词后, 系统首先按照模糊查询的方式在叙词表Main 中进行扫描, 当找到与用户输入的关键词相一致的主题词时, 根据数据库各表的指针, 随之确定了该词在Relation 表中的位置及其上、下位关联词和所属范畴;进一步地, 用户还可以在窗口中选择并确认与该主题词相关的上、下位或同义词, 经Docfile 表找到已用元数据标识和定位了的、含有符合用户查询关键词的Web 页面中相关法律信息文档。
例如, 在原型系统窗口中选择“诈骗”一词, 随之该词所属范围的“立体”结构就以树型方式体现出来, 可以看到“诈骗”所属范畴是“刑事”, 其上位概念是“侵犯财产”, 它的下位概念包括:“金融诈骗”、“手机费诈骗”等。
在检索结果“ 主题词相关文档”窗口, 可以检索到归属于“侵犯财产”范畴下与“诈骗”主题词相关的网络法律文献有2篇, 当双击任何一个文档名, 就会按照文档的链接网址打开该文档, 供用户点击浏览查看。见图4 所示。
显然, 以这种方式提供的检索结果不再局限于以前的关键字匹配检索, 它充分利用了法律本体的语义关系, 保障了用户查询需求与目标结果的一致性, 因此既提高了查全率, 又确保了查准率。
4 结语
本文通过对国内外关于本体、信息检索方法的研究分析,结合司法实践中法律信息检索问题, 提出了一个以司法事实为主线, 依据法律信息的语义特征及其关系构建法律本体, 进而实现法律信息语义检索和知识抽取的解决方案, 为今后的法律信息组织、标识、检索提供了可借鉴的理论和实践依据。