一、引 言
今天,计算机网络和信息技术的迅猛发展大大地推动了社会的发展,它的影响和溯及力已经遍布整个社会的方方面面,并且在法律领域逐渐显示出强有力的优势,无论是对日常的司法业务处理,还是法学研究与司法办案决策都赋予了新的方法和思路,越来越发挥着它的辅助支持作用。
然而面对着网络中越来越错综复杂、难以描述的模糊问题和海量非结构化的数据,如何满足对其高效的查询请求,以更低的成本、更准确的数据和更迅捷的速度作出正确的决策,是当前信息获取和利用所面临的关键问题。司法决策人员在查询目标不很明确的状况下选择决策依据时,注重的是如何从浩如烟海的数据中快速地调出与案件相关的法律、法规及判例,而不是遍历庞大的互联网或数据库资源漫无目标地搜寻。而目前大多数网络搜索引擎和信息获取工具是基于检索提问式关键词匹配技术,在检索的过程中常常出现的两类主要问题是“信息过载”和“内容不匹配”。前者指在检索过程中系统返回的信息量过多,与查找相关或不相关的内容都冒出来,使用户应接不暇,难于接受;后者指因对同一个概念的表述出现多义、歧义,返回的信息并非用户真实的查询意图和内容,查准率和查全率都得不到保证。
要解决网络环境中上述信息获取存在的问题,实现真正意义上的面向法律领域的知识检索,从理论层面上,必须构建以法律领域知识为基础的用于语义检索的元数据标准,用来对网页中的相关信息标引和知识抽取,以便将用户查询请求准确地与网页上查询的法律知识目标相匹配;这就要求我们对来自网页或数据库的法律信息进行整理、组织和特征分析,依据法律领域专家所设计的法律信息规范标准,建立可利用和共享的法律知识单元和元数据,以达到智能和准确的语义检索,实现面向法律领域的知识获取,为司法业务信息化和司法决策信息化提供更加有力的支撑。
二、法律信息资源的构成与语义特征分析
(一)法律信息知识单元的组织
一般来说,在法律文献中的知识内容是由若干个知识单元组成,知识单元之间的结构关系是相对固化的。用户在网上查找其中的知识时,只能按照编者事先组定的线性方式读取,即使只想获取其中某一部分事实或数据,也要在获取全文的基础上根据需要逐个筛选,这显然不能满足用户的实际需求。如果能将这种线性的知识块( 文献) 分解为各种面向用户问题域或基于事实域的认知层次的活化知识单元,并将这些知识单元予以激活,重新组合、联结、转化为特定环境、特定需要的知识,将大大提高法律文献知识的利用率与共享性。因此,对于网页中法律文献资源及其知识内容进行有效的提炼、整序和知识单元的组织,进而对其分析和特征标引,实现按用户问题域的语义检索,就成为网络环境中法律知识获取的关键。
通常的法律信息主要包括:法律公文(含司法文书)、文献,法律、法规、司法解释,司法案例、判例,司法证据以及相关的声音、视频、图像等多媒体资料。按照司法领域惯用划分,可以将法律信息根据其性质、作用或所属部门法系进行知识层次和知识单元的组织:
第一层,是对法律信息公共资源进行一般性、概括性的描述,通常适用于描述供归档的法律公文(法律文件、法律法规、司法文书等)信息,由一组抽象出来的专业术语表征,基本上可以罗列出如下若干项:发文编号、发文机构、文件名称、主题、摘要、发布日期、发布范围、使用语言、事件、关联、密级、有效性等(可用“元数据”描述)。
第二层,可以从法律信息的应用角度(性质或适用领域等),对法律信息的知识单元进行组织和描述,例如,把它们分为刑事类、民事类、行政类、海事类;或者分为起诉类、判决类、合同类、公告类;还可以把它们分为:法律、法规与判例、案例;形成针对不同问题域和检索目标的知识维。
第三层,则依据具体信息内容进行概念的抽象和描述,通常可以针对法律公文的主题、内容摘要以及描述具体案件、事实的信息(往往用若干个关键词描述),例如,罪名、事由或案情简介,并定义其下属概念、内容和相关的属性及关系,又如,案情摘要中的主要关键词,原告、被告、被害人及其姓名、性别、年龄、身份、特征等。通常第三层信息较零散、模糊、不规范、难以描述,例如:案情摘要中的犯罪动机、造成的危害及后果等。归纳起来,面向案件事实的法律公文包含的知识主要有:
(1) 法律文献信息。记录不同用途的司法文献的基本信息,例如,发文编号、发文机构、编制者、文件名称、文件类别、主题、摘要、发布日期、发布范围,使用语言、事件、事件关联、基本格式等。
(2) 机构或个人信息。记录与案件事实相关的司法机构、法人、被告、原告、被害人等的基本信息,例如,法人的姓名、性别、年龄、职务、单位、地址等。
(3) 事件信息。记录司法事实发生的详细经过信息,例如,事件发生时间、地点,相关者、事件后果及结论等。
(4) 犯罪信息。记录罪行的基本信息,例如,罪名、犯罪人、被害人、动机、情节、原因、危害后果、处罚情况等;进一步将这些抽象出来的概念整理,找出它们之间的逻辑关系。以法律公文的判决书为例,从第一层所描述的司法文书的名称、主题、摘要中可以抽出下层有关罪行、犯罪性质和犯罪事实信息,再进一步寻根索骥,调出犯罪人、犯罪动机、作案经过、犯罪后果以及判决结果等详细说明信息,这些又直接与罪行相适应的法律条文和判例相关联。由此,就形成了一个依据描述法律事实的司法文书而搭建的语义关系网络(如图1 所示)
图1 法律信息的语义关系网络图
(二)法律公文的语义特征目前,随着司法领域信息化、数字化的推进,国内司法界已对各类法律信息进行了较细致的划分,并制订了统一、规范的格式,形成了标准范本(可参考最高人民法院、最高人民检察院发布的法律公文格式、规格书等),这为网页上法律信息知识单元的组织和法律知识的抽取,进而构建法律信息元数据搭建了良好的基础平台。例如,我们可以用反映法律案件、事实的司法文书(起诉书、判决书、合同等)作为分析对象,描述它的基本格式,抽取各部分的关键词及其语义特征,按照这些关键词在网页文档中各部分出现的频率、位置关系和权重进行标引,检索出其在相关网页上的法律、法规、案例和判例。
网页发布最普遍的法律信息多为文本形式,而以法律事实、案例为主线的法律文本则主要为法律公文,所以,本研究重点是对反映法律事实案例的法律公文进行分析和讨论。
尽管各类法律公文的内容不一,但它们的基本形式是相似的,与其他文档相比具有显明的格式。
由此,可以将网络环境中非结构化的法律信息转化为较规范的结构化的数据格式,进而,构建出用来实现语义检索的法律信息元数据及其可标引、分类的主题关系词表的大致框架。
三、法律信息语义检索的构架
(一)法律主题关系词表的设计
按照前述知识组织体系的划分,主题关系词表在领域知识单元中扮演着极其重要的角色,是一种主题检索系统所用的检索词的有序化词汇表,能够表达自然语言之间语义关系的、有标引和提供各种查询途径的词或词组。作为一种将网络资源和信息用户的自然语言转换为规范化语言的工具,主题关系词表在文献标引和信息检索等方面具有广泛的应用。
为了实现本文所提出的基于法律本体的语义检索意图,我们依据最高人民法院发布的“人民法院公文主题词表”〔1〕,对部分主题词进行了分类编码,并参照中国科学技术信息研究所编制的“综合电子政务主题词表(试用本)”〔2〕,设计了一套用于本研究检索原型系统的法律信息主题关系词表查询模板(见表1):
法律信息主题关系词表(样例)在模板中,主题关系词表自左至右体现了主题概念的树形层次结构。第一列表示主题词的所属范畴,例如,“刑事”、“民事”第二列为归类于左列范畴下的主题词,例如,“刑事责任”属于“刑事”范畴。第三列为与左列主题词相关的概念,S-(属)项,表示该词的上位概念;F-(分)项,表示该词的下位概念;C-(参)项,表示该词的参考概念;T-(同)项,表示该词的同义词。第四列为左列包含的概念(特征词),每一概念下又可继续下分具体内容(如第五列)。例如,“刑事处罚” 属“刑事”范畴,它的上层类属(上位词)是“处罚”,它的下层分类(下位词)是“主刑”、“附加刑”、“劳动改造”,它的参考概念是“刑法”,它的同义词是“刑罚”;而在其下层概念中又包含了更下层(下位)的概念,例如,“刑事处罚”的“主刑”中可包含“管制”、“拘役”、“无期徒刑”、“有期徒刑”、“死刑”等表示相关概念的特征词,“死刑”中更具体的是“立即执行”和“死缓”。
(二)法律信息元数据的设计元数据被认为是一种用来描述数字化信息资源,特别是网络信息资源的基本特征及其相互关系,从而确保这些数字化信息资源能够被计算机及其网络系统自动辨识、分解聚类和分析归纳( 即所谓机器可理解性) 的一整套编码体系,它代表一组被广泛认同的、能准确描述信息资源属性和领域特点的最基本的元素,它通过对网络资源数据的结构、内容、关系、条件和其他特征进行描述与说明,帮助人们有效地定位、组织、提取、分析和使用网络资源数据。国际图联IFLA 对元数据的定义是:“元数据就是关于数据的数据(data about data),此术语指任何用于帮助网络资源的识别、描述和定位的数据。”〔3〕公共资源基本元数据应能够表述如下的信息:资源名称、资源主题、资源标识、资源摘要、资源格式信息、关键字说明、空间范围、时间范围、资源使用限制、资源语种、资源类型、资源标识符、在线资源链接地址等信息。
通过对国内外元数据标准的研究和探索,本研究依据国际通用的元数据设计原则和法律公文的格式和语义特征,并参照国家电子政务标准化项目工作组的《政务信息资源目录体系》的要求与其他专业应用领域元数据的编制方法,在都柏林DC 元数据的核心元素集〔4〕的基础上作了一定的扩充、删减和修改,设计了一套既能体现国际通用标准、又能反映法律公文特点的法律信息元数据模型,同时,保留了DC 中的限制属性帮助理解各元素取值的含义。其中核心元素集包含了14 个基本元素:标题、创建者、主题、摘要、发布者、类型、格式、标识符、来源、语种、关联、日期、覆盖范围、权限。另外,为了能更好地体现法律信息的特点,我们参照了部分特殊应用领域元数据标准,如“主题信息服务(ROADS)”、“政府信息定位服务(GILS)”和“教育对象元数据IEEE LOM”,对都柏林DC 元数据的基本元素进行了扩展和补充。例如,资源密级, 事件, 事件相关者(被告人、起诉人、被害人、证人、代理人等),审判机构,主题词表等,并设计了法律信息元数据扩展元素集。下面表2、表3 给出了这套元数据中若干元素及其定义的基本样例。
表2 法律信息元数据基本元素集(样例)略
表3 法律信息元数据扩展元素集(样例)
下面是参考“ROADS 模版”〔5〕设计的机构、个人、事件元素组,可以根据实际需要复用。
(1)个人元素组。
标识符(Id)、姓名(Name),部门(Dep),职务(Job-Title),地址(Address),电话(Phone),邮政地址(Postal),电子邮件(Email)。
(2)机构元素组。
标识符(Id)、名称(Name),机构类型(Og-Type),所属省、市、区(Zone),地址(Address),电话(Phone),邮政地址(Postal),电子邮件(Email),传真(Fax)。
(3)事件元素组。
标识符(Id)、名称(Name),类型(Type),性质(Fibre),人物(Person),原因(Cause),时间(Time),地点(Place),结果(Resule)。
四、法律信息语义检索方法
(一)法律信息语义检索的特点所
谓信息检索(Information Retrieval),是指从大量的信息资源中查找出与使用者需求相关的内容。目前的信息检索技术大致分为三类: 全文检索(Text Retrieval)、数据检索(DataRetrieval)和知识检索(Knowledge Retrieval)。全文检索和数据检索从本质上说都属于关键字匹配的检索技术,这种基于关键字匹配或是基于学科分类的检索工具之所以不能令人满意,最主要的原因之一就是它们无法挖掘概念之间的内在联系,搜索出更深层的含义,在查全率和查准率方面都有一定的局限性。而基于语义知识匹配技术的知识检索,将传统基于关键字的匹配技术上升为基于概念节点的知识匹配,增强了检索的语义识别能力,其特点表现在:
(1)消除自然语言理解中的歧义,明确概念所属范畴和涵义,提高信息检索的查准率。
(2)在语义标引的基础上进行语义推理,利用文献的语义标注和概念集的语义关系及推理规则,从而挖掘出相关或隐含信息,实现智能检索和知识组织,提高检索结果的可用性。
(二)法律信息语义检索模型依据对前述法律知识体系的分析与探讨,本文提出了一个用于网络环境下法律信息语义检索的模拟解决方案,表述如下:
(1)由法律领域专家按照法律知识体系规范和司法实践经验,组织法律信息各主题概念和与其相对应的知识、内容,按照本体的构建方法,建立层次丰富、语义清晰、关系明确的法律知识本体(主题关系词表),并保存到相关的数据库中。
(2)依据法律信息元数据及其标识机制对网页上法律公文自动进行标引和分类,通过元数据建立法律公文主题词与法律本体相关概念的映射关联,将关联的主题词及对应的网页法律公文地址(URL)存放在指定的数据库表中。
(3)根据用户输入的查询请求关键词,在已设计的“法律信息主题关系词表”查询模板中进行相关概念和上、下位概念的检索,找出与之相关联和匹配的主题词或上位、下位词。
(4)按照元数据所标引的主题词的网页法律公文地址(URL)检索出网页中用户所需要的法律公文内容以及相关的法律、法规、判例知识。
下面给出一个互联网环境下实现上述研究基本思路和方案而研制的法律信息语义检索原型:
当用户在输入区域输入某个待查法律信息特征词后,系统首先按照模糊查询的方式在主题词表库中进行扫描,当找到与用户输入的特征词相一致的主题词时,根据数据库各表的指针,随之确定了该词在关系表中的位置及其上、下位关联词和所属范畴;经索引快速找到已设置元数据标识和定位的Web 页面中与用户查询特征词相匹配的法律信息,进而还可以挖掘出与之相关的其他信息。例如,当我们需要查找有关“损害赔偿”方面的判例时,首先选择“法律判例”选项,然后在“关键词”框中输入“损害赔偿”,则库中所有含“损害赔偿”一词的判例标题均会出现在屏幕上;在其中选择某项,即可输出该判例的内容,同时将相关信息如所有含有同一法院或法官审判的类似案例,与此判例相关的法律、法规,原、被告所涉及所有判例等均被检索出来(见图2)。
图2 语义检索原型示例
五、结 语
本文通过对当前国内外关于信息检索方法的研究分析,结合司法实践中法律信息检索问题,提出了以司法事实为主线、依据法律信息的知识单元及其语义特征实现网络中法律信息知识抽取和语义检索的设计构架和解决方案,并建立了一个检索原型系统对其进行了模拟实现。显然,以这种方式提供的检索结果不再局限于以前的关键字匹配检索,它充分地利用了法律信息间的语义关系,不仅保障了用户查询需求与目标结果的一致性,同时还能够挖掘出与用户需求相关联的实用信息,进而提高了网页中法律信息的查全率和查准率,为互联网环境下法律知识的获取提供了可借鉴的理论和实践依据。