法律信息研究网

本站首页

关于我们

法律图书馆与法律信息研究会

法律信息研究

	法律信息资源

	法律信息服务

	数字信息检索

	数字技术发展

	专业网站建设

	澳门法律信息

当前位置：首页 > 法律信息研究 > 法律信息资源

法律信息资源

暂无下载资料

信息型法律语料库及其在法律语篇分析中的作用

杜金榜等

点击量：8827

广东外语外贸大学国商英语学院

【摘要】
随着计算机技术的飞速发展和语言研究的不断深入，实证性语言研究受到越来越多关注，其中，语料库发挥了重要作用。信息型法律语料库为研究法律领域中的语言现象尤其是法律语篇提供了有力工具。本文通过描述信息型法律语料库的功能，结合法律语篇的特点，探讨该语料库在法律语篇分析中所起的作用；以及利用该语料库进行语篇分析，获取相关信息的方法。

【关键字】
树状信息结构；法律语料库；语篇分析

一、引言

社会生活中有大量的法律信息需要处理，仅靠人们的观察很难对语言进行科学的分析。正如语言学家 Biber[1]所说：全面的语言研究不能仅靠人的直觉意识所获取的观察证据或者靠很少的语料，它需要由自然语料组成的大型语料库来进行实证研究。鉴于目前计算机等信息处理技术较为发达，可以采用新技术建成大型系统，综合处理各种法律信息，供大范围的人员共享。可以大大降低重复性劳动，提高工作效率。

法律信息处理系统语料库CLIPS就是为此目的而建设的语料库，法律信息处理系统LIPS Legal Information Processing System是该语料库的核心部分，主要功能是处理法律语言信息与系统的其他各个组块相接，以适应各相关行业对法律语言信息的需求，提高信息处理效率。法律信息处理系统语料库是依据法律语篇信息理论[2]。而构建的特色语料库（以下简称信息型语料库）其主要特点是所存储的语料经过了语篇信息标注。包括宏观信息结构和微观信息结构：前者指语篇中各信息单位所构成的相互联系，后者指信息单位内部各成分形成的结构。本文将从信息型法律语料库的功能出发，结合具体的分析，揭示信息型法律语料库在语篇研究尤其是法律语篇分析中的潜在作用。

二、信息型法律语料库的基本特点与功能

（一）普通语料库的特点及局限性

人们在不同时期对语料库的理解不同，因此定义也会不同。1982年美国Brown大学的名誉教授W.Francis认为：语料库是一个用于语言分析的文本集合，对某一种语言、方言或语言的某一方面具有代表性[3]。1991年John Sinclair教授给出如下定义：语料库是一个存储于计算机的自然语言的集合，用来反映语言的状态及变化特征。[4]根据语料库目前的发展状况其较为完整的定义应为：语料库是以计算机为工具建立、存储和使用语言素材的集合，并可对其中的语言素材进行检索\分析和处理得出语言的特征和规律或有益于语言的应用和教学。[5]

从语料库的建库目的和用途来分，语料库有普通语料库和专门语料库。普通语料库指用于多种用途的语料库。例如语言学研究、语法研究、词典编纂、教材编写等，侧重反映语言的普遍规律。如COBUILD BNC Longman Lancaster Corpus等。专门语料库是用于某一特定研究目的或某一特定研究领域的语料库，如口语语料库、用于文学作品分析的各种作家语料库、用于历史语言学分析的历史语言语料库、用于翻译或翻译研究的平行语料库等。本文所讨论的信息型法律语料属于专门语料库。

首先，普通语料库在选材方面，针对性不如专门语料库强。普通语料库语料来源丰富，适应范围广，但不能满足特定领域内语言研究的需要。其次普通语料库对语篇内部结构的处理比较简单，较多处理普遍的语法规则、词汇等，对于语篇分析的作用十分有限。

法律语言为机构性语言，其宏观语篇信息结构和微观的信息成分都有自身的特点。随着法律语言学研究日渐深入，研究者发现传统的研究方法不能单独支撑研究的进展。法律语料库便应运而生，但是专门的法律语料库还为数不多。封鹏程[6]对法律语料库的建立原则和建立步骤进行了详细的说明并对法律词汇进行了词性标注、词频统计和词表比较。该研究中提取的惯用表达式和高频词汇对法律词典或惯用表达式的编撰有一定贡献，但是该研究局限于词、句的研究，尚未上升到语篇分析的高度。李葆嘉[7]提出了根据不同语域构建日常商务和法律语料库的构想，并制定了比较详细的技术路线，但尚未实施。法律信息处理系统语料库则是依据系统的理论和方法而建，具有独特的功能和充分的未来发展空间，在法律语言研究、教学中已经得到应用。

（二）信息型语料库的特点

信息型法律语料库的语料采用语篇信息理论进行了分析和标注，该理论将语篇看成一个由核心命题及其下层信息组成的信息系统。呈树状结构每一个信息单位由一个命题构成，每一个信息单位与其上层信息单位的关系称为信息（节）点。信息点共有十五类：何事、何据、何事实、何推断、何处置何人、何时、何地、何方式、何因、何效果、何条件、何态度、何变化、何结论，这些信息点可以用来表示语篇中所有信息单位之间的关系。因此，具有通用性语篇的信息单位之间的关系构成语篇的宏观信息结构。

与宏观信息结构相对的是微观信息结构。这是指信息单位内部各信息成分之间的相互关系。信息成分共分为三类：即个体、过程和环境：每类信息成分又有子类，个体的子类包括施事、经受、客体、使成、归附；过程的子类包括状态、性质、关系感受、生成、改变、行为、否定；环境的子类包括工具、方位、来源、目标、伴随、时间、影响、借助、语境（中）。微观结构与语言表层的关系更为直接，因此，常可以与语言结合分析，可以作为翻译研究的理论工具。见[8][9]。

信息型语料库是法律信息处理系统的核心库，能与该系统的其他不同类型信息库有效对接，以便结合分析、处理、调用库中其他类型的材料，语料库包括多个模块，分别执行材料入库、分析、检索、输出等具体任务。语料库所存储的材料类型包括文本、音像、视频、图片、实物记录等，其中文本语料包括不同语种的材料，是平行语料子库中的基本语料。信息型语料库中的语料都经过了语篇信息标注，包括信息单位标注和信息点标注。平行语料子库的材料还做了信息成分标注，标注所用的是本语料库系统的专用规范和软件，吸收了同类软件的一些优点，兼容了正则表达式等规范和技术。

三。信息型法律语料库的功能

语料库的主要用途是检索语篇信息，继而激活信息处理系统的相关资源。语料库也可以独立运行，仅检索语篇信息。其机制适合于进行相关的统计计算，适合于资料的预处理和精确处理，所存储的材料可用于语言分析、语篇分析、信息统计、信息网络构建、远程传输、语言教学等普通的语言分析。语料库发展至今，相关的技术和工具较为丰富，词语索引、搭配研究、频率统计等，适合进行基本的语言分析。信息型法律语料库兼容了这些普通语言分析功能，使用者可以根据自己的研究需要，结合其它语言分析理论和工具对语言进行分析语篇信息检索。信息型语料库检索软件除了具备普通的语料检索功能外，更重要的是可以根据研究者的需要对语料库中相关的语篇信息进行检索，信息单位、信息点和信息成分可以按信息层级、标注符号、信息值、信息源等内容进行分别和复合检索。可对这些检索参数进行任意排列组合检索，分内容检索和信息结构检索。内容检索一般以指定的信息单位或信息成份为基准，根据需要选择语境范围，并一起呈现。信息结构检索包括宏观结构检索和微观结构检索，宏观结构检索结果是某级别信息在整个语篇信息结构中的定位，根据需要，整体结构可一并呈现。微观结构检索结果是某信息单位内部成分之间的关系，整个信息单位的结构全部呈现信息统计。该语料库设置了信息统计功能，可对字、词、句、标点等各种普通统计指标进行计量；同时还可以对语料库中的语篇信息进行分类或综合统计可根据语料库与其他子库的关联，对其他子库的相关资料进行连带统计信息网络构建。信息型语料库以处理书面语言信息为核心任务；同时具有处理口语信息、音像材料信息、网络信息、物质材料信息、档案信息等各种信息的扩展功能。因此，该语料库能作为主要模块与其他多种数据库对接，建立各种信息之间的关联，用于搭建复合型信息网络。除了满足局域的信息检索需求外，尚可进行远程传输。目前，以该语料库为基础的大型法律信息处理平台设计已经立项并开始研究教学应用。信息型语料库中设置了跨语言平行语料子库、外语测试语料子库、教学视频库等，这些语料库的材料可用于教学、翻译和研究。

三、信息型法律语料库在法律语篇分析中的应用

以上对信息型法律语料库的基本特点和功能进行了讨论。以下从不同角度讨论信息型法律语料库在语篇分析中的应用，涉及法律语篇研究、法律语言教学、法律翻译等，这些领域的研究都离不开法律语篇分析。法律语篇除了传统的书面语篇，还包括语音语篇和多模态语篇。如涉及法律的语音材料和视频等。法律语言教学中，对法律语言的信息进行研究以找出法律语言的信息特点，对于教学实践有非常重要的指导意义。在法律翻译研究中，不同语言的语言表层结构不同，但是传达的信息是可以对应的。对不同语言之间信息对应方式的规律的探索可以为翻译实践提供重要的理论指导。

一、法庭语篇分析

法庭语篇分析是指对庭审过程中产生的语言进行分析。如法官语言、律师语言、证人语言、检察官语言等。杜金榜[10]对法律语言学的研究方法作了探讨，他提出：法律语言学的研究可以用不同的理论、从不同的角度进行，主要包括：法律语言的特点、功能、所涉及的语言行为，所表现的社会关系，如上下关系、强弱关系、平等或不平等关系、权力层次等。对法律实施过程和结果的影响，对语言使用者的心理影响，法律对语言的要求和制约，法律实施过程中的语言使用的特点等。因为语篇表现了社会关系，所以应将语篇分析置于社会框架中，令社会关系分析贯穿整个研究过程，提纲挈领。作为语篇分析的根据，语篇分析既要深入语言层面，又要关注宏观结构，以便为各种语篇寻找共同的规律。语篇分析中，信息分析不可或缺，应当作为一个重要视角。 [11]

在法律语篇中，人们的社会关系一般有明确的定位，立法语篇中法律所规范的对象、法律执行者、法律解释者、以及司法语篇中的当事人、证人、律师、法官等均处于明确的关系网络中。每一角色的发言、或者对每一角色的语言描述或规定，都直接影响语篇信息的处理，影响信息结构的编排。[12]用信息结构理论提供的方法将法律语篇进行标注，放入语料库中，用计算机进行统一调用。我们可以得到不同寻常的发现，当然，语料库包罗万象，也需要使用者有足够的洞察力和明晰的研究目的，才可以穷其所用。

在法律语言理论研究领域，语料库能够提供语篇处理的各类信息。如信息点的分布、层级关系的布局、语用功能的实现等。法律语言研究的最终目的是解决司法领域的问题，为完善司法实践中的语言使用提供切实可行的理论基础。从如下实例中可以看到信息型语料库在法庭语篇分析中的一些常用功能。

1.法庭问答功能与庭审各方交际目标的实现

龙宗智认为刑事庭审具有三种主要功能：事实查验、法理阐明、冲突处置及其正当化。[14]杜金榜认为庭审交际目标是基于庭审条件，根据自己的利益形成的主张，靠法庭程序和话语予以实现。 [15]他认为：有关语篇的活动以信息处理为核心，庭审活动基于语篇信息处理实现庭审的三种功能：实现庭审交际目标，[16]对语料库中的语料进行分析，结果表明事实查验功能多与客观类问答相关，客观类问答主要处理事实相关的信息，较多用在法庭调查阶段。如：例1

<WF> 审判长起诉书指控的内容是否属实？

<WA> 你对起诉书中适用法律及指控事实有异议吗？

<WF> 被告人属实<WA> 没有

<WF> 审判长起诉书指控的内容是否属实

<WA> 是否自愿认罪

<WF> 被告人属实 <WA> 自愿认罪

注：这是取自信息型语料库的材料，为节省本文篇幅，原有标注符号在此被简化。WF表示该信息点类别，是“何事实”WA 表示，何态度？审判长两次问话都是要求被告证实真实性，证实类问答一般涉及已知内容，采用是非问，应答一般用“是”或“否”，从类别上看，这些问答均涉及WF信息和WA信息，显然审判长征求的是被告人对事实的确认及表态。

2.庭审过程中的信息流动与庭审过程控制

潘小钰杜金榜[17]详细地论述了庭审问答中，法官如何通过信息流控制庭审过程。文章应用了法律语篇信息成分分析法，在句际层面分析了庭审过程中的信息流动现象，通过信息成分的标注在语料库中调取了：过程、个体、环境、的信息成分，发现信息成分的流动使语篇信息得到增生，信息流动方向得到控制。该研究表明，采用信息型语料库可以对交际过程，尤其是庭审过程进行深入的分析，该语料库的具体作用可见一斑。

3.庭审过程中的语篇建构

庭审过程中，各方通过语篇建构来表达自己的立场。在互动中建构自己的语篇，将话题导向于己有利的方面。对每一方都十分重要。陈金诗[18]曾利用该语料库工具，对控辩审关系的建构进行了研究，通过语篇分析表明，法官在庭审互动过程中建构出控辩审间的倒三角关系，在操作庭审的过程中，法官独白偶尔会有“控审合作”的倾向。在法庭对话中，法官也会使用有违庭审程序的、有罪推定、语篇信息，而法庭问答中法官的语篇信息处理也可能会导致“有罪推定控审合作”等有违司法公正的后果。这些语篇信息可以通过对语料库的综合应用检索出来，通过大量的语料剖析问题有助于司法问题的解决。

二、法律语篇实用分析

法律语篇实用分析是指采用法律语言学的分析方法，对法律活动中使用或产生的语篇进行分析，以便针对性地解决所涉及的具体法律问题。如文本鉴别、语音识别、法律语言心理分析等。在这些研究任务中，信息型法律语料库可充分发挥作用文本鉴别是法律语言学应用研究的主要任务之一。在法律活动中，需要对一些文本的真伪、性质、质量等做出鉴别。对文本的归属和作者做出判断，为解决法律问题提供证据。进行文本鉴别前，为了尽可能减低工作量，提高效率，可以针对检材，待鉴别文本的基本题材、体裁、语言、主题、风格、作者特点等与语料库中相关的语篇进行比对，以便确定检材所属的具体范畴。在此基础上，对检材和比对文本进行语篇信息分析，确定更为具体的鉴别范围。例如：为鉴别一份授权书的真伪，可对检材和比对材料的信息结构特点，信息点分布情况、信息点的搭配使用、信息单位的内容、语言表述等进行比较。从而找出检材中异于真实授权书比对文本的具体信息特征。经过语篇信息分析，分析范围可得到具体界定，有时可直接解决问题。如：翁金翠采用语篇信息理论对有关作家代笔的事件进行了研究，并在国际学术会议上宣读了论文[19]取得了良好的效果。

语音识别主要采用语音分析技术和相关的理论，截止目前尚未用到语篇信息分析方法，运用语篇信息分析方法时，首先要对具体语音出现的语境进行综合性信息分析。这时，可以采用语篇宏观和微观信息分析方法，由于语音很少单个出现，总会受到相邻音的影响，语音的特点和变化也必定受所传递信息的影响。如例2：他总是这样埋怨，我没有理过他。其中每一个音的轻重以及变化均与此句话的信息焦点，每个信息单位以及此句话在语篇信息结构中所处的位置有关，语音特点与信息特点的连带分析可令语音识别更为精准；而且，讲话人即使有意识对语音予以调控也无法关照到与信息的关联，必定留下痕迹。因此，采用信息型语料库中的相关语音材料进行比对，是一种可行的方法较之在语音识别中的作用。在法律语言心理分析中，语篇信息的作用更为明显，心理活动与讲话内容密切相关，因此从信息角度分析心理状况甚为直接。此外，法律语言心理分析所用的材料一般较长，如一段谈话、一段写作材料等，足以进行语篇信息的深度分析，基于语篇信息分析心理活动将是法律语言心理分析的重要方法。

三、法律语言教学中的语篇信息分析

信息型语料库可用于法律语言教学的语篇信息分析。信息型语料库中的平行语料子库、教学视频子库、语言测试子库等都可以为教学和研究所用。杜金榜[20]曾将学生的英语习作进行了语篇信息分析，分析内容包括核心命题、信息层次、各层信息单位数目、种类等，并结合进行了语言实现分析。这是在教学研究中对信息型语料库的具体应用。

除了写作教学外，信息型语料库还可用于听力、阅读、翻译等教学。语篇信息分析对于听力训练具有直接作用，通过信息分析，可以具体确定学生在听力训练过程中获取信息的能力。由于语料库中的材料均经过信息分析和标注，信息的层级、数量、类别等已十分清晰，因此，调用语料库的材料进行教学或辅助教学，可以方便地对学生的语篇信息处理情况进行评价，对学生提出具有针对性的建议。例如，两位学生阅读同一篇文章后获取信息数目相等，由于信息所处的层级不同，教师可根据信息在语篇中的重要程度决定哪位学生获取信息的能力更强，显然获取语篇上层信息越多，能力就越强。

同理，在阅读过程中，学生的能力也主要表现在语篇信息的获取。使用信息型语料库中经过信息标注的材料进行阅读教学，可以针对性地分析学生的阅读技巧，对阅读能力进行针对性评价。还可根据语篇信息的特点对学生的阅读策略进行及时的矫正。语篇信息分析可与语言分析同步进行，因此可同时解决学生在阅读中的语言困难，如语法结构、词语搭配、词义辨析等。陈金诗[21]曾进行了基于“法律信息处理系统语料库”的语篇信息教学实践研究，发现在课堂上，学生能充分运用语篇信息分析方法进行法律英语语篇的交互式阅读认知语篇并建构意义，体现了交互式专门用途英语（English for Special Purposes）阅读课堂中教师的引领作用和学生的主体作用。

信息型语料库对于翻译教学最为适用的是平行语料子库。在平行语料库中，源语和译语语篇都经过信息分析和标注，语篇的宏观结构、信息之间的关系以及平行语篇之间信息成分的对应关系都可呈现，便于进行原文和译文间的信息对比分析和语言对比分析。通过教学软件调用语料库中的对译材料，可以帮助学生了解具体的翻译技巧。例如，软件抽取材料形成一道翻译试题，学生回答后即可查阅对应的源语文本中的语句，并能根据语料库对标注译文的评价等级对自己的译文对照评价。除此之外，学生可借助跨语言平行子库随时进行翻译自学和自我评价。

四、法律翻译研究中的语篇信息分析

在法律翻译研究领域，截止目前，研究者除了对翻译的语言层面给予了足够重视外，尚特别重视对翻译过程所涉及因素的考虑，如文化因素、翻译委托者因素、译作读者因素、翻译环境等，但很少研究者从语篇信息角度研究翻译。信息型语料库弥补了这一不足，提供了便利工具，供研究者对原文和译文进行信息对照分析。信息型语料库平行语料子库的标注机制基于语篇信息理论中的宏观和微观两种结构模式，即语篇信息结构模式和信息成分模式。对语篇进行信息成分的标注，可以详尽展示信息内容。

通过对英汉文本差异的比较，可以发现这些差异与信息成分的变化之间的关系，从而找到规律性。田静静[22]曾研究过法庭口译中信息成分改变的原因、改变的方式及信息成分改变对译者决策的影响。

翻译研究，尤其是翻译批评和翻译评估，总是与译文质量的评价密切联系，常以译文的质量评价为基础，而质量评价的标准很难确定。语篇信息理论为翻译质量评价提供了基础，使翻译评价趋向客观化。根据这一理论，以信息型语料库为工具，翻译评价以从语篇信息分析开始。这是因为，信息相对稳定，而语言则动态性强，变化十分丰富。原文与译文所使用的语言不同，不同译者翻译时又有很大变化，但是所要传递的信息应该是一致的，所以衡量译文质量的基础是语篇信息。

利用信息型语料库可以方便地对译文的语篇信息传递情况进行评估。就法律翻译而言，由于对译文的忠实度要求高，原文中的信息要在译文中尽数表达。因此，可以首先进行译文中信息的评估，确定与原文中信息的吻合程度，如果吻合程度合乎要求，例如，信息无遗漏，信息的结构层次不紊乱，就可认定译文已经达到可接受的水平，再结合更高层次的评价，如风格、各种要素的调节、美感等，译文的质量即可确定。语篇信息分析对比方法可以大幅度提高译文质量评价的效率。

利用信息型语料库也可对翻译的语言层面进行深入研究。语篇信息成分与语言层面关系密切能具体反映语言运用的水平，结合信息成分进行语言分析，可使翻译研究中的语言分析更具可靠性。

四、结语

以语篇信息理论为指导进行的法律语篇标注是法律语言学界研究者所做的新尝试。经过多年的发展，该理论已经比较成熟、自成系统，推进了法律语言研究，尤其是法律语篇分析。语篇信息理论为法律语料库建设提供了崭新的思路和技术，同时依据该理论所建的语料库对传统型语料库技术能顺利兼容、继承了传统语料库的诸多优点。

从上面的讨论可以看到，信息型法律语料库为语篇分析提供了有效的工具，在法律语言研究中可以得到广泛应用。可以帮助解决诸多涉及语篇的问题。该语料库尚在不断更新、完善。随着新技术的研发，该语料库将具有自动处理功能，对语篇信息的分析将更为高质、高效。

【参考文献】
[1]Douglas Biber.语料库语言学[M].北京，外语教学与研究出版社2000.
[2][12]杜金榜.法律语篇树状信息结构研究[J].现代外语，2007.301.40-50.
[3][4]方称宇、陈小力.频率统计在语料库中的应用[J].现代外语，1992.3 .
[5]文渤燕.语料库及其作用[J].国外外语教学，2001.1.32-35.
[6]封鹏程.现代汉语法律语料库的建立及其词汇计量研究[D].硕士论文，2005.
[7]李葆嘉.论语言的语层性语域性和语体性[J].语文研究，20031:11-16.
[8]杜金榜.法律语言研究新进展[M].北京，对外经济贸易大学出版社，2010.177-185.
[9]杜金榜.法律语言与翻译[M].上海，上海译文出版社出版，2010.1-10.
[10]杜金榜.从目前情况看法律语言学学科建设的构建[J].现代外语，2000 23 1 :99-107.
[11]杜金榜.试论语篇分析的理论与方法[J].外语学刊，2008.1:92-98.
[13]郭云忠. 最高人民检察院工作报告的话语变迁[J].政法论坛2009.3.50-70.
[14]龙宗智.刑事庭审制度研究[M].北京中国政法大学出版社，2001.19.
[15]杜金榜.从法庭问答的功能看庭审各方交际目标的实现[J].现代外语，2009.32.4 .360-368.
[16]杜金榜.论语篇中的信息流动[J].外国语，2009.32.3.56-61.
[17]潘小珏杜金榜.庭审问答过程控制中的信息流动[J].外国语，2011.34.2.56-63.式研究[J].外语界，2011.5.2-8.
[18]陈金诗.控辩关系的重构法官庭审语篇处理的框架分析.博士论文2010.
[19]马来西亚大学网http://umconference.um.edu.my/IAFL2012=7f975a56c761db6506eca0b37ce6ec87
[20]杜金榜.专业学生高级英语习作语篇信息特点研究[J].外语教学，2009.30.2.42-46.
[21]陈金诗.自主学习环境中的交互式专门用途英语阅读教学[J].Foreign Language World，2011 No.146 5 .
[22]田静静.法庭口译员在信息处理过程中的决策，硕士论文2008.

首都法学网	北京市高级人民法院	中美法律信息与图书馆论坛（CAFLL）
国家图书馆	美国法律图书馆学会（AALL）	国家检察官学院
中国社科院法学所图书馆	国际法律图书馆协会（IALL）	最高人民法院图书馆

主管单位：中国法学会 主办单位：中国法学法律网合作机制 技术支持：北大英华科技有限公司（北大法宝）
电话：010-82668266-152 传真：010-82668268

加入收藏 | 本站首页 | 联系我们