法律信息研究网

本站首页

关于我们

法律图书馆与法律信息研究会

法律信息研究

	法律信息资源

	法律信息服务

	数字信息检索

	数字技术发展

	专业网站建设

	澳门法律信息

当前位置：首页 > 法律信息研究 > 法律信息资源

法律信息资源

暂无下载资料

基于裁判文书网的大数据法律研究：反思与前瞻

左卫民等

点击量：6381

四川大学法学院

【摘要】
以裁判文书网为主的司法公开平台的建设为法律实证研究提供了司法大数据这一新型资源，使得大数据法律研究空间更为广阔。目前基于裁判文书网的大数据法律研究存在着技术手段不成熟、研究缺乏学术深度及创新性的问题，原因在于技术门槛要求严格、已公开裁判文书不能反映出真实的司法实践全貌及研究者未能跳出现有法律理论的先验框架。未来的法律大数据研究应当继续推进统计科学、计算机科学在研究中的深度运用、谨慎对待数据的缺失问题、采用多元化的研究方式，同时充分认识并利用大数据资源的创新潜力。

【关键字】
裁判文书网；司法公开；大数据；实证研究

　　引言

　　在大数据来临的时代，实证法律研究路在何方是值得研究的问题。整体而言，实证法律研究是一种更多流行于域外的新型法学研究范式，以经验性研究的样态区别于纯理论式的抽象观点构建。域外学者对实证研究方法论的探讨及方法的实际运用上都已相对成熟。透过美国实证法律研究会议[1]和实证法律研究期刊[2]的相关文章，可以看出其在研究中惯常使用全国范围内的抽样数据或者与研究主题相关的全数据，至少也是较大区域或范围内的局部数据或大样本数据。在中国法学研究领域中，虽然目前基于演绎的法教义学方法仍然占据着主流地位，但实证研究这种新的法学范式近年来也得到较多接受，[3]专注于实证研究的出版物[4]已经面世，以“中国法律实证研究年会”[5]、“法律实证研究国际学术会议”[6]为代表的实证研究学术会议也开始召开。然而，实证研究方法兴起之初，全国范围的、权威性的法律大数据尚未出现，国内研究者多倾向于自行收集特定范围内的小样本数据作为研究材料。

　　随着数据时代的到来，海量数据得以迅速生成并且可被获取。在司法领域，得益于中国近年来对司法公开理念的大力贯彻，司法大数据这一新兴的研究资源应运而生，异于传统实证研究的实证研究新形式正在因法律大数据的出现而成为可能。中国特有的司法大数据主要来源于以裁判文书网为核心的司法公开平台。最高人民法院（以下简称“最高法”）为充分保障当事人和公众的知情权、监督权，通过司法公开平台对审判流程信息、执行信息、庭审直播信息、裁判文书信息等数据进行了较多公开。其中，裁判文书网所发布的海量裁判文书是对中国司法实践全面貌、原始面貌最为具体和客观的反映。

　　毋庸置疑，大数据的到来为中国实证法律研究提供了新的契机，有可能推动实证研究的跨越式发展。首先，大数据的可获得性大大地丰富了实证研究的基础资料，扩展了研究主题的范围和格局。其次，对大数据处理的技术需求也注定会推动实证研究方法的革新，使其更加多元化、科学化。相应地，大数据研究所得的研究结论也会更趋向精确和客观。然而，目前基于裁判文书网的大数据法律研究在诸多方面还做得不够完善，研究者需重视有关问题，积极寻找并及时采取对策。对此，笔者拟展开如下论述。

　　裁判文书网：大数据源泉

　　中国法律大数据源自何时、何地是首先讨论的问题。在真正可被称为大数据的法律数据出现之前，传统的法律数据主要是由官方统一收集、发布并最后呈现出数字化、结构化形式的司法统计数据，这包括了中央及地方司法机关、统计部门的工作报告、法律年鉴、统计年鉴等。对此，易斐斐等在统计整理了2014年法院主动公开的国家和地方层面的司法统计数据公开情况后分析认为，司法统计数据存在着“数据不完整、数据公开渠道零散、统计口径不统一、数据公开不够连贯及时等问题，导致公开的数据无法形成相互贯通、可以互相比较的数据网络”。[7]除了上述不足外，司法统计数据对于开展数据研究的一大局限是其统计的基础数据如各种司法文书从未整体性地向社会公开，因此公布的统计数据实则缺乏中观、微观的个案数据源支撑，研究者难以得知数据的具体生成过程，这使得这些官方统计结果往往只能被用作宏观、粗略的趋势分析。加之官方制作的数据不可避免地带有一定的政治、社会治理及司法管理的考量，难以达到完全的客观中立。因此，上述缺陷造就了官方结构化数据与学术研究者所需的研究数据之间的差距，传统的司法统计数据难以充分满足学术研究对于数据客观性、严谨性、具体性等的需要。当然，最高法还通过指导案例的形式公开了部分个案信息。相比之下，指导案例虽然更接近案件的原始信息（包括基本案情、裁判理由及结果），但其仅是删减浓缩后的案件概述，可供研究者发掘、利用的数据信息极为有限。更重要的是，指导案例总体数量极少，迄今最高法只发布了100余例，对于数据研究者而言不过杯水车薪。

　　需要指出，真正的法律大数据的出现与最高法的改革举措直接相关。基于司法公开的理念，自党的十八大以来，最高法建成了四大司法公开平台，包括审判流程信息公开网、执行信息公开网、庭审公开网以及影响最为广泛的裁判文书网。

　　裁判文书网的建立与发展是最高法近年来大力推进裁判文书上网工作最为重要的成果。早在2009年3月25日，最高法便印发了《人民法院第三个五年改革纲要（2009-2013）》（法发〔2009〕14号），提出要“研究建立裁判文书网上发布制度和执行案件信息的网上查询制度”。随后，最高法陆续发布了如《关于司法公开的六项规定》（法发〔2009〕58号）、《关于人民法院在互联网公布裁判文书的规定》（法发〔2010〕48号）[8]等规范性文件，对法院在互联网公布裁判文书的原则、范围、程序等作出了具体规定，裁判文书网的建立工作启动。2011年12月30日，最高法召开司法公开工作领导小组第一次会议，提出制定建立全国统一裁判文书网的工作规划。2013年5月8日，最高法在广西柳州召开司法公开调研会，就建立全国统一裁判文书网的方案设计向全国部分法院进行调研。裁判文书网建设进入设计阶段。2013年5月22日，最高法党组审议通过了“关于建立中国裁判文书网的报告”，明确在互联网建立名为“中国裁判文书网”的网站平台，统一公布全国各级法院生效裁判文书。自此，中国裁判文书网建设进入具体实施阶段。最高法在2013年6月28日通过中国裁判文书网首批公布了本院生效裁判文书50份。值得一提的是，2013年7月1日，《最高人民法院裁判文书上网公布暂行办法》正式实施，这是最高法第一个专门规范自身裁判文书上网公布工作的制度性文件。依据该办法，除法律规定的特殊情形外，最高法发生法律效力的判决书、裁定书、决定书一般均应在互联网公布。更重要的是，2013年11月12日，党的十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》中提到要“增强法律文书说理性，推动公开法院生效裁判文书”，从而为裁判文书上网确立了极为重要的政治依据。

　　在最高法统领下，各级法院也加入了推动裁判文书上网的队列。2013年11月13日，最高法审判委员会第1595次会议讨论通过新的《最高人民法院关于人民法院在互联网公布裁判文书的规定》（法释〔2013〕26号）[9]，要求自2014年1月1日起，法院生效裁判文书应当统一在中国裁判文书网公布，这是最高法第一次以司法解释的方式对各级法院在互联网公布裁判文书的工作进行全面规范。为了响应该司法解释的规定，2013年12月31日，全国四级法院开始同时向中国裁判文书网上传生效裁判文书，中国裁判文书网开始全面发挥统一公布全国法院生效裁判文书的平台功能。2015年6月，全国四级法院已经全部实现生效裁判文书上网公布，实现了案件类型全覆盖、法院全覆盖。[10]随后，最高人民法院在2016年对原有裁判文书网上公开的意见进行修订并发布了《最高人民法院关于人民法院在互联网公布裁判文书的规定（2016修订）》（法释〔2016〕19号）。新规定将原规定“依法、及时、规范、真实”的原则调整为“依法、全面、及时、规范”，突出了“全面”。在具体制度层面，新规定进一步扩展了裁判文书网上公开的范围，同时规定“不在互联网公布的裁判文书，应当公布案号、审理法院、裁判日期及不公开理由”。

　　由此观之，裁判文书网所公布的是除法定不公开或不宜公开的案件外，包括最高法在内的全国各级法院的全部生效裁判文书，包括了判决书、裁定书、决定书、通知书、支付令及小部分调解书。因此，裁判文书网的诞生与发展所带来的丰富的全国性数据与传统实证研究所使用的数据在数量级、广泛性上都不可同日而语。2017年8月23日，裁判文书网的总访问量突破了100亿次，当时累计公开裁判文书3247万篇。[11]而约两年后，截至2019年8月12日，裁判文书网文书总量已达到7439余万份，访问总量已超过了312亿次，文书总量及访问总量均成倍增长。

　　需要指出，除裁判文书网外的其他公开平台中，审判流程信息公开网是主要面向案件当事人及其代理人公开的查询案件、联系法官、接受电子送达的平台，这一平台对于社会公众公开的内容只包括法院地址、开庭公告、审判委员会组成人员等法院公共信息，信息量稀少且研究价值有限。而庭审公开网和执行信息公开网主要面向社会公众公开，这两个平台所公开的信息虽不如裁判文书网一般全面、充分，但也都可能成为大数据研究的潜在挖掘对象，作为补充数据源。执行信息公开网主要公开全国法院失信被执行人名单信息。2013年10月1日起，《最高人民法院关于公布失信被执行人名单信息的若干规定》正式施行。该规定实施后，各级法院开始依职权作出将被执行人纳入失信被执行人名单的决定。2013年10月24日，全国法院失信被执行人名单信息公布与查询平台面向社会开通，此即是后来的中国执行信息公开网。截至2019年8月19日，执行信息网已公布了失信被执行人名单约1495万例。而庭审公开网则是实现全国法院庭审视频统一直播展示最重要的平台。2016年4月14日，最高法公布了修改后的《法庭规则》，其中规定以下三种依法公开进行的庭审活动人民法院可以通过电视、互联网或其他公共媒体进行图文、音频、视频直播或录播：（一）公众关注度较高；（二）社会影响较大；（三）法治宣传教育意义较强。2016年5月，最高法院长周强对《关于推进我院与全国法院庭审公开工作基本方案的请示》文件做出批复，要求各个地方法院依托全国统一庭审公开平台切实加大庭审公开力度。2016年7月，最高法率先示范常态化庭审公开。2016年9月27日，中国庭审公开网正式上线运行。自庭审公开网上线迄今接近三年的时间内，最高法累计直播3000余件，全国累计直播次数已达420余万次，访问总量超过183亿次。

　　相较于传统数据资源，上述司法公开平台特别是裁判文书网具备以下特征：其一，数据的海量性。在裁判文书网投入运行之前，我国通过两高工作报告、指导案例、法律年鉴等形式公开的司法数据仅是我国司法全貌的冰山一角。相比之下，裁判文书网所公开的信息堪称空前之多。按照最高法相关规定，除了特定不能公开的案件外，其余案件都要在生效七天之内上网公开，且原则上是面向全社会公开。此种公开的力度是革命性的，在全世界范围内也不遑多让。[12]随着过往文书还在被陆续上传，裁判文书网的数据量迅速增长。例如从2014年裁判文书网刚开始启动一年的558万份，2015年约900万份，2016年约1000万份，[13]截至2019年8月已超过7439万份。中国裁判文书网目前已经成为全球最大的裁判文书发布平台，可以预期未来的文书数据量也将非常可观。空前规模的文书数据量为基于数据挖掘的实证研究提供了广阔、全面的学术资源以反映中国司法特别是审判阶段司法面貌。其二，数据内容的丰富细致性。与传统法律数据粗疏、笼统的特点不同，裁判文书网等平台所提供的是以个案裁判为支撑的详细文本、视频数据，如案件的判决书、裁定书、完整庭审视频等，通过对案件原始信息的具体、充分的呈现使得多角度、深入化的数据研究成为可能。其三，数据的客观性和不反应性[14]。相对于统计年鉴、工作报告等经过了“精细加工”、潜藏了数据发布主体自身价值偏好的结构化数据，[15]裁判文书网的数据是由审判法院按照法律规定直接上传的案件原始文本，数据发布主体的价值偏好得以淡化，以此为基的研究更能保持其客观本色。另外，裁判文书一旦上传就可供研究者自由选择下载，不会随着研究人员的观察而发生内容或形式上的改变，即裁判文书网的数据还具有不反应性。其四，数据的可生成性及相应数据研究的个性化。尽管裁判文书网、庭审公开网甚或执行信息公开网本身包含的信息并非严格意义上的数据或一些研究者所称的定量化的数据，[16]研究者难以直接对其进行数理统计、分析。但是，研究者可以通过标签、编码等数据科学方法将判决文书、庭审视频中所包含的案件信息转化生成研究所用的定量化数据。研究者可以根据自己的研究思路、研究偏好有倾向地选取数据搜集的范围和方式，从而得出不同于官方数据、有别于官方角度的新型法律数据，进而为设计个性化、特色化的研究模型提供了可能。

　　笔者认为，以裁判文书网为载体的新型司法公开数据构成了当代中国法律大数据的基本源泉。[17]这些数据载体的上线不仅推进了阳光司法，更为中国的实证法律研究创造了前所未有的机遇。中国的法律大数据研究的广泛展开也肇始于裁判文书统一集中上网：在裁判文书上网之前，中国极少有真正的法律大数据研究，法律实证研究基本上是基于“小数据”，即研究者局部范围或特定领域内所自行收集的数据而展开的“手工作坊式”研究。[18]而裁判文书网这一全国性、公开、细颗粒的法律大数据平台的出现，使得研究者能够运用统计科学和计算科学手段将海量文书转化为数据，从而收获不同于官方大数据的新型法律大数据。这为中国法学研究打开了丰富的可能。

　　剖析：基于裁判文书网的大数据研究之问题及其成因

　　以大数据为主题的研究之外延不限于文中实际运用了大数据的研究，例如有学者关注法律大数据所面临的伦理规范等问题，[19]也有学者就开展大数据法律研究的方法论提出了有启发性的见解。[20]

　　本文所关注的大数据法律研究是指直接运用大数据来进行现象描述或理论阐释的学术研究。近年来，国内业已出现了不少直接利用裁判文书网等平台的大数据或大量数据开展法学研究的探索，其展开方式如下：研究者首先借助计算机软件从裁判文书网批量下载数据，对数据进行清洗后，根据研究需要挖掘裁判文书中的有价值信息，对其进行相应的数据分析。但现有研究存在以下的不足之处：

　　相应地，研究者对数据分析方法的运用也趋于单调。在面对大数据的整理与分析时，法学研究者大多“还不能科学、熟练地运用数理统计等分析手段与方法对问题展开统计学意义上的定量分析，更遑论在研究中进行数理模型的建构”。[23]法学实证研究在整体上仍以基础的平均数、频数、方差等描述性统计方法为首要工具，[24]这与当前经济学、管理学等学科的研究技术水平相去甚远。[25]描述性研究在对经验现象的特征勾勒上起到了重要作用，但在面对构建事物间的相关性甚至是因果性这类深入研究时便显得捉襟见肘。因为包括大数据法学研究在内的法律实证研究不应当仅仅是描述现象的工具，更需承担着揭示法律运作过程的规律、深度阐释事实背后的相关关系甚或因果关系的任务。

　　大数据研究的主题及结论亦缺乏应有的学术深度和创新性。数据的选取与分析跟研究的主题与展开过程息息相关。首先，浅层数据、显性数据所呈现出的只是司法实践的大致面相，无法实现对某一专门化研究主题的深入分析。除掣肘于所能挖掘到的数据类型外，研究者对主题的选取也很大程度上局限于已有的现实问题，试图通过数据分析的新角度对其提出解决对策。[26]其次，现阶段研究中的数据往往只是一个论证理论主张的理据，远非论理的基础或核心。由此，目前研究多是对数据的一种纯手段性的运用，即以数据分析结果来验证既有的命题，研究者仍多以主观性较强的学理性解释作为补充甚或主要的论述理由。质言之，一些研究成果都囿于既有理论的框架，数据无法发挥出导向性的作用，所得结论也略显老套，甚至浮于浅显笼统的数据结论，可能脱离于真实的司法实践，研究者鲜少能发现异于传统认知的客观事实，缺乏发人深省的问题揭示与理论思辨，更毋论建构以数据为支撑的全新理论了。

　　何以形成上述问题？笔者以为主要在于技术门槛要求严格、已公开裁判文书不能反映出真实的司法实践全貌及研究者未能跳出现有法律理论的先验框架三个方面。

　　其一，对当前的法学研究者而言，数据的收集、清洗、处理及分析等方面都存在着天然的技术门槛限制。法律大数据研究的核心在于对海量数据的价值挖掘、处理，研究者掌握与运用相关技术方法的能力在很大程度上决定了研究的深度与层次，而在数据运用方面的薄弱可能导致研究结论流于肤浅甚至产生谬误。可以说，与数据打交道的必要步骤为大数据法学研究设定了先天的技术门槛，但传统的法律研究者很难娴熟掌握统计科学及计算机科学的新技术。上网裁判文书量的巨大决定了研究者自然不可能以手工下载的方式一份份收集文书。基于大量数据获取的需要，研究者已经开始使用爬虫软件等方式抓取数据。但由于通过网络爬虫系统获取裁判文书网数据的行为会造成网站负荷过大、影响正常用户的访问，最高法成立的专门运维保障团队已采取验证码等多种方式上线系统软件防爬功能，不断加强“反爬虫”技术，使得研究者获取大量数据的过程愈发艰难。[27]而文书的获取只是大数据研究的起点，爬虫软件所抓取的文书是典型的无标签非结构化数据，其中包含了大量重复文书、空白文书等“脏数据”，需要再次进行数据清洗。数据清洗的目的是为挖掘提供准确而有效的数据，因此需要过滤或修改不完整的数据、错误的数据和重复的数据等。数据清洗可以采用最简单易行的方法，即删除或忽略缺失值，但这伴随着损失样本量、统计功效弱的缺陷。更为精细的数据清洗方法还有插补、均值插补、离群点分析等，[28]这些方法的恰当运用要求研究者具备一定的统计学与计算机科学基础。更为重要的是，非结构化数据还需要经历被转化为结构化数据的过程。如前所述，研究者对裁判文书主文的内容挖掘程度尚浅，但更具研究价值的大多是不易于被提取的深层指标。法律文本挖掘的困难来源于实践中司法表达的极其丰富性加之法律规则及体系的不断变化性。正因于此，现实中部分研究者仍在采用逐份手工统计的办法来进行数据资源的挖掘。[29]这种耗时耗力的原始数据挖掘方法极大增加了数据研究的成本，只能适用于小数据样本的信息挖掘，但大数据时代海量的材料与数据决定了研究者难以再亲自、逐一地审阅、统计和分析。最后，研究者需要对处理后的数据内容作出分析。在这一步骤中，多数研究者仍停留于描述性的数据分析为主的阶段，往往停留在经验性地描述研究对象特征的层面，对因果关系的分析也只能作传统的推测性演绎，很少有研究者能够使用统计软件与统计学分析方法如断点回归、双重差分、匹配等对数据资料进行精确的定量分析。而随着大数据研究的深入和复杂化，更加专业化的机器学习与算法应用等工具也将进入研究者的视野。

　　其二，目前所公开的裁判文书只是全国范围内有缺失的数据，其缺失既源自数据公开渠道的限制，又源自数据公开范围的限制。一方面，裁判文书网（包括庭审公开网、执行信息公开网）是以法院为中心的信息公开，这一公开渠道对司法实践的反映是有限的。裁判文书网公开的信息主要是诉讼型信息、法院审判信息。而其余关键的程序过程如警察的侦查过程、检察院的起诉过程、法院庭审前后的过程都没有公开的、正式或非正式的文字记录，更遑论在此基础上的数据化了。而庭审公开网则仅仅是部分案件庭审阶段的视频数据。执行信息公开网提供的则主要是失信被执行人等的身份信息。另一方面，在公开渠道单一、公开阶段特定的框架下，数据仍存在一定程度的范围缺失，体现为随机性缺失和系统性缺失两类。系统性缺失的数据是法律规定不能公开或不宜公开的案件，如未成年犯罪案件、涉及国家秘密的案件等。[30]笔者之前关于刑事辩护率的研究发现，在法定不上网的刑事案件中数量最多的可能是未成年人犯罪案件，至于涉及国家秘密的案件、调解案件以及其他不宜在互联网公布的刑事案件数量很少。[31]而根据以往《中国法律年鉴》的数据，未成年犯罪人约占全国当年全部犯罪人数的5％-10％。[32]因此，上网裁判文书所涉及的案件类型并不全面。随机性缺失的数据则是依据法律规定应当上网公开但由于种种原因没有上网的案件，包括但不限于尚未生效的案件，比如提起上诉、抗诉的案件等。这些案件尚未上网，但却会被计入当年结案数。此外，随机性缺失的数据还可能包括由于工作滞后而上网不及时导致的晚公开案件等。[33]因此，数据随机性缺失的程度与负责实际数据传输的各个法院及有关工作人员的工作落实情况息息相关。基于上述原因，从整体数量上看，裁判文书网已经公布的裁判文书数据并不完全具备全样本特征：公布文书数量与实际结案文书数量相差较大，数据缺失问题相当严重。有学者对于全国法院2014年和2015年的裁判文书上网所做的统计显示：按省份看，上网裁判文书占实际结案文书比重最高的达78.14％（陕西），最低的仅为15.17％（西藏）；最高法在上述两年的上网裁判文书仅占其实结案件量的46.13％，这一比重与全国的总体情况大体持平。[34]截至2019年7月6日，四川省的法院在2017-2018年间的裁判文书上网约143.82万份，而根据四川省高级人民法院工作报告，2017-2018年间全省共审结案件216.79万件，[35]再考虑到每一起案件可能会同时具有判决书、裁定书、决定书等多份文书，这些审结案件所生成的裁判文书总量当然更远远多于216.79万件。综上而言，现阶段中国法律大数据整体上是以裁判文书网为主要来源的官方化、半结构化或非结构化的大量数据，实质上只是全国法律领域内的有限的、角度特定的数据。由此，“现实中的大数据”往往是有缺失的大量数据。若研究者意图开展反映我国法律和司法实践全貌的研究，则面对的只是“残缺”大数据，无法以直接上网的裁判文书样本推论到整体样本情况。上网裁判文书在数量、地域、案件类型等各个方面的偏差也决定了特定范围的数据研究也不一定能够获取到有代表性的全样本数据。而过往的数据研究经验已经表明未经调整的不具代表性的数据极有可能导致错误的结论。[36]

　　此外，裁判文书本身就是一种不完全的记载形式。当我们说已公开的裁判文书不能反映出我国司法实践的全貌时，不仅仅是在谈论裁判文书当前有限制的公开范围和公开数量，同时也是在强调裁判文书这一信息载体的本质缺陷。换言之，裁判文书不可能精确地记录下司法实践中影响法院审判案件的所有法律或非法律的因素及其在司法实践中真实的作用效果。白建军对裁判文书背后可能存在的司法潜见作用的大数据研究就是一个很好的揭示。[37]因此，我们在面对单个的裁判文书尚会存有这样的疑问：是否所有与案件相关的因素都在裁判文书中被提及了，有哪些因素可能被遗漏？会不会非法律的因素被包装成为法律的因素继而被呈现于裁判文书之中？是否文书中频繁提及了的内容一定是相对重要的？这些问题都是单薄的一纸文书无法向研究者提供答案的。可以说，裁判文书必然带着一定的“欺骗性”，过于依赖和偏信裁判文书信息可能会产生如下的问题，第一，忽略文本之外的其他相关要素，第二，非法律的要素被包装成法律要素并被研究者提取，第三，错误认识文本中某些要素的重要程度。裁判文书中存在的偏见和错误如果未被重视并加以纠正，在经过数据处理后会被保留甚至放大，并最终导致研究结论不同程度地偏离于客观的司法实践。

　　展望：如何更好地利用大数据开展研究

　　尽管存在问题，法律大数据研究毫无疑将成为一种引领未来的法学研究范式，学者们须将这面红旗坚定地打下去。未来的大数据研究应从以下四方面展开。

　　值得未来的研究者高度重视的是，与统计学相关但又颇为不同的机器学习方法也正在崛起并被运用于大数据分析之中。当现有的分析工具和统计手段已无法满足大数据的处理需求时，人工智能这一不断进化着的新型技术工具便登上了舞台。其通过对巨量数据进行智能筛选和算法分析，可以实现对海量数据分析效能的显著提升。例如布卢门斯托克及其同事就在其研究中创建并训练了一种能够预测150万名用户在调查中会做出何种答案的机器学习模型。[44]还有国外学者在其研究中运用了决策树、迭代算法等机器学习算法，有效地解决了逻辑回归等传统计量经济学工具所不能解决的数据处理问题，并最终得出了作出假释决定的精确机器预测模型。[45]

　　其二，研究者应当正视并谨慎对待现有数据资源的缺失问题。受限于各种客观条件，获取包含国内司法全样本的大数据只是一种奢望，仅有大量数据而非全数据可能是中国法学研究者在很长一段时间所要面临的窘境。但大量数据也是法学研究的重要材料，值得高度重视与充分利用。换言之，研究者通过裁判文书网等平台所能得到的样本必定无法直接代表总体的属性。但许多大数据资源其实都不具有充分代表性，不具充分代表性的数据对有些研究目标而言显然不适用，对另一些研究目标来说却可能正中挈领。

　　在利用裁判文书网进行研究时，研究者在了解数据偏差情况的前提下，可以适当缩小研究范围，并限定研究对象，确保在有限的数据条件下尽可能地收集、获取某领域、某区域或某类别相对完整、具有一定代表性的真实数据，开展特定区域、种类、问题的全样本数据研究。但即使是在特定范围的研究中，研究者也无法获取到研究目标所需的完美数据，这是因为系统性偏差和随机性偏差在任何数据样本中都无法被完全杜绝。但若辅之以一定的技术手段对不完整数据进行调整及修正，数据缺失带来的问题便可以通过研究者合理设计的数据处理和分析手段得到有效解决。一方面，研究者可以基于对数据的样本内比较，将样本内的研究结果泛化到抽取样本的总体目标上。例如国外研究者使用了明显非随机的样本--由Xbox（一款微软游戏机）的美国用户组成的偏男性化、年轻化的非概率样本。在对这一看起来非常不理想的样本的评估过程中研究者对非随机抽样过程进行了调整修正，尤其是利用了事后分层的技术，即利用关于目标总体的辅助信息对样本进行分组进而加权结果。简单来说，研究者将抽样总体分为组内每个人的回答倾向都相同的同类组。换言之，如果所有男性具有相同的回答倾向，所有女性具有相同的回答倾向，那么根据性别的事后分层便能产生无偏差的评估结论。最终，该研究正确预测了2012年美国大选的结果。[46]

　　另一方面，研究者还可整合多个数据资源，以达到数据间的查漏补缺。具体而言，当仅通过裁判文书网这一主要数据来源无法获取研究所需要的完整数据时，研究者便可以考虑转向其他的数据源，如传统的司法统计数据、非官方的案例检索工具和非官方机构建立的数据库等。例如笔者在以往研究中面对上网判决书数据存在系统缺失的情况，便综合考虑了裁判文书网以外的多方数据源对未上网案件的统计结果，在已知数量的上网案件的基础上，再加权考虑了所有未上网案件的估算值，代入公式计算，从而最终得出了S省的全局辩护率。[47]国外学者安索拉比赫和赫什在其研究中采用了更为复杂精细的数据整合过程。他们将Catalist数据中的投票记录和社会调查数据结合链接成为更大的主数据源，再基于该主数据源分析了投票行为与投票者属性间的相关性，而这两种基础数据源对于研究而言都缺一不可。[48]

　　其三，采取多元化的研究方式，如大数据与小数据研究方法的融合，以填补文书数据与司法实践间的罅隙。裁判文书只是一种不完全忠实于司法实践的文字记录。因此，基于裁判文书的大数据法学研究应以多种方法展开，而非只立足于单纯的大数据解读。数据分析在进行整体性描述时独具优势，但其缺陷在于单体价值低，甚至会忽视个体。且大数据往往更会忽略数据背后的政治、社会及司法制度等多重背景，在样本分析时无法做到如“深描”般充分细致，往往不足以反映研究对象的全貌、深貌。长期以来，基于小数据的法律实证研究一直是主流研究方式，研究者一般通过调查和深度访谈来获取定性数据。研究者对于小数据内容的挖掘和分析往往得益于其内容的细致和有用，而得以深入到极致的程度，这种研究方法因而具有不同于大数据研究、但同样重要的学术价值。因此，大数据研究的来临并不会彻底取代小数据研究。当下的大数据研究在数据不足、技术运用不深入的情况下，更应该与小数据研究相结合，共同验证研究结论。一方面，小数据研究的精细化思路与方法能够将大数据研究细致化，另一方面，大数据资源的丰富性则会提升小数据的科学性。两者相辅相成，共同提升了研究的价值。这就要求研究者不仅要留意裁判文书背后的隐藏信息[49]，也要走出裁判文书数据，主动地、有目的地收集小数据，进行相关访谈，以核实、校正大数据背后的信息。如笔者曾在对非法证据排除规则的实证研究中得出了法庭对所涉证据的合法性进行调查的案件占申请案件数的40％-50％这一数据，即在约一半左右的案件中法庭并未开展合法性调查。在对法官进行访谈后，笔者发现隐藏在该数据背后的一个重要原因是现阶段法官不希望被告提出排非申请，因此实践中倾向于通过“做工作”的方式劝解当事人不申请或撤销排非申请，即使提出申请法官也只是酌情进行调查。[50]在其他多次实证研究中，笔者也都采用了类似的当面访谈的调查方式。[51]

　　其四，应当充分认识并利用大数据资源在发现新问题、创建新理论上的潜力。大数据研究并不等同于数据统计的经验式研究，缺乏理论深度的事实性描述、脱离了抽象理论的数据调查与乏味的调查报告无异，远非学术研究所追求的终点。因此，我们应当重新审思数据与理论之间存在的张力。大数据法学研究首先是实证研究的一种新形式，关于实证研究的意义探讨对于我们理解大数据研究有一定的启发。如域外学者Fischman曾阐释过实证研究对于法学理论发展的重要意义，他指出，重要的实证研究能够引导法律改革，或能描述重要的、与法律有关的现象，或有助于理论之发展。[52]有的国内学者则具体举出了法律实证研究可能的四种法学作用：一是作为规范论证的实然基础；二是衡量法律的实效；三是描述法律论证与法律现象；四是发掘法制度相关行动者（如法官、律师）的行为模式。[53]换言之，实证研究所依赖的经验事实在被用于对法律现象或规律的阐释之基础上，也潜在地为后续的理论构建提供了充分客观的理据。大数据研究同样具有上述意义。

　　更重要的是，以司法大数据为基础的法律实证研究还具有传统的实证研究所不具有的独特价值，其具有的种种特征，如信息海量性、连续性、权威性及中立性等为自身赢得了相较于以往实证研究更为巨大的潜力空间，开拓了法学研究最前沿的问题域。如大数据所具有的空前规模这一特征便使得法学研究不再拘泥于传统的研究对象和素材，某些类型的研究也因此成为可能，例如对稀有事件的研究、对细微差异的发现等等。于是我们完全可以在未来的大数据研究中考虑这样一种新的思路：借助数据来发掘现实中的新问题，而非以既有问题为出发点甚至直接预设研究结论。一个很好的例子是国外学者使用了主题模型（topic modeling）这一无监督机器学习技术分析了从裁判文书网上获取的20321份河南省法院行政庭裁判文书。以往的官方的统计数据，即中国法律年鉴只将行政诉讼案件划分为12个基本类型，无法反映出案件中的诉讼主张或涉案当事人类型等信息，而他们研究中所使用的主题模型程序自行将样本案件划分出了4个大目录下的50个小主题。在分析了各案件主题出现的频率及其彼此间的联系程度，并对部分裁判文书进行了细致研读之后，他们发现了一些无论是官方数据、新闻报道或是过往学术研究都不曾揭露过的现象和问题：如传统观点只是主张典型的“民告官”案件在行政诉讼中占比重较大，而他们的研究除证实了这一点外，还发现政府本身也是率先触发行政法的积极使用者；如在22个小主题中都呈现出一种“案件串”（cases strings）的奇怪现象，即同一主题下有多个代表性案件实则涉及的是同一个争议事件，例如在交通罚款这一主题下，有10个典型案件都牵涉到同一原告对由郑州交警大队所罚一系列款项所提起的诉讼；还比如在河南省范围内由企业提起的行政诉讼及有关环境污染的行政诉讼案件数量都一反常态的稀少。在此基础上，他们总结道，主题模型这一无监督的机器学习工具不仅可以帮助我们“质疑及修正被广为接受的观点”，还能很好地“激发研究问题”。[54]质言之，大数据如果以恰当的方式被研究者所收集并充分挖掘其价值，数据分析结果便极有可能呈现出客观世界中尚未被揭露的真实及其隐藏的规律，由此，既有的理论可以被验证或是推翻，新的理论突破会在崭新的经验事实基础上产生。

　　纵观学术发展的历史，隐藏在一座座令人叹为观止的学术高峰背后的是学者们一步一个脚印的攀登。作为新兴的法学研究范式，大数据法学研究一方面为法学界打开了一扇潜力无限的大门，一方面也考验着进入者迎接挑战的能力。面对着裁判文书网等大数据平台为中国法学研究提供的空前机遇，研究者不妨紧跟时代，大胆尝试新的研究范式，在挫败中寻求改良，在变革中推陈出新，共同促进大数据法律研究欣欣向荣的发展。原载《华东政法大学学报》2020年第2期

【注释】

[1]美国实证法律研究年会（Annual Conference on Empirical Legal Studies ）至今已举办13 届，即将于2019 年11 月举办第14 届会议（参见https://cels2019.cmc.edu/ ，2019 年8 月12 日访问）。
[3]参见左卫民：《一场新的范式革命？-- 解读中国的法律实证研究》，载《清华法学》2017 年第3 期。
[4]参见左卫民主编：《中国法律实证研究》（第1 卷），法律出版社2017 年版；参见左卫民主编：《中国法律实证研究》（第2 卷），法律出版社2017 年版；参见左卫民主编：《中国法律实证研究》（第3 卷），法律出版社2018 年版；参见田禾、吕艳滨主编：《实证研究》2017 年第1 期，社会科学文献出版社2017 年版。
[5]第三届中国法律实证研究年会已于2018 年6 月23 日在云南大学召开（参见《第三届中国法律实证研究年会会议议程》，来源
http://www.law.ynu.edu.cn/info/1058/2242.htm ，2019 年9 月3 日访问）。
[7]易霏霏、马超：《我国司法统计数据的公开：现状与建议》，载《中国应用法学》2017 年第2 期，第69 页。
[8]该规范性文件已被《最高人民法院关于人民法院在互联网公布裁判文书的规定》( 法释〔2013 〕26 号) 废止。
[9]该司法解释已于2019 年7 月被《最高人民法院关于废止部分司法解释（第十三批）的决定》废止。2016 年7 月25 日，最高人民法院审判委员会第1689 次会议再次通过了最新的《最高人民法院关于人民法院在互联网公布裁判文书的规定》。

[10]参见《中国裁判文书网总访问量突破百亿》，来源：
http://www.chinatrial.net.cn/news/9974.html ，2019 年8 月12 日访问。
[11]参见《中国裁判文书网总访问量突破百亿》，来源：
http://www.chinatrial.net.cn/news/9974.html ，2019 年8 月12 日访问。
[12]例如欧洲各国便并未实现所有裁判文书全部上网。大多数国家的做法是：最高法院的所有裁判文书都在网上公开，高等法院的裁判文书部分公开上网，初审法院裁判文书公开上网的数量较少（参见何帆等：《外国裁判文书上网概况》，载《法制咨询》2013 年第5 期）。
[13]参见马超等：《大数据分析：中国裁判文书上网司法公开报告》，载《中国法律评论》2016 年第4 期，第203 页。
[14]不反应性是指当知道自己在被研究人员观察时，参与者也不会改变其行为。此概念的构建参见[ 美] 马修·萨尔加尼克：《计算社会学》，赵红梅、赵婷译，中信出版集团2019 年版，第30 页。
[15]参见左卫民：《迈向大数据法律研究》，载《法学研究》2018 年第4 期，第143 页。
[16]参见张永健、程金华：《法律实证研究的方法坐标》，载《中国法律评论》2018 年第6 期，第75 页。
[17]需要说明的是，除了裁判文书网、庭审公开网这些官方数据平台外，目前还存在着同样基于裁判文书信息的法信、威科先行、北大法宝、CaseShare 、无讼、聚法案例等各种各样的案例检索工具。但相较于官方平台，这些工具都存在着缺乏权威性、文书量不足、收费高昂等问题，难以被作为法学研究者开展大数据研究的主要源泉。
[18]参见左卫民：《迈向大数据法律研究》，载《法学研究》2018 年第4 期，第142 页。
[19]参见徐明：《大数据时代的隐私危机及其侵权法应对》，载《中国法学》2017 年第1 期；参见顾理平：《大数据时代公民隐私数据的收集与处置》，载《中州学刊》2017 年第9 期；等等。
[20]例如, 白建军讨论了大数据时代利用大数据进行裁判预测的可能和限度问题, 大数据时代如何科学取样的问题( 参见白建军：《法律大数据时代裁判预测的可能与限度》，载《探索与争鸣》2017 年第10 期；参见白建军：《大数据对法学研究的些许影响》，《中外法学》2015 年第1 期) ；胡凌探讨了大数据时代“ 法学研究方法的深化”( 参见胡凌：《大数据兴起对法律实践与理论研究的影响》，载《新疆师范大学学报( 哲学社会科学版) 》2015 年第4 期) ；张吉豫研究了大数据时代法学研究如何“ 开展交叉学科研究和应用” ( 参见张吉豫：《大数据时代中国司法面临的主要挑战与机遇-- 兼论大数据时代司法对法学研究及人才培养的需求》，载《法制与社会发展》2016 年第6 期) 。
[21]参见左卫民、张潋瀚：《刑事辩护率：差异化及其经济因素分析--- 以四川省2015-2016 年一审判决书为样本》，载《法学研究》2019 年第3 期。
[22]参见王禄生：《论刑事诉讼的象征性立法及其后果-- 基于303 万判决书大数据的自然语义挖掘》，载《清华法学》2018 年第6 期。
[23]左卫民：《一场新的范式革命？-- 解读中国的法律实证研究》，载《清华法学》2017 年第3 期，第51 页。
[24]沈婷婷在对2010 至2014 发表在法学三大刊之一的《中国社会科学》的全文论文进行统计分析后发现，从数据处理方法上看，90 ％的法学论文使用了平均数、频数、方差等描述性统计方法之类的方法，30 ％的使用了回归分析、相关分析、假设检验等方法，而没有一篇法学论文使用了高等数学方法如模型计算等（参见沈婷婷：《人文社科领域科学数据使用特征分析-- 基于< 中国社会科学> 样本论文的实证研究》，载《大学图书馆学报》2015 年03 期，第103 页）。
[25]王庆芳等通过对《经济研究》、《中国社会科学》、《管理世界》、《经济学（季刊）》等国内经济学领域权威期刊2012 年至2014 年度发表的1126 篇论文所作的研究中发现，数学方法和数学模型在研究中的广泛应用已成为经济学研究的重要取向。统计分析结果显示，样本中只有165 篇文章未使用任何数学方法，占总数的约15 ％（参见王庆芳、杜德瑞：《我国经济学研究的方法与取向-- 来自2012 年至2014 年度1126 篇论文的分析报告》，载《南开经济研究》2015 年第3 期）；管理学者范柏乃等通过抽取1982 年至2012 年底的858 篇文献开展文献计量法研究后发现，我国公共管理学研究方法经历了从演绎到归纳、从理论到实证、从定性到定量，研究规范性从不规范到逐步规范，数据分析方法从简单到复杂，统计变量从单元到多元，统计手段从手工到信息化的演进过程，一些高级的定量研究方法如路径分析、神经网络、数据包络分析、网络拓扑分析等都已被尝试着运用到公共管理学的研究当中（参见范柏乃、楼晓婧：《我国公共管理研究方法的统计分析及演进路径研究》，载《公共管理学报》2013 年第2 期）。
[26]雷鑫洪在对以中国知网收录的有关法律实证研究的文章为主要样本的研究中，对2000 年至2016 年间实证研究主题及2014 至2016 年间热点的统计显示，“ 对策和完善” 始终是重要主题（参见雷鑫洪：《方法论演进视野下的中国法律实证研究》，载《法学研究》2017 年第4 期，第107 页）。
[28]参见赵一凡等：《数据清洗方法研究综述》，载《软件导刊》2017 年第12 期。
[29]如张华在以1545 份裁判文书为样本研究指导案例的参照效力时，对参照效力的实际形态、具有参照效力的基本内容、被参照的指导案例数量等指标都是逐份进行的统计（参见张华：《论指导案例的参照效力-- 基于1545 份已公开裁判文书的实证分析》，载《甘肃政法学院学报》2018 年第2 期）；又如晋海等对数人环境侵权案件进行的实证研究中，逐份统计了案件争议焦点、举证责任分配等重要案件信息（参见晋海、邵波：《数人环境侵权案件实证研究-- 以中国裁判文书网499 份裁判文书为样本》，载《环境保护》2018 年第18 期）。
[30]《最高人民法院关于人民法院在互联网公布裁判文书的规定》第四条规定：“ 人民法院作出的裁判文书有下列情形之一的，不在互联网公布：（一）涉及国家秘密的；（二）未成年人犯罪的；（三）以调解方式结案或者确认人民调解协议效力的，但为保护国家利益、社会公共利益、他人合法权益确有必要公开的除外；（四）离婚诉讼或者涉及未成年子女抚养、监护的；（五）人民法院认为不宜在互联网公布的其他情形。”
[31]参见左卫民、张潋瀚：《刑事辩护率：差异化及其经济因素分析--- 以四川省2015-2016 年一审判决书为样本》，载《法学研究》2019 年第3 期，第169 页。
[32]参见左卫民、张潋瀚：《刑事辩护率：差异化及其经济因素分析--- 以四川省2015-2016 年一审判决书为样本》，载《法学研究》2019 年第3 期，第169 页。
[33]参见左卫民、张潋瀚：《刑事辩护率：差异化及其经济因素分析--- 以四川省2015-2016 年一审判决书为样本》，载《法学研究》2019 年第3 期，第169 页。
[34]参见马超等：《大数据分析：中国裁判文书上网司法公开报告》，载《中国法律评论》2016 年第4 期，第208 页。
[35]根据四川省高级人民法院的工作报告，四川法院2017 、2018 年的审执结案件总量分别为104.28 、112.51 万件，两年合计216.79 万件。
[36]一个十分著名的事例来自于1936 年《文学文摘》对于美国总统选举结果的预测。《文学文摘》对1000 万人寄送选票后，以返回的240 万张受访者答案为抽样样本，在选票未经调整、加权或解读的情况下，预测Alf Landon 将打败现任总统Franklin Roosevelt ，事实是Roosevelt 以压倒性优势打败了Landon 。这一错误预测的原因在于《文学文摘》的民调抽样过程系统性地偏向了一些受访者，其抽样样本不具有针对目标总体的代表性。
[37]参见白建军：《司法潜见对定罪过程的影响》，载《中国社会科学》2013 年第1 期。
[38]Holger Spamann, “Judging Around the World--Experimental, Clickstream, and Writing Evidence from the Lab” ，于2019 年7 月20 日在法律实证研究国际学术会议所作的报告。
[39]（唐）李世民：《帝范》，《景印文渊阁四库全书》第696 册，台湾商务印书馆2008 年版，第617 页。

[40]Alexander Stremitzer, “Aspirational Rules”, 于2019 年7 月21 日在法律实证研究国际学术会议所作的报告。
[41]参见王禄生：《论刑事诉讼的象征性立法及其后果-- 基于303 万判决书大数据的自然语义挖掘》，载《清华法学》2018 年第6 期。
[42]可参考张永健所介绍的六种作因果推论的方式：实验、断点回归、双重差分、工具变量、配对、事件研究法（参见张永健：《量化法律实证研究的因果革命》，载《中国法律评论》2019 年第2 期）。
[43]参见张永健：《中国民法典物权编在世界物权法的位置-- 量化比较法路径》，载《环球法律评论》2019 年第1 期。
[44]Blumenstock J , Cadamuro G , On R .Predicting poverty and wealth from mobile phone metadata[J]. Science, 2015,350(6264):1073-1076.
[45]Kleinberg J , Lakkaraju H , Leskovec J , etal. Human Decisions and Machine Predictions*[J]. Quarterly Journal ofEconomics, 2018, 133(1):237-293.
[46]Wang W , Rothschild D , Goel S , et al.Forecasting elections with non-representative polls[J]. International Journalof Forecasting, 2015, 31(3):980-991.
[47]参见左卫民、张潋瀚：《刑事辩护率：差异化及其经济因素分析--- 以四川省2015-2016 年一审判决书为样本》，载《法学研究》2019 年第3 期。
[48]Hersh A E . Validation: What Big DataReveal About Survey Misreporting and the Real Electorate[J]. PoliticalAnalysis, 2012, 20(4):437-459.
[49]比如张忠民在研究生态破坏的司法救济时，意识到样本中的生态破坏案件被大量遮蔽，无法仅凭案由等因素将其直接挑出，因此通过细致阅读裁判文书的方法得到了“ 去伪存真” 后的准确数据（参见张忠民：《生态破坏的司法救济-- 基于5792 份环境裁判文书样本的分析》，载《法学》2016 年第10 期，第120 页）。
[50]参见左卫民：《“ 热” 与“ 冷” ：非法证据排除规则适用的实证研究》，载《法商研究》2015 年第3 期。
[51]参见左卫民：《审判委员会运行状况的实证研究》，载《法学研究》2016 年第3 期；参见左卫民：《“ 诉讼爆炸” 的中国应对：基于W 区法院近三十年来审判实践的实证分析》，载《中国法学》2018 年第4 期。
[52]Fischman J B . Reuniting 'is' and'ought' in empirical legal scholarship[J]. University ofPennsylvania Law Review, 2013, 162(1):117-168.
[53]参见张永健、程金华：《法律实证研究的方法坐标》，载《中国法律评论》2018 年第6 期，第75 页。[54]Liebman B L , Roberts M , Stern R E , etal. Mass Digitization of Chinese Court Decisions: How to Use Text as Data inthe Field of Chinese Law[J]. Social Science Electronic Publishing, 2017

首都法学网	北京市高级人民法院	中美法律信息与图书馆论坛（CAFLL）
国家图书馆	美国法律图书馆学会（AALL）	国家检察官学院
中国社科院法学所图书馆	国际法律图书馆协会（IALL）	最高人民法院图书馆

主管单位：中国法学会 主办单位：中国法学法律网合作机制 技术支持：北大英华科技有限公司（北大法宝）
电话：010-82668266-152 传真：010-82668268

加入收藏 | 本站首页 | 联系我们