人类社会已经进入“大数据”时代,这部分归功于物联网。无处不在的终端和传感器,部分归功于依靠大数据精确分析与预测的商业模式,以及使这一切成为可能的强大算法设计大数据允许各行各业收集以往无法想象的海量数据,并允许人们深入挖掘其中的价值,对国家、企业和个人而言都具有积极意义。与社会科学其他学科相类似,大数据对法律实践和法学研究的影响也开始逐渐显现,但进行的相关讨论较少。本文试图从一个广义的角度讨论大数据和法律制度与运作之间的关系,即包括了立法、司法、行政执法、法律服务业和法学研究等领域,考察前者对后两者可能的影响,以及其中可能蕴含的一些问题,从而迫使我们反思法律实践和法学本身的特性。
本文认为,大数据和法律实践、法学研究之间的关系有几个维度:1.大数据提供了预测人的社会行为的手段,比如购买行为和打击犯罪,从而为立法执法和法学研究提出新问题和新思路;2.大数据可能对司法裁判提供辅助,但不宜夸大;3.大数据对法律服务的转型提供推动力;4.大数据也对传统法学的研究方法提出挑战。本文将从大数据的特点谈起,进而引申到上述四个方面,帮助全面地看待三者之间的关系。本文在最后回到对法律规范的反思时,强调法律作为政治共同体集体合意的产物有必要对数据使用和技术架构进行控制。
一、法律和新社会问题的应对:立法与执法
大数据本身并非一个新颖概念,计算机科学领域中的数据挖掘和机器学习都可视为其前身。它是作为生产工具的数据挖掘技术和作为生产资料的数据累积发展到一定阶段的产物。其特点是借助强大的计算能力和算法从海量数据信息中发现事物之间的某种相关性,因为数据搜集的广泛,其结果差,从而得出可能更接近现实的结论,并声称能够更加准确地为未来提供预测。和传统的社会统计学类似,大数据分析可以全面分析更加广泛的数据,提供研究对象之间的相关关系而非因果关系。
上述特性首先被应用到商业领域,允许商家得以精确地搜集和分析消费者数据,预测他们的购买行为。随着互联网公司在各个领域的扩展,商家对海量用户整体上的偏好更加了解,从而基于个体的特殊性和所属群体的一般性推送广告。精确预测尽管不是对消费者行为习惯和隐私的窥探,却极易引起反感,令人们产生受到侵犯的感觉。当用户更加担心自身的一举一动都可以被信息技术追踪的时候,数据安全性就成了棘手的问题。传统的空间隐私的观念被消解,变成了信息隐私甚至是更为中性的个人数据。当个人数据已经不可避免地成为有价值的资产时,法律可能需要作出调整:传统上对隐私和个人信息的行政和司法保护对打击非法买卖个人信息的重要性不言而喻,但数据的搜集、传输和利用仍然缺乏明确的规范性指引。法律有必要逐步承认用户对个人信息的财产权利(以及互联网企业基于合约产生的相关财产权利),帮助创设允许个人信息自由流通的交易市场,从而让用户更加自主地控制自己的信息,产生更有意义的价值。
已经有诸多研究指出,大数据分析在推动国家治理决策和提高国家治理能力方面具有积极意义,特别是在提供公共服务方面。就立法活动本身而言,大数据也可以提供更好的证据支持和正当性证明,特别是在监管立法领域(例如食品药品生产和环境安全等数据密集型领域)。传统的立法起草过程涉及调查、听证、论证、征集意见、风险评估等方式,其目的都在于尽可能多地获得利益相关方的想法和意见。基于海量数据的分析可以使立法起草者获得更加准确的一手数据,从而避免利益相关人基于自身利益而对立法目标进行的扭曲或忽视,成为科学决策的有力补充。
就监管而言,在大数据精确分析的前提下,国家或公共服务提供者可以更加灵活地根据个体不同的情况因人而异地自动提供更加细致的服务,帮助个体实现其人生目标和社会价值。由大数据分析引发的其他新生事物已经逐渐扩散到更多领域,同样值得立法者、监管者和法学研究者关注,例如无人驾驶汽车、高频交易、甚至人工智能、它们的共同特点是在海量数据基础上依据算法和统计模型进行的“自动化”不同于工业时代的机械自动化,信息时代的自动化在一定程度上更有弹性,更能弥补人性的弱点。这种治理思路和传统自由主义及法治强调个人理性完备、自主、独立、自我负责的意识形态截然不同,转而强调理性受限,需要外界加以“轻推”,为他们提供更好的服务。在中国,这种思路恰好可以同服务型政府职能转变相衔接,在教育公民个体为自己行为负责的前提下,帮助他们更好地做出选择。
类似在打击犯罪的治安问题上,大数据预测带来的争议可能更多。犯罪预测一直是犯罪学研究的重要问题,大数据延续了19世纪以来的针对个体的“天生犯罪人”思潮,借助对犯罪群体和可能发生犯罪区域的监控,大数据技术声称能够深入人脑,预测更加广泛人群的行为,这为打击犯罪和反恐提供了强有力的工具。由此产生的问题是,如果我们能够在某些犯罪发生之前就预测(而非证实)其发生,可能会颠覆作为个体承担法律责任之基础的自由意志假定。如果未来发生的一切都可能通过对个体过去的一切行为得到解释(无论这种解释来自于颅相学、大数据或神经科学),那么像犯罪这样的“危险的个体”行为就可以进行事先预防,前提是拥有海量的有效数据。和传统的犯罪预防思路一致,利用大数据进行精准预测的思路是危险的,它会颠覆法律依据人的行为与法律后果之间的因果关系发挥作用,而代之以相关性证明,而这又是随着数据的精确和算法的调整而不断变化的,存在相当的不确定性事实上,这一思路只不过是现代国家加强对社会和个体监控的技术上的延续,并会在面临极端安全威胁时得到强化并推到极致。因此,大数据的出现足以引发我们对法律的基石--责任与自由意志--进行反思,并由此反思不经限制的预测活动是否足以侵犯普通人的隐私,带来未意料到的伤害,从而在公益和私权之间保持平衡。
推而广之,不难看出上述思路和当下风险社会中的公共事务治理有着紧密联系,并牵涉到针对未来不确定风险采取何种治理原则的问题。(事后追责成本-收益分析,还是事先预防)大数据分析有可能超越了原来基于国家能力不足而导致的事实上的政府与社会和私人领域的边界,从而要求在法律上重新划定边界,并限制某些分析和预测性的使用从这个意义上讲,技术上的精确性并不能完全取代我们对立法原则和目的的探求,有必要就精准技术带来的权力边界扩张和后果进行评估。当然,至少是在目前,由于人口流动和城市地区快速发展变动带来的干扰,在运用信息技术加强社会治安防控体系建设的大思路下,一些城市的警方还只能根据大数据进行粗略的预测。例如,北京市怀柔区警方通过运用大数据、云计算和科学分析模型,整合历年案件信息建立了犯罪数据分析和趋势预测系统,能够自动预测犯罪趋势,指导警力投入。除了入室盗窃、诈骗、抢劫等八类犯罪外,警方还将系统信息录入范围拓展到治安案件、交通、火灾事故,以及其他公共管理事件,远未达到针对个体的精细治理。但可以预见,随着数据库的扩大和算法的改进,大数据将在未来的智慧城市治理和风险预防中发挥越来越大的作用。
二、司法裁判与自动售货机的神话
说到司法裁判的过程,人们经常提及德国思想家马克斯--韦伯提到的“自动售货机”比喻,意即只要输入案件证据材料,法院就会自动吐出相应判决。这一设想也曾经引起计算机能否定罪量刑的讨论。在大数据时代,支持者声称,如果存在一个判决书数据库,软件就能够帮助法官将当前的案件和过去审理的案件进行某种程度的比较(例如全国范围内此类案件赔偿或量刑的标准),也可以帮助律师和当事人对判决进行预测,穷尽各种经验性的可能。在美国2004年的一项研究中,研究者使用最高法院九名大法官以前审理过的628起案件的历史数据,对每位法官在特定案件中可能的投票结果进行了预测,结果该模型预测的法院同意审判或驳回上诉的结果正确率,(75%)要高于普通法律专业人士(59.1%)这给热衷于预测法院判决的学者和律师提供了机遇,其在中国司法中的可能应用还有待进一步观察。
尽管大数据有助于考虑到更多的因素,但数据分析本身无法揭示案件背后复杂的社会关系,容易抹平地区差异,也就无法取代法官在个案特别是疑难或复杂案件中的自由裁量、利益平衡以及对校正公平的判断。特别是在大陆法系国家,司法经验和以后果为导向的实用主义思维方式比纯粹依赖数据作出的判决更加可靠。而那些事实清楚、法律规定明确的案件尽管可以预测,但一般都不会进入法院,而是事先庭外和解或以其他纠纷解决方式解决了。同时,鉴于中国地方法院往往会深入介入本地政治经济社会的发展,因此在司法统计基础上发展起来的大数据分析更有可能加强各级法院整体上的能动性,而非在个案中提供指引。
因此,综合以上两部分的内容,大数据分析对成文法国家中的立法者更有帮助,因为它能够帮助揭示某些法律产生的意想不到的社会后果,更好地进行成本--收益分析,从而及时调整法律规则。但对法院而言,大数据只能在个案中起参考的作用,而不能代替法官本身来作出判断,更无法取代具体的证据认定和法律推理过程。随着全国法院司法信息资源统一管理和信息共享系统,以及裁判文书数据库的逐渐完善,大数据分析对最高法院制定全国性的司法政策将更有帮助。
三、法律服务业的转型
服务业较早受到数据分析的影响,这得益于信息技术的低成本和便捷性,在能即时提供信息或其他服务的同时获取用户的使用信息,从而帮助预测消费者偏好依靠传统口碑和介绍案源为生的法律服务业正开始沿着这一路径进行开拓。
传统的在线法律服务主要分为法律法规案例数据库模式和律师个人营销推广模式(例如在线解答咨询),它们都没能利用海量数据本身进行价值发掘。对第一种模式而言,大数据可以在判决书分析的基础上帮助预测某一类案件的胜负几率,作为一种产品向律师事务所出售,从而将律师事务所和律师变成平台内容的生产者;但更有价值的是通过分析判决书,即可掌握诉讼律师诉讼胜负的基本数据,从而依据这一数据对律师进行推荐和评分。这就将第二种模式联系在一起:根据潜在用户的咨询需求,即时创建个人数据库,成为精确匹配律师和当事人的强大平台。接下来则可以通过在线咨询等方式进行进一步沟通交流,降低信息成本。
和法院相比,律师事务所更早地发现了大数据分析有利于自身业务的开展。像天同律师事务所这样的机构已经开始探索在整个诉讼流程中有效利用长期积累下来的案件数据。
前期论证阶段,解决文档电子化和案件难度预判的问题,对案情宏观结构进行解构和初步标签化处理,为下阶段大数据分析进行准备工作。
磋商代理阶段,解决案件胜率判断和律师费用计算问题,案件的胜率取决于外部司法环境、管辖地、对方律师等,还取决于案件内部主要争议证据材料的掌握情况、法律适用、代理经验等因素。例如,将证据材料与待证事实之间的关联关系作为标签,对这种关联关系是否成立进行大数据分析,故能够基于大数据分析,对证据与案件事实间的关联关系进行评估,进而结合其他因素对案件胜率进行评估。律师费用的计算,不妨也采用大数据分析,对同类案件的市场平均价格快速获取并统计,结合案件难度为天同的诉讼代理寻求合理报价。
案件办理阶段,随着案件信息的更新,事实争议和法律争议已经逐渐清楚,这一阶段的大数据分析集中在案外相关因素的分析上,为争议的本质提供新的洞见,或者新的证据,例如审理法官的相关观点纠纷产生时所在行业的数据,最新商事审判的价值判断,以及相关的“天同码”.
结案归档阶段,评估大数据分析的使用效果,并对标签及其逻辑结构的知识进行归档,完善案件标签化体系(元数据方法);将前期的预判结果与最后的裁判结果进行比对,进而对此类案件的标签化方法进行调整。
单一的大数据模式同样存在弊端。例如,单个律师水平的高低不能完全通过胜负数据表现出来,也不能成为判断律师事务所优劣的唯一标准,口碑有时候在法律服务市场上更加重要。同时,依靠免费提供信息和服务的模式也需要有其他增值服务进行交叉补贴才能维持长久。这些问题都需要互联网行业和法律服务业共同探索。
四、法学研究方法的深化
法学研究以法律实践为基础和对象。上文已经简要说明了大数据对法律实践的影响,法学研究某种程度上也会受到影响。如果我们将法学研究粗略按照法教义学和社科法学划分的话,大数据可能对开阔后者的研究视野更有帮助。社科法学关注法律和其他社会因素的互动,评估法律的社会功能和后果。大数据可以摆脱因技术水平和成本造成的抽样代表性不足的缺陷,减少分析的误差。最为贴近的研究领域当属人们的在线行为,当互联网能够越来越多地反映人们的社会行为的时候,法学研究就能够应用大数据搜集和处理、评估某一约束在线行为的法律和政策。
举例而言,最高人民法院和最高人民检察院2013年9月发布了《关于办理利用信息网络实施诽谤等刑事案件适用法律若干问题的解释》(法释201321号),对构成网络诽谤罪的转发次数作出了规定。大数据分析可以帮助我们理解某一谣言如何通过像微博或微信那样的无标度网络进行扩散,从而思考这一司法解释规定的具体数字是否能够对谣言发布和传播者构成有力的威慑;如果有威慑,针对的是中心节点还是其他节点。又例如,微博实名制的目的在于加强对网络犯罪的事后打击和事前威慑,只有通过对真实数据的分析才能得出科学的结论,判断这一政策是否真正有助于事前威慑,减少谣言数量,否则需要探究影响用户行为的其他相关因素的重要性。
但大数据如何影响范围更广的法学研究,仍然是一个未知数,这依赖于信息搜集的容易程度和根据研究目的进行的算法设计,也依赖于社会科学方法的普及。如果美国最高法院霍姆斯大法官的名言“法律的生命在于经验”.没错,数据分析的诱惑力就不应当被夸大,本文仍然相信通过研习推理和社会经验进行的实践是法律恒久的生命。
五、法律的未来
本文对大数据分析和法律实践与研究的关系进行了概括性的讨论。尽管在当下中国,使用数据进行决策尚未普及,但这一概念已经开始进入政府、企业和个人的视野中,并不断扩散。当人们开始体会到大数据带来的便利时,便会有意识地进行应用。本文的初步结论是,相对于强调个案分配正义的司法活动而言,大数据分析在偏重校正正义的立法、行政执法和监管领域可能更有用武之地。同时,可以看到大数据开始在法律服务和法学研究上展现其影响力。本文并不提倡一种数据迷信,如前所述,大数据的广泛应用和一种数据统计文化与思维模式相关,并受制于算法模型的设计。大数据带来的不会是完全革命性的改变,而只是对决策提供更加精细化的智力支持,使决策和法律执行更有效率和针对性。
一个更加开放的问题是,法律的未来是否会被无尽的数据和算法取代?十多年前就有人提出网络空间中“代码就是法律”的断言在大数据时代,数据及其形塑数据价值的算法变成了新的网络架构,在貌似客观地分析海量数据的同时,也将这种描述性的遍历性事实作为一种规范性规则施加给每一个人,隐蔽在背后的仍然是不同组织和力量试图挖掘数据价值的计划,尤其是当大数据被广泛应用在私人交易的场合。更进一步,这种网络架构完全可以比现有法律更加精细,从而超越代议制立法机关提出新的规则,而不受到任何制约;当算法复杂到一定程度而无法被人直观理解,形成“黑箱”的时候。因此,大数据分析的预测性使用不仅不应当取代现有法律,而且还要受到民主机制的制约和监督,即受到民主立法的控制。法律不同于技术架构的要点在于它既是社会中主流价值观的反映,也是多元价值和利益妥协的产物,但数据挖掘只服务于政治或商业的单一利益。在法律实践和研究应用大数据的过程中,我们应当注意这一差别,从而尽可能让大数据服务于公共利益,更好地贴近法律实践。原载《新疆师范大学学报》(哲学社会科学版)2015年第4期。