本站首页 关于我们 法律图书馆与法律信息研究会 法律信息研究 中外法律图书馆 法学文献与检索 政府信息公开 法律图书馆导航 法律法学网导航
馆藏特色研究
法律图书馆业务
法律图书馆研究
  当前位置:首页 > 中外法律图书馆 > 法律信息资源
法律信息资源
暂无下载资料

 司法大数据的现状、挑战及应用改进
            单勇等 点击量:6833
南京大学法学院
【摘要】
司法大数据中蕴藏着司法处遇、社会治理的事实与规律,并构成了当前学术研究新的知识增长点。当前我国司法大数据应用方兴未艾,云计算、犯罪地图、大数据分析、人工智能辅助裁判、数据共享等科技创新层出不穷,这些科技创新成为新时代提升社会治理、犯罪治理能力的推动力量。同时司法大数据应用亦存在观念陈旧、应用深度不足等诸多问题。对此, 转变司法大数据的应用思维,施展数据巧实力,推动“政法云”建设,构成了改进司法大数据应用的有益举措。
【关键字】
司法大数据;人工智能;社会治理;犯罪治理;国家大数据战略
    

  伴随“网络强国战略”“互联网+”行动计划、国家大数据战略等一系列重大决策的部署,以及《大数据纲要》的颁布,大数据技术上升为我国“借道超车”的战略利刃,大数据驱动的社会治理应用创新是实现国家治理能力现代化的重要表现。 在司法实践领域,如何把握“网络强国战略”“互联网+”、国家大数据战略在司法实务工作中的意义,如何实现大数据与司法处遇的有效衔接,如何以大数据技术助力司法创新,成为亟待深入探讨的重要问题。当前,大数据的应用创新“百舸争流千帆竞”,“大数据+司法处遇”“大数据+社会治理”等应用创新百花齐放;但大数据的应用也存在很多问题,学者对大数据应用危机的担忧及争鸣也不绝于耳。 有学者指出,大数据过于注重寻找相关性而放弃人的理性思考,放弃理性反思。[1]大数据作为信息技术的产物,需要警惕信息技术滥用所导致的“数字利维坦”。[2]面对大数据浪潮的潮起潮落,如何在司法实践领域科学把握司法大数据的应用,营造大数据服务司法实务的良性数据生态,成为探讨司法大数据应用的重要标准。

  一、司法大数据解读

  (一)司法大数据应用方兴未艾

  大数据的数据理论最早由IBM提出,并将之概括为4V理论(也称4V特征),即:Volume(大量)、Variety(多样)、Veracity(真实)或Value(价值)、Velocity(高速)。 具体而言,Volume(大量)意味着数据体量巨大。 大数据的起始计量单位起点非常高,至少是P、E、Z,分别对应1 000个T,100万个T和10亿个T;Variety(多样)说明数据种类繁多;Veracity(真实)则反映了数据的价值密度低,商业价值高;Velocity(高速)即指数据处理迅速,实现从各类数据中快速获取价值高的数据。[3]有别于传统数据的样本容量小、形式单一,计算简单,大数据的4V特征一方面体现了其对海量数据的分析能力,另一方面展示了大数据的技术分析优势,与当前高速发展的信息技术相辅相成。 也有学者指出大数据的优势不仅仅在于数据价值,更体现在能力巨大。 “大数据的能力是当今社会独一无二的力量:以一种从未有过的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。”[4]因此,大数据的价值不仅体现在数据理论的4V价值,更表现为其独一无二的巨大能力。

  司法大数据作为大数据在司法领域的一个子集,是指全面反映司法机关以及工作人员依照法定职权和法定程序依法处理案件过程中所体现的案件相关人、事、物的数量特征、时空分布特征以及变化过程的海量、多源的异构数据。[5]司法大数据具有长时序、多维度、多源异构的特征,亦延续了大数据的逻辑,在类型、思维方式、运行上具备大数据的4V特征和经济学意义。但是,司法大数据又具备其特性,它是以司法领域为核心的数据集,是各项司法工作数据的总和。 通过对大数据进行整理、加工及整合,司法大数据可以呈现司法领域中为我们所未知的具有规律性的各种情况抑或提供新的知识参考。

  司法大数据的巨大能力有很多表现。在美国,“大数据已经扩大到刑事司法系统。在洛杉矶,警察根据大数据使用‘预测警务’系统来预测犯罪和分配人员。 在佛罗里达州罗德岱堡,机器算法被用于设定债券金额。在全国各州,以数据为导向,对累犯犯罪风险的估计被用来设置监禁。”[6]在英国,伯明翰地区搭建社区安全在线系统网站,组建数据分析团队,利用专业人才对大量数据的精准分析,让决策者实现对不同犯罪预防机构策略的分配,提高社区安全。[7]在我国,最高检开放行贿犯罪档案查询系统,借助信息网络技术和制度建设开展职务犯罪社会预防,进行检察机关参与和促进社会诚信建设的重要探索。 中国裁判文书网自2013年网上公开上线起,裁判文书网的数据做出了很多有益探索,例如通过裁判文书上的数据将历年立案数、结案数进行数据的可视化分析,[8]为法院审判工作提供精准的数据分析,把握当前的司法状况。世界范围内的司法大数据应用广泛,实践多样,成效斐然。 与之相比,我国的司法大数据理论研究起步较晚,实践层面应用亦有所欠缺,在一定程度上限制了我国司法大数据的应用。因此,在全面认识上述实践的基础上,后文将进一步对我国司法大数据应用状况进行梳理。

  (二)焦点:司法大数据与犯罪防控

  长久以来,我国犯罪防控一直延续着综合治理的基本思维,强调打防结合,标本兼治,这也是我国犯罪防控的基本模式。[9]尽管这一模式将打击和预防犯罪作为犯罪防控的双重目标,但事实上,犯罪防控实践“重打击、轻预防”,更多表现为积极的犯罪防控姿态。 近些年来,随着技术水平的提高,交叉研究的流行,犯罪防控实践方式有了新的突破,对跨学科方法有了一定的重视,但是囿于传统思维方式,描述性统计、文献分析、理论思辨等仍是主导方法。 因此,研究多为定性,缺乏实证数据的量化分析。 从当前我国严峻的犯罪态势来看,这种基于传统思维方式所作的一定程度的突破,并未对犯罪防控的实践产生明显的积极作用,尚未真正意义上实现我国犯罪防控水平的进一步提高。

  相较于我国犯罪防控的综合治理模式,西方犯罪治理模式经历更多的嬗变与选择。 自18世纪后期以来,在不同时期,西方国家曾先后推行威慑模式、矫正模式、环境控制模式等。 虽然模式各具特色,但是西方国家对罪犯防控采取的则是消极防卫的倾向。 以环境犯罪学为例,环境犯罪学不同于传统的犯罪学理论,它没有试图解释深层的犯罪原因和人们为什么会成为犯罪者,而是重点关注犯罪发生的环境。[10]在国外,对犯罪环境的关注多通过大数据分析来完成。将海量的司法数据整合加工,通过预测犯罪趋势,推测犯罪模式,分析再犯可能性等方式确定犯罪热点地区,并通过加强巡逻、增设监控等手段实现对犯罪高发环境的防控。 这些海量的司法数据为犯罪防控有计划、有目标地开展提供了准确的数据参考与合理的防控指导。

  我国长年累月的司法实践工作同样积累了海量的司法数据。 无论是法院已经判决的刑事案件数据还是检察机关提起公诉案件的数据,抑或是围绕犯罪嫌疑人、被害人展开的时空分布数据,这些司法数据不仅基数巨大,而且种类繁多,内涵丰富。 通过现有技术对以上数据进行精准分析,展开犯罪规律的探寻,实现对犯罪趋势预测、对犯罪模式推测的美好愿景亦是可能实现的。 基于此,这些司法大数据丰富的内涵以及广泛的范围应当为我国犯罪防控实践所重视,深入开展研究并合理渐进地进行应用,以此作为犯罪防控适应大数据浪潮的重要方式。

  二、司法大数据的应用现状

  大数据时代,凭借强大的数据处理能力实现对海量数据的分析处理,不仅使知识数量级别达到PB级,而且也帮助人们提升获取知识的能力。 这种背景下应运而生的司法大数据兼具大数据特性与独特的司法特质,为社会治安防控提供了不同层次的指导。 但是,囿于复杂的现实状况,对于司法大数据的应用仍需保持谨慎的态度。 下文将结合司法大数据在我国的应用状况,从四个方面展开分析。

  (一)新航向:司法大数据与云计算

  大数据自诞生伊始便与互联网、信息化等技术发展紧密相连,司法大数据的应用实践亦是如此。 伴随着科技的迅猛发展,云计算得以兴起和发展,司法大数据借助云计算,实现了海量数据的分析、建模、系统开发等,以此探寻数据背后隐藏的模式与其中微妙的关系。在检察领域,最高检推行“智慧检务”,将司法大数据应用到检察工作中。

  一方面,借助计算机的海量存贮性能构建司法办案知识库,根据司法数据的种类、数据量以及时空特征拟定算法,进而通过云计算设置类案推送、风险评估等功能。 检察机关工作人员可以通过局域网查看类案,获取风险评估结果。从检察工作的效率来看,检察机关工作人员编制阅卷笔录等繁琐的书写工作能够得到一定程度的解放,缓解“案多人少”的突出矛盾。 同时,利用司法大数据研发司法办案智能辅助系统,辅助开展定罪、量刑等工作。 这项辅助工作主要是对类似案件进行综合分析,根据分析结果对偏离度过大的案件启动评查机制,分析具体原因。 该系统的应用意在解决标准不一、司法任意性等问题。另一方面,依托全国检察机关统一业务应用系统,把海量的检察办案信息数据进行汇聚,利用大数据技术构建立体的司法办案评价体系,进而加强对执法办案的监督,促进司法公正。[11]

  在审判领域,近年来以大数据、云计算为依托的智慧法院建设亦不断推进,导诉机器人、机器人法官等产品相继问世,令人耳目一新。 2017年两会期间,一款名为“小雨”的导诉机器人亮相北京市第三中级人民法院,为智慧法院“代言”。 传统模式下的立案、审判、阅卷等在逐渐走向网上立案、网上审判、网上阅卷成为现实,以期更好地为当事人提供便利,提高司法透明度,促进司法公正。[12]2017年2月,上海在中央政法委的要求下,筹备研发了一套“推进以审判为中心的诉讼制度改革软件”(后被定名为“上海刑事案件智能辅助办案系统”,即“206工程”),该系统定位为“智能辅助办案系统”,以辅助法官、检察官、侦查人员工作为主要目的,不能理解为“机器办案”,更不能理解为“机器定案量刑”。[13]从以上司法机关的实践看来, 司法大数据的应用始终秉持着我国互联网强国战略的思想,与迅猛发展的云计算联系紧密。 这种通过互联网将计算能力组织起来的做法,为司法大数据的数据挖掘、数据分析提供了便利,助力我国的实务工作颇多。 这种模式下,司法工作的效率得到提高,司法资源能够得到更充分地利用,有利于打击犯罪,做好犯罪的治理工作。 但是,该模式下的司法大数据应用显得较为单一,司法大数据的巨大能力并没有得到发挥。 大数据挖掘分析方法下的犯罪预防机制仍未得到有效发展,传统思维下的犯罪治理“重打击、轻预防”仍然是犯罪防控的主流。

  (二)新尝试:司法大数据与犯罪地图

  2006年斯德哥尔摩犯罪学奖由美国犯罪学家大卫·威斯伯德摘得桂冠, 他所研究的犯罪地理学、地点警务、犯罪地图等领域也随之在世界范围内引发研究热潮与应用探索。 该学者的研究领域与大数据的应用方向不谋而合,具有代表性的犯罪地图更是大数据可视化分析的应用典范。

  地图一词,我们并不陌生;对于犯罪地图,从字面含义中我们也不难窥探其与犯罪之间的关联。 要真正理解犯罪地图的作用,我们首先需要明白犯罪制图的概念。 现代意义上的犯罪制图是指借助地理信息技术软件,导入犯罪大数据,将数据与时空进行一一对应,根据实践与研究所需,针对性地筛选变量,实现特定犯罪情况可视化的一种方法。 犯罪地图,则是犯罪制图的产物。犯罪地图依托海量犯罪数据与强大的技术分析、技术挖掘、可视化展示等优势,在世界范围内有了较为广泛的在线应用与普及公开。 在美国,各州警局都会根据该地区犯罪情况定期在机构网站、资讯平台发布犯罪地图供市民查阅。 例如纽约警局推出NYC Crime Map网站,公众可以在网站上输入时间与犯罪类别直接获取特定时间段中某类犯罪的数量、分布、集群状况等,以此安排个人的出行;在韩国,“国民生活安全地图”的推出将交通事故、学校暴力、性暴力等各

  种事故和犯罪信息通过在线地图进行公开,以期达到预防安全事故的目的。[14]

  面对国外犯罪地图应用与大数据良性配合的丰富实践,我国在犯罪地图领域也进行了有益尝试。2014年杭州市上城区人民检察院与高校合作,根据2009年到2012年上城区全部刑事犯罪信息,以盗窃犯罪和暴力犯罪为研究样本,在借助地理信息系统的基础上,实现了上述司法大数据的可视化分析,完成了对上城区犯罪热点地图的绘制。上城区人民检察院制作此套地图意在通过犯罪地图分析高犯罪密度区块,提供警力部署的指导,提高犯罪防控的综合治理水平。[15]此外,在上海、四川自贡等地区,也不乏地方检察机关主动公开的部分城区反扒、盗窃等类型的犯罪地图。[16]从这些公布的犯罪地图来看,我们不难发现当前我国司法机关正在有意识地利用司法大数据进行新的尝试。虽然犯罪地图的应用为我国司法大数据的应用开辟了新的天地,司法实践中也在渐进地尝试利用犯罪地图对犯罪进行预测与评估,但是该应用尚处于起步阶段,具体的犯罪防控成效并未彰显,对于全国范围内犯罪防控的作用尚待时间去给出答案。 不过从国外的实践与成效来看,利用司法大数据绘制犯罪地图进而展开犯罪防控的方法具有乐观的前景。 数据显示,美国洛杉矶制作犯罪地图并进行测试的结果显示,犯罪预报准确率达到71%。 因此,利用司法大数据绘制犯罪地图,指导犯罪防控实践,促进犯罪治理的精细化发展,不失为我国司法大数据应用的有益尝试。

  (三)新探索:司法大数据的深度应用

  数据库专家杰克·奥尔森曾指出,“数据能满足其既定的用途,它才有质量。”[17]大数据的应用同样如此。 作为大数据的分支,司法大数据满足大数据分析条件,实现大数据分析是其应有之意。

  如火如荼的大数据背景下,近年来关于司法大数据的学术研究繁多。 鉴于司法大数据对于公民而言是难以获取的,对于学者研究来说也概莫能外。 因此,在很长的一段时间内,司法大数据的学术研究多是以学者与地方司法机关的合作作为研究路径。 值得称道的是,2014年1月1日,《最高人民法院关于人民法院在互联网公布裁判文书的规定》正式实施。 该司法解释明确,最高法在互联网设立中国裁判文书网,统一公布各级人民法院的生效裁判文书。 中国裁判文书网的公开上线具有划时代意义,为司法大数据在理论研究中的应用提供了重要的大数据来源与大数据分析条件。

  中国裁判文书网自2014年网上公开上线起,截至目前公开裁判文书近2 900万份,访问量突破78亿人次,覆盖210多个国家和地区,[18]受到了不少数据研究人员、司法工作者的关注。在国内,有学者利用裁判文书网的司法大数据进行大数据分析,做出了有益的探索。 清华大学何海波、于晓虹教授所主持的“清华大学司法改革与大数据研究课题”中,他们以中国裁判文书网自上线以来所公布的所有裁判文书为基础来源,通过与技术公司展开合作,对裁判文书网所提供的裁判文书进行技术手段的提取,构建了全新的系统进行整理与分类。 通过人工调试与技术改进,依靠现有技术水平最大限度地保证数据的可靠性。[19]在数据与技术就绪的情况下,他们通过大数据分析获取信息,做出了关于裁判文书网的大数据分析报告。 作为对裁判文书网数据的全景式扫描,该报告数据翔实,大数据分析深入,研究涉及面广,报告中的诸多数据图表对于司法实践具有指导价值。

  下文将对报告中的某一图表展开解读, 以不同类型的案件量与公开结案比对比表为例

  (见表1)。

  不同类型的案件量与结案比对比表是对裁判文书网自上线以来所收录的所有文书的大数据分析。 从表中,我们看到,大数据分析显示刑事案件公开结案比为18.61%,而实际统计计算显示,“2014年刑事审结案件占全国审结案件约8.29%, 往年的数据也大致是在这一水平上下浮动。 ”二者之间10%以上的差距反映了在裁判文书网中,刑事案件相较于民事案件调解结案量极少,因此公开结案比得以攀升。 这对学者以裁判文书网中的刑事案件数据作为大数据分析对象、展开犯罪防控研究是很好的研究信号,说明裁判文书网中刑事案件数据剔除较少,数据稳定全面,利于大数据分析的展开。

  当前学术研究对司法大数据的分析是对司法大数据应用的全新探索。 一方面,这是对大数据自身价值的一种回应。 大数据分析能全面深刻地挖掘数据内涵,展开理性推测。 另一方面,这种探索对于犯罪防控研究具有指导作用。 通过大数据分析,能够较为有效地对刑事数据的可靠性进行判断,进而展开更为深入的刑事大数据分析,实现犯罪防控的精细化分析,助力犯罪防控实践。

  (四)新征程:司法大数据与数据开放

  近几年来,以美国、英国为代表的发达国家先后掀起数据开放运动,并提出了公民“数据权”的概念,数据开放俨然成为国家施政的重要前进方向。 数据开放意味着数据的公开,也意味着数据能够为普通民众重复利用并进行分析。

  “有比较才有鉴别,比较研究的方法是人们认识客观事物的一种科学方法。 ”[21]对比国内的数据开放情况, 司法大数据的应用在该领域也开启了新的征程。 2011年最高检开放行贿犯罪档案查询系统,借助信息网络技术和制度建设开展职务犯罪的社会预防,展开检察机关参与和促进社会诚信建设的重要探索。[22]最高检开放的行贿犯罪档案查询系统是基于检察机关所掌握的贿赂犯罪大数据建立的大数据查询系统,是“互联网”与“司法大数据”共同作用的产物。 据查询系统网站报道,行贿犯罪档案查询工作已经在防控贿赂犯罪、维护市场经济秩序、促进社会诚信建设、服务社会管理等方面发挥了积极作用。从有效防控犯罪的角度看来,该查询系统有助于对特定犯罪起到防控作用,一定程度上

  促进社会的稳定。 但是,该系统的数据开放并不是真正意义上的开放,社会单位和个人必须借助检察机关获取查询结果,才能对了解到的信息进行分析判断。 鉴于司法大数据应用在数据开放方面的局部性与开放的不彻底性,司法大数据的开放仍处于新征程的起点。

  三、司法大数据的应用挑战

  (一)大数据思维的待认可

  大数据浪潮下,“大数据”“大数据分析”“大数据应用”不断改变着社会的思维模式、发展模式。 司法大数据,作为具有特定属性的大数据,其具备的大数据思维--“用数据来管理”“用数据来决策”“用数据来创新”[23]亦冲击着传统的司法工作模式。

  我国传统的司法工作模式有其鲜明特征,即“权责一致、相互配合、相互制约、高效运行”。[24]传统模式下,“人”主导着司法数据的运用,司法数据本身的价值等待司法工作人员的挖掘,因而在立法上也是从“人”着手进行规制。 伴随司法改革的层层深入,传统司法工作模式不断进行创新,司法大数据在法院、检察院日常工作中的应用也不再少见。 无论是上文所述的智慧法院、智慧检察院建设,抑或上海刑事案件智能辅助系统(简称“206工程”)的构建,司法数据开始走出传统运用模式,以大数据应用的姿态彰显其独特价值。 当前司法工作模式创新之处可圈可点,但不可否认,这种创新之于司法大数据应用而言过于无力。 例如,“206工程”的相关研发人员认为,创造性思维是电脑永远无法模拟的,该工程能够通过技术手段辅助法官办案,却不能替代法官本身。[25]可以看到,虽然司法大数据令司法机关在司法工作中产生更多期待,并在公正司法、严格执法的要求下作出大数据应用的有益尝试,但大数据思维并没有得到实质认可,司法领域“大数据应用”的思维导向不是“用数据来判断”“用数据来审理”,更多的是“用数据去简化”“用数据去辅助”。

  (二)大数据应用的待深化

  司法实践中,司法活动极为精细和规范。 不同类型案件的诉讼程序、证据规则、审理标准、执行内容截然不同,民事案件、行政案件、刑事案件所承载的数据信息在司法属性的基础上,包含其特有的数据属性。 也就是说,司法大数据本身是具有类别区分性的。 相应的,司法大数据在司法工作中的应用理应作出专业化区分,进而有针对性地展开应用实践。 这既契合现实司法实践的需要,又能贯彻司法工作公平公正的精神。

  从我国既有的司法大数据应用来看,其应用实践主要为整体性应用和辅助型应用。 前者表现为智慧法院、智慧检察院等机构建设,是司法机关对国家大数据战略的响应;后者表现为司法机关对高效便民原则的落实。 毋庸置疑,这些应用实践都对司法实务工作产生积极意义。但是,相较于司法大数据本身所具有的价值,这些实践产生的效益并不显著,同时暴露出司法大数据应用欠缺明显的深入性与根本性。 造成这一结果的理由有二:其一,司法大数据的价值被低估。 当前司法机关对司法大数据的定位是辅助性工具,而非核心审判工作的工具;其二,大数据思维在司法领域并未得到根本性认可。 因此,在该思维环境下衍生的各种司法大数据应用不可避免地陷入表层应用的窘境。

  (三)大数据驱动模式的待规制

  大数据时代下,我国大数据战略的部署主要以国家政策的形式推动。 司法领域各项涉及司法大数据应用的有益探索,更多表现为对国家大数据战略部署的积极回应。 当前中国语境下司法大数据应用领域存在明显的法律空白。 当下司法大数据应用仍然维持着传统的司法工作模式,由“人”主导,对“人”进行规制。但不可否认,司法大数据应用本身的合法性、合理性,已然不是规制“人”就能够实现的。

  对此,我们必须明确:任何创新都不能缺乏法律规制、不能突破法律框架。虽然,司法大数据作为创新实践符合社会发展的客观规律,但其关系到公共安全、公共财产、公民人身安全等各类案件的公正公平,其存在法律空白显然是不适宜的。 一方面,依赖于政策驱动的司法大数据应用模式欠缺法律规制,易造成自身运用的不合理;另一方面,规范化的应用模式空缺,亦构成对司法大数据应用价值的减损。

  四、司法大数据的应用优化

  (一)思维转型:从因果关系到相关关系

  大数据浪潮下,大数据应用得到有效覆盖。 在经济领域,人们可以利用大数据分析价格走势,作出供求反应;在文化产业领域,人们可以利用大数据分析文化偏好,推出人们喜闻乐见的文化产品以迎合大众的口味。 可以说,预测是大数据应用的基石。 反观司法大数据在我国犯罪治理中的应用,预测犯罪趋势、推测犯罪模式的功能尚待研发,司法大数据更多是作为提升实务工作效率、节省司法资源的工具。

  “大数据预测引领人类无限接近控制未来的终极梦想”,[26]发挥司法大数据的巨大能力需要有效发挥大数据的预测能力。 预测是对事物发生概率的推测,反映的是一事物与另一事物之间的相关关系。 有别于大数据思维对相关关系的找寻,传统的犯罪学思维更强调探讨犯罪的因果联系,并通过原因与结果的对应进行犯罪治理。 但是,实践中犯罪原因的找寻并非易事,犯罪预防更多通过经验主义的判断,而这显然不是成熟的预防手段。 如前文所述,大数据思维尚待认可,同时传统犯罪学思维又加深了此种限制,司法大数据应用陷入牛刀小用的局面。 对此,转变思维方式,从对因果关系的探讨转向对相关关系的找寻显得更为重要。 只有犯罪治理将相关关系作为重要的研究思维,重视司法大数据与犯罪之间的相关关系,注重犯罪趋势的预测、犯罪模式的模拟,司法大数据的应用才能真正走入大数据应用的核心。

  (二)数据巧实力运用:大中见小

  司法大数据如同矿藏般蕴藏丰富价值,有待我们不断挖掘和探索。 但是由于我国复杂的现实状况,“大数据并非在任何情况下都是完全、完整的数据”,且“大数据并不代表数据类型的丰富”,[27]司法大数据的完整性、完全性并未得到充分的保证,数据挖掘的基石即大数据本身并不稳定。 对此,有学者指出,大数据并不能完全取代传统的小数据研究。

  事实上,就数据研究而言,大数据研究与小数据研究并不存在高下之分,一味地进行大数据崇拜并不可取,容易造成数据利维坦。 任何数据都非常宝贵,它们的价值很可能随时间流转不断提高,历久弥新。 正如世界万维网之父蒂姆·博纳斯所述:“数据是宝贵的,它的生命力,比收集它的软件系统还要持久”。 因此,针对大数据研究所存在的不足,采取小数据研究进行补充显得尤为重要。传统的小数据研究一般通过实验研究与抽样调查方式进行。因为小数据研究的封闭性,其实验研究的方式与抽样调查的样本往往会进行审慎的挑选,调查样本往往具有代表性以达到数据结构的合理性。 这显示了小数据的独特价值,即严谨的结构性与代表性。

  作为大数据一部分的小数据,虽然不能如大数据一般在大视野下展开大数据分析,但是鉴于大数据自身的不足短期内并不能得到改正,未来的数据应用中,大数据仍需要依靠小数据构建良好的数据生态,实现应用研究的提升与突破。 因此,大数据与小数据应当相辅相成,共同促进,为数据巧实力的施展创造条件。

  (三)从数据孤岛到数据共享

  大数据应用的基础是具备完整、全面的数据库。 当前我国的司法大数据能够做到对各类司法数据全方位的囊括,实现数据的全面性。 但是,由于各地司法机关用于司法数据采集、分析的系统没有统一规划,“各系统之间数据互补程度低,功能局限性较大,”[28]数据的完整性并不能得到保证。 加之不同司法机关之间的司法数据多用于内部使用而非数据共享,客观上造成各机关之间存在数据交流壁垒,形成了数据孤岛。 此外,这种数据孤岛又自成数据体系,检察院有检察院的司法大数据,法院有法院的司法大数据,进而导致不同数据的信息重叠。数据孤岛导致司法大数据应用存在诸多问题,诸如数据“失声”--相关部门无法及时获取数据,遑论民众;再如数据“失真”--各成体系的大数据集合没有统一标准,运用到司法实务中,影响到司法机关之间工作的流转。 对此,应当搭建司法大数据共享平台,积极构建为司法机关所共享的“政法云”。

  针对“政法云”平台,2017年1月司法部印发了《关于进一步加强司法行政信息化建设的意见》(以下简称“意见”),《意见》专门对司法行政信息化综合管理平台建设做出了指示,以期“建成涵盖司法行政各项业务的‘一站式’司法行政信息化综合管理平台,形成综合集成、业务协同、信息共享的司法行政信息化工作格局,实现信息化与司法行政的深度融合”。[29]“政法云”建设能够有效破除司法机关之间的数据壁垒,促进数据之间的深度融合,实现数据共享。 值得注意的是,在促进数据融合、实现数据共享的同时,上级机关一是要做好把关工作,构建统一合适的数据分析系统,使数据库建设能够标准化、统一化。 二是全面统筹不同机关的司法大数据,注意不同机关之间数据的衔接,避免数据的信息重复。

  综上,司法大数据在我国的应用实践展示出其矛盾的两面。 一方面,我们看到司法大数据能够应用于司法实践并为之提供全新的治理技术,如云计算、犯罪地图、大数据分析等。 这些数据化浪潮下的新鲜事物不断刺激着传统的司法工作模式的“神经”。 另一方面,我们无法回避司法大数据应用带来的诸多挑战,大数据思维待认可、大数据应用待深化、大数据驱动模式待规制等等。 虽然司法大数据在应用中仍存在许多不足,但是瑕不掩瑜。 司法大数据应用顺应了大数据浪潮的趋势,也符合我国“数据强国”的理念。 这既是对我国司法实践的有益探索,推动司法治理模式的转型升级,又为司法改革的深入推进开辟全新道路。本文原载《静月学刊》2018(3)

【参考文献】
[1]梁玉成.大数据不能替代理性思考[N].社会科学报,2015-02-12.
[2]郧彦辉.数字利维坦:信息社会的新型危机[J].中共中央党校学报,2015,(3).
[3]中国电子网.解构大数据[EB/OL].http://www.e-gov.org.cn/article-162871.html,2017-03-29.
[4]〔英〕维克托·迈尔-舍恩伯格,肯尼思·库克耶等.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2012.
[5]李代超,面向不同主题的犯罪大数据可视分析[J].地球信息科学学报,2014,(5).
[6]大数据可能会加剧刑事司法系统中的种族偏见[N].华盛顿邮报,2017-02-10.
[7]〔英〕Spencer Chainey,Lisa Tompson.犯罪制图案例分析:实践与研究practice and research[M].北京:中国人民公安大学出版社,2014.
[8]马超,于晓虹,何海波.大数据分析:中国司法裁判文书上网公开报告[J].中国法律评论,2016,(4).
[9][18][19]许章润.犯罪学[M].北京:法律出版社,2007.
[10]雷切尔·博巴·桑托斯著,金诚等译.犯罪分析与犯罪制图[M].北京:人民出版社,2014.
[11]最高检:案件信息公开是案件办理的必须步骤[EB/OL].http://news.jcrb.com/jxsw/201702/t20170216_17 17786.htm,2017-04-20.
[12]司法大数据,这样帮忙打官司[EB/OL].http://www.cac.gov.cn/2017-05/11/c_1120952778.htm,2017-04-20.
[13][24]严剑漪.揭秘“206工程”:法院未来的人工智能图景[J].上海人大月刊,2017,(8).
[14]韩国安全行政部将推“国民生活安全地图”[EB/OL].http://health.huanqiu.com/health_promotion/2013-05/3908582.html,2017-04-20.
[15]这张地图能 让警力部署 更科学[EB/OL] http://www.qnsb.com/fzepaper/site1/qnsb/html/2014-01/07/content_473275.htm,2017-05-18.
[16]单勇.犯罪地图的公开[J].国家检察官学院学报,2016,(3).
[17][22]涂子沛.大数据:正在到来的数据革命、以及它如何改变政府、商业与我们的生活[M].广西师范大学出版社,2015.
[20]杨殿升,张若羽,张玉镶.刑事侦查学(第二版)[M].北京大学出版社,1993.
[21] http://www.yfw.com.cn/xhfzdacx/jjwz/201202/t20120214_163203.shtml,2017-04-01.
[23]虞浔.1997年以来中国司法体制和工作机制改革进程中上海的实践与探索[M].上海人民出 版社,2013.
[25]蒋洁,陈芳,何亮亮.大数据预测的伦理困境与出路[J].图书与情报,2014,(5).
[26]唐文方.大数据与小数据:社会科学研究方法的探讨[J].中山大学学报(社会科学版),2015,(6).
[27][28]搭建好司法大数据平台[EB/OL].http://news.ifeng.com/a/20170119/50599657_0.shtml,2017-05-19.
        
        
      首都法学网       北京市高级人民法院       中美法律信息与图书馆论坛(CAFLL)
      国家图书馆       美国法律图书馆学会(AALL)       国家检察官学院
      中国社科院法学所图书馆       国际法律图书馆协会(IALL)       最高人民法院图书馆

主管单位:中国法学会  主办单位:中国法学法律网合作机制 技术支持:北大英华科技有限公司(北大法宝)
电话:010-82668266-152 传真:010-82668268
加入收藏 | 本站首页 | 联系我们
go