大数据的浪潮正在席卷全球。对于法学研究来说,大数据意味着一场新的机遇和挑战。法学研究领域要张开双臂热情拥抱大数据时代的到来。大数据时代,法律数据呈现出数量大、速率快、多样化、不稳定等特点,大数据正在挑战传统法学研究方式,正在向法学领域渗透。
(一)解析大数据
何谓大数据,至今尚没有一个正式和统一的定义,目前最为普遍的定义就是“用传统方法或工具不能处理或分析的数据”。其他各种不同的定义基本是从大数据的特征出发通过对这些特征的阐述和归纳试图给出定义。在这些定义中比较有代表性的是3V定义,即认为大数据需满足3个特点:规模性(volume)、多样性(variety)和高速性(velocity)。基于以上三大特征,国际数据公司(International Data Corporation,IDC)认为大数据还应当具有价值性(value),大数据的价值往往呈现出稀疏性的特点。
法学之所以被称为一门独立的学科,很大程度上取决于其自身具有一套独立的方法理论。方法是获取知识的重要手段,也是理论研究和运用的途径。然而,随着大数据时代海量数据的获得,法律数据分析也呈现多样性和复杂性的特征,大数据方法的运用对分析法律事件和法律行为正变得愈加重要。法律大数据主要指法律领域出现的大量半结构化和非结构化数据,这主要包括相对于结构化数据而言,不方便用数据库二维逻辑表来表现的法律数据,比如各种格式的法律文档、法律文本图片、标准通用标记语言下的子集XML、HTML、各类与法律相关的图像和音频、视频信息等等。
(二)法律大数据独具特色
法律大数据呈现出具有规模效益、高速性和多样性数据样本等特征,这些特征是传统法律数据处理方法和工具所不具有的。
法律大数据具有规模效益。法律大数据的规模效益主要指数据量非常庞大,主要体现在数据存储量大和计算量大。在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据。在2011年,这个数字达到了1.8ZB,而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)。因此,大数据中的数据不再以几个GB或几个TB为单位来衡量,而是以PB(1千个TB)、EB(1百万个TB)或ZB(10亿个TB)为计量单位。
在大数据时代,法律数据的大规模产生使得法学的跨学科研究显得更为重要。这不仅提醒所有的法律人可以通过对法律大数据的关联性分析得出社会领域将产生的法律现象,而且要注意法律大数据的关联性分析也将导致法律现象与政治、经济、文化、教育等的关系交融在一起,法律大数据可以被看作是根植于一个复杂社会系统环境中的数据基石。也就是说,法律研究者将通过呼叫详细记录、智能设备和传感器信息、GPS地理定位映射的数据、通过管理文件传输协议传送的海量图像文件、W“b文本和点击流数据、评价数据、科学信息、电子邮件等等,告诉我们这个社会未来会出现什么法律现象,会发生什么法律事件以及如何去应对和处理。
法律大数据具有高速性特征。一方面是指法律数据在不断更新,增长的速度快,另一方面是指法律数据存储、传输等处理速度很快,甚至是实时处理。比如对刑事案件发生频率和时段的预测,需很快地对案件发生的程度、影响的区域范围等进行量化。甚至在犯罪嫌疑人实施犯罪之前,就可以运用大数据对可能发生的犯罪行为作出预判。目前,在美国许多城市(比如纽约、洛杉矶和里士满)以及其他一些国家都在使用软件处理过往的犯罪数据及其他数据。通过这种措施来预测哪些区域的犯罪率更高,并提前派出更多警车到这一区域巡逻。运用软件处理数据的效果令人印象深刻,与不使用软件分析的周边地区相比,采用这种措施的地区犯罪率大幅下降。当然,目前还是以判断发生罪案的地点为主,而未来发展的方向则是要发现谁会成为罪犯,甚至直接通过大数据分析锁定某个犯罪嫌疑人个体。
法律大数据具有多样性数据样本的特征。法律大数据的数据包含结构化的数据表和半结构化、非结构化的文本、视频、图像等信息,而且数据之间的交互非常频繁和广泛,具体包括三个方面:一是数据来源多。目前的法律数据主要是法律数据库能够处理的数据,而移动互联网和物联网的发展,带来了诸如微博、社交网站、GPS定位、传感器等多种法律数据的来源;二是数据类型多,并且以非结构化数据为主。传统的法律数据中,数据都是以文档和表格的形式保存。而法律大数据中70%至85%的数据是如图片、音频、视频网络日志、定位信息、链接信息等非结构化和半结构化的数据;三是数据之间关联性强,且频繁交互。如一个犯罪嫌疑人在途中上传的照片和日志,就与该犯罪嫌疑人的位置、行程等信息有了很强的关联性。
(三)法律大数据研究将成为新领域
法律大数据及其应用的迅速发展,已经引起了法律界的关注,法律人已经从各种不同的视角对于这场大变革进行着思考和议论。法律大数据的研究也将成为法学研究的一个创新型领域。
展望一:法律数据的资源化。所谓资源化,是指法律大数据将成为法律人和法学研究跨社会领域关注的重要战略资源,并将成为法律界争相抢夺的新焦点。因而,法学研究领域应当制定法律大数据研究的战略计划,将法律大数据的研究成果融入到社会的各个领域。
展望二:法律大数据与法律云将深度结合。法律大数据离不开云处理,云处理为法律大数据提供了弹性可拓展的基础设备,是产生法律大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。为此,建议司法部门联合建立中国法律大数据及法律云平台,更好地发挥法律大数据和法律云在国家安全和网络空间安全以及在经济和社会发展中的重要作用。
展望三:大数据将改变法学研究的范式。法学不是严格意义上的科学,法学意义中的真理只是一些基于多数人利益的社会共识,法学研究方法应当服从于法学的内涵。尽管因法学的调整范围、调整对象和调整方法的特殊性使法学研究方法具有自己的特色,但法学研究方法如果不与其他科学研究的方法相结合,法学研究方法便失去了存在的意义。过去几个世纪主宰科学研究的方法一直是“还原论”,将世界万物不断分解到最小的单元,然而这种方法作为一种科研范式将走到尽头,因为对单个人、单个基因、单个原子等了解越多,对整个社会、整个生命系统、物质系统的理解并没有增加很多,有时可能离理解系统的真谛更远。
随着大数据的快速发展,就像计算机和互联网一样,法律大数据很有可能是一场法律研究范式的革命。法律人的思维也将发生革命性的转变,即不再探求难以捉摸的法律因果关系,转而关注社会复杂事物的相关关系。笔者预计,法律大数据将催生一种新型的法律职业--法律数据分析师,而且具有丰富经验的法律大数据分析人才将可能成为法律研究、法律应用、法律服务和法律辅助领域的稀缺资源,法律大数据将驱动法学研究、法律应用和法律服务的转型。随之兴起的数据挖掘、机器学习、人工智能和3D打印等相关技术,可能会改变数据世界里的很多计算方法和基础理论,而这也将使得法学研究的对象和方法由传统的1.0时代向2.0时代跨越。