本站首页 关于我们 法律图书馆与法律信息研究会 法律信息研究 中外法律图书馆 法学文献与检索 政府信息公开 法律图书馆导航 法律法学网导航
法律信息资源
法律信息服务
数字信息检索
数字技术发展
专业网站建设
澳门法律信息
  当前位置:首页 > 法律信息研究 > 法律信息资源
法律信息资源
暂无下载资料

 大数据背景下数字化检察文献的开发与利用
            姜廷松 点击量:5244
国家检察官学院图书馆副馆长
【摘要】
检察文献既是检察知识和信息的载体,也是推动检察理论与检察实践发展的文献源泉。在大数据背景下,运用大数据思维对检察文献进行开发与利用,可以为检察工作科学发展提供更多的智力支持。本文从数字化检察文献特征入手,在论证数字化检察文献具备大数据属性,即规模性、多样性、高速性及价值性的基础上,分别探讨了非零次数字化检察文献、零次数字化检察文献的开发与利用。并以日前社会关注的“雷洋”案件为例,探讨了大数据背景下数字化检察文献应统一开发与利用,从而提升检察文献的深层价值,将检察文献加工生产成知识资源,依据用户需求和服务场景再组织,然后提供给用户,促进用户对检察知识的理解和创新。
【关键字】
大数据;检察文献;零次文献;数据挖掘
    

  大数据不仅是人们获得新认知、创造新价值的源泉,还是改变市场、组织机构,以及政府与公民关系的方法。[1]十八届五中全会《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》强调,促进互联网和经济社会融合发展,实施国家大数据战略,推进数据资源开放共享。随着国家大数据战略的实施,大数据对检察理论研究及检察实践也产生了潜移默化的影响[2]。以新思维、新技术应对海量数据的冲击,管理、开发和应用好检察文献,才能更好地为检察理论研究和检察实践提供有力文献支撑。

  一、数字化检察文献的大数据属性

  (一) 大数据的主要特征

  随着云计算等技术的兴起,以及微博、微信等新型信息发布方式的不断涌现,数据以其前所未有的速度不断增长、累积,并改变着人类的思维、生产、生活和学习的方式。大数据与传统数据的关系可以比作“大海”之于“鱼塘”。[3]目前学术界虽然对大数据的定义及特征尚未达成一致,但基于这一类比,大数据的主要特征主要有规模性(Volume)、多样性(Variety)、高速性(Velocity)及价值性(Value)。

  1. 规模性。大数据之所以称之为“大数据”,最直接的原因就在于数据的规模性。以计算机的CPU 和数据存储技术水平而言,传统数据库的处理对象通常以MB、GB为基本单位;而大数据面对的基本处理单位要以TB ( 1024GB) 及以上的单位来表明数据量。

  2. 多样性。传统数据库处理对象的数据类型较为单一,仅有一种或少数几种,且通常为以0和1为表现形式的二进制数据;而大数据面对的数据类型繁多,不仅包含传统的数据,还包含来自网页、互联网日志文件、搜索索引、社交网络、主动和被动系统的传感器数据等结构化、半结构化以及非结构化数据,且以后两者居多。

  3. 高速性。大数据时代数据处理要求高速性,即要在很短时间内给出分析结果,以便从各种类型的数据中快速获得高价值的信息。大数据的高速性要求科学研究的思路必须从以计算为中心转变到以数据处理为中心,形成所谓的数据思维。[4]这种研究思路的变化必将带来研究方法的变革。

  4. 价值性。价值性体现了大数据研究的真实意义。大数据的研究工作实质是将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动的过程。但是在海量的数据面前,价值具有稀缺性——数据规模越大,真正有价值的数据与数据规模相比而言却较少,以侦破案件中视频批量数据为例,在连续不断的监控过程中,可能有用的数据仅仅有一两分钟。

  (二)数字化检察文献的内涵与分类

  国家标准《文献著录总则》中将“文献”定义为“记录有知识的一切载体。” 检察文献属于文献的一种,指记录检察知识和信息的一切载体。数字化检察文献则是以数字形式存储的检察文献,网络用户借助互联网,可以不受时间和场所的限制,在很短时间内来检索和使用它们,大大提高了工作效率。

  根据文献内容、性质和加工情况可将文献分为:零次文献、一次文献、二次文献、三次文献。其中,零次文献是指记录在非正规物理载体上的未经任何加工处理的源信息;一次文献指以作者本人的研究成果为依据而创作的文献,如期刊论文、研究报告、专利说明书、会议论文等;二次文献是对一次文献进行加工整理后的产物,如目录、文摘等;三次文献是指对有关的一次文献、二次文献进行广泛深入的分析研究之后综合概括而成的产物,包括综述、专题述评、学科年度总结以及文献指南等。

  根据文献的分类可以将数字化检察文献分为零次检察文献、一次检察文献、二次检察文献和三次检察文献(以下将一次、二次、三次检察文献统称为非零次检察文献)。

  目前,专业化程度较高的商业性文献数据商已将有些检察类图书、大多数检察期刊和检察硕博士论文等非零次检察文献进行了数字化,用户可以购买使用。与之相比,零次数字化检察文献的开发与利用则较薄弱。但是非零次文献一直受到学术界的极大关注,只是由于零次文献数量庞大、形式丰富、分布零星,且处在未经加工的原始的无序状态,往往得不到人工物化[5]。然而,随着互联网的普及和发展,越来越多的专家学者意识到零次文献的重要性。根据《科学引文索引》(SCI)的论述和有关情报机构的评估资料显示,零次文献在整个信息源中所占的比例已经超过20%,而且还处于上升态势[6]。在大数据背景下,网络传播中具有检察知识的大量原生态文献均可视为零次检察文献,如微博、微信等社交媒体为人们表达意志和意见提供了平台,是社会舆论的主要载体,能够反映人们对检察工作的态度,都可成为零次检察文献的重要来源。但是,网络中随意关于检察的只言片语,不属于零次检察文献,也不是前文献形态,因为这些信息不含潜在价值,无法成为检察文献。

  (三)数字化检察文献与大数据的关系

  随着云计算等计算机技术和通信技术的发展,在我国全面深化司法体制改革的现实背景下,以数字形式记载和传承检察知识和文化的检察文献的数量在不断增加。

  就非零次检察文献来说,图1展示了1980-2015年中国知网收录的文献中篇名中含有“检察”的文献数量,可以看出非零次检察文献数量增长可以分为四个阶段,即缓慢增长的初始阶段、指数增长阶段、线性增长阶段和缓慢增长阶段。

  图1 1980-2015年中国知网收录的篇名含有“检察”的文献数量

  然而,与非零次检察文献增长情况不同,零次检察文献的增长,尤其是在大数据背景下,随着“人人都是自媒体”特征的不断显现,其数量的增长呈现“井喷态势”。例如,通过百度搜索引擎以“检察”作为关键词,截止2016年6月28日,最近一年、最近一月、最近一周平均每天发布信息数量分别为22.99、186.67、350.00万条。该结果一方面表明与检察相关的零次文献数量远高于非零次文献数量;另一方面也体现出与检察相关的零次文献数量增长速度远高于非零次文献。显然,零次检察文献具备大数据特征中的规模性。另外,网络上零次检察文献的信息形式包括文字、图片、视频、音频等等,且格式也各有不同;并且相同信息在不同网站重复出现,从而导致有价值的信息被淹没在大量的重复信息之中。由此可以看出,零次检察文献同时具备大数据的多样性和价值性特征。

  在大数据背景下,综合数字化检察文献开发与利用的现状、需求及未来发展趋势,数字化检察文献价值提升要通过对零次和非零次检察文献分别进行较为深入的数据挖掘,实现文献资源的二次开发;最终目标是数字化检察文献的统一开发与利用,不仅能实现零次及非零次检察文献信息底层数据采集、存储的统一管理,还能实现零次及非零次检察文献数据信息的交叉共享,从而为研究者提供全方位、一站式检察文献综合服务。下文将分别阐述非零次数字化检察文献和零次数字化检察文献的开发与利用,以及二者的统一开发与利用。

  二、大数据背景下非零次数字化检察文献的开发与利用

  为实现从简单检察文献增值服务到检察文献深层价值提升的转变,将检察文献加工生产成知识资源,依据用户需求和服务场景再组织,然后提供给用户,促进用户对检察知识的理解和创新,本文参考中国知网、万方数据、维普期刊等国内知名学术网站的相关研究成果,提出了非零次数字化检察文献数据挖掘体系,如图2所示。

  图2 非零次数字化检察文献数据挖掘体系

  (一)研究进展

  研究进展是以用户输入的和“检察”相关的搜索词作为关键词,从两个方面进行分析:一是按照发表时间进行排序,以便用户查找最早及最新研究成果,从而为研究检察理论和检察实践问题的演进历程提供文献支撑。二是统计含有该关键词的文献其本身的关键词及其数量,从而体现基于该关键词的研究分类,为了解与该检察理论和检察实践问题相关的理论体系提供基础。因此,在“研究进展”模块下研究者可以得到早期检察文献排名、最新检察文献排名以及核心词汇列表。

  (二)学术影响力

  学术影响力是以用户输入的和检察相关的搜索词作为关键词,从两个方面进行数据统计:一是统计篇名中含有该关键词的检察文献的被引数量,从而体现该类研究的学术影响力。二是统计篇名中含有该关键词的检察文献下载数量,从而体现对该类研究的用户关注度。因此,在“学术影响力”模块下,研究者可以得到与查找内容相关的经典检察文献和热点检察文献。

  (三)分布概况

  分布概况是以用户输入的和“检察”相关搜索词作为关键词,从四个方面进行数据统计:一是统计篇名中含有该关键词的检察文献在各年度的分布情况。二是统计篇名中含有该关键词的检察文献在各类学科的分布情况。三是统计篇名中含有该关键词的检察文献在各类期刊的分布情况。四是统计篇名中含有该关键词的检察文献在各类机构的分布情况。因此,在“分布概况”模块下研究者可以得到与查找内容相关检察文献的年度分布、学科分布、期刊分布和机构分布情况。

  (四)相关学者

  相关学者是以用户输入的和“检察”相关搜索词作为关键词,按照相关检察文献发表时间、被引次数进行排序,以便用户查找最早及最受关注检察文献的作者。此外,按照检察文献发文数量进行排序,以便用户查找发文数量最多的作者。因此,研究者可以得到与查找内容相关的早期学者排名、学者热度排名以及检察文献发文量排名。

  通过上述对非零次数字化检察文献的挖掘,可以帮助研究者从不同的角度了解相关检察理论和检察实践问题的研究历史和现状、研究的热度和分布情况,以及该类检察理论和检察实践研究中的代表人物,从而为检察理论和检察实践研究工作的开展提供有力且可靠的检察文献支撑。

  三、大数据背景下零次数字化检察文献的开发与利用

  与非零次数字化检察文献不同的是,来自互联网大数据背景下的零次数字化检察文献则有不同的价值:零次检察文献具有原生性,是人们真实意愿的直接表现;零次检察文献具有极强的时效性,能够及时反映当前的最新热点及动态;零次检察文献具有一定的预示能力,信息直观表述的背后可能预示着某种尚未所知的机理;零次检察文献具有广泛性,为跨领域研究提供了思路。

  基于非零次数字化检察文献的价值,可以为研究者多方面了解信息、掌握大众意见、听取不同声音提供平台,但对于具有大数据属性的零次数字化检察文献,由于其体量大、速度快、形式多、难识别等特征,则需要用与非零次检察文献开发与利用不同的方式,利用新兴的网络爬虫技术、API接口技术等方式采集和挖掘相关的检察文献网络数据信息:其一是网络爬虫技术。在互联网中,网页之间通过超链接彼此相连,形成一个巨大的有向图。理论上,网络爬虫以Http请求的方式获取初始的和检察文献相关的互联网页面,并以此作为初始节点,根据网页之间的链接关系找到其他网页,周而复始,从而实现全网信息的自动抓取功能。然而,在实际应用中,往往不可能爬取到互联网上和检察文献相关的所有数据。通常采用广度优先、深度优先、最佳优先等搜索策略。其二是 API接口(应用程序接口,Application Program Inerface)。API接口是一组定义、程序及协议的集合,为了供第三方开发者使用,很多互联网公司将自己的网站服务封装成一系列API,如新浪微博、Facebook、豆瓣等。用户无需庞大的硬件与技术投资就可以方便的借助API接口通过二次开发方便地获取各类数据信息,如微博博文、发布时间、地理位置、博主信息、关系信息等,以便进行深入分析研究。与爬虫软件相比,使用API接口虽然不需要逐个页面的爬取,获取信息更加方便、准确、快捷。但是API开放者对资源访问进行了一系列的设置,如新浪微博对不同用户等级的访问接口权限及频率都进行了限制。因此,采用两者结合的方式可以更加有效的获得相关零次数字化检察文献数据[7]。

  在大数据背景下零次数字化检察文献在互联网上的来源主要有博客、微博、微信、维基、播客、论坛、内容社区等社会化媒体,本文主要以微博数据为例来阐述零次数字化检察文献挖掘体系(如图3所示),其原因在于:其一,微博用户基数大,由于功能便捷等特征,微博自其推出便得到了广泛应用,截止2016年6月微博用户规模已达到2.42亿,这是除微信之外其他社会化媒体无法企及的;其二,微博实时性强,与微信私密的社交属性不同,微博具有媒体属性,单向跟随机制使得信息的获取和分享更为便捷,从而加速了信息的流动,其实时性和现场感甚至超过了其他任何媒体;其三,微博信息可采集,通过网络爬虫技术和API接口方式用户可以获得所需的各类微博信息,相比之下微信由于点对点通信的私密性及对PC端支持的有限性,使其难以获得全面的信息。

  图3 零次数字化检察文献数据挖掘体系

  (一)发展脉络

  发展脉络以用户输入的和“检察”相关的搜索词作为关键字,通过“爬虫软件+API”接口的方式爬取得到微博数据后,对相关微博发布时间及地域分别进行分析,以了解微博用户对该和“检察”相关的事件关注程度随时间的变化情况,从而通过关注度的变化反推关键时间节点,找到其背后的影响因素。因此,研究学者可以得到事件关注度的时间走势分析和地域分布情况。

  (二)核心词汇

  核心词汇以用户输入的和“检察”相关的搜索词作为关键字,爬取得到微博数据后,对微博进行分词并提取相关核心关键词,然后按照用户指定时间间隔进行分析,通过情感倾向研究把握舆论动向及关键转向点。因此,研究者可以得到与查找内容相关的分段热词和全部热词。

  (三)博主类型

  博主类型是以用户输入的和“检察”相关的搜索词作为关键字,爬取得到微博数据后,分类统计微博博主在新浪中的用户类型,如个人认证、企业认证、机构认证或非认证用户等,并对各种类型的博主的相关微博数量进行统计,从而为分析不同类型微博博主,尤其是检察机构在舆论演化过程中起到的作用提供依据。因此,研究者可以得到与查找内容相关的微博博主类型、参与程度以及检察类博主参与度。

  (四)传播范围

  传播范围是以用户输入的和“检察”相关的搜索词作为关键字,爬取得到微博数据后,对微博博主的粉丝数以及该条微博的转发数分别进行统计,以便了解事件传播路径,对关键节点进行深入分析。因此,研究者可以得到与查找内容相关的微博博主粉丝数量排名和微博转发数量排名。

  (五)感染效果

  感染效果是以用户输入的和“检察”相关的搜索词作为关键字,爬取得到微博数据后,对微博的点赞数及评论数进行统计,以便了解不同博主的微博对粉丝的影响力。因此,研究者可以得到与查找内容相关的微博点赞数排名及评论数排名。

  通过对上述指标的统计分析,可以帮助研究者从多个角度了解一定和“检察”相关事件的发展情况,掌握舆论在人际网络中的扩散及变化过程,为理性分析事件、深入探寻机理提供文献基础。

  四、大数据背景下零次与非零次数字化检察文献的统一开发与应用——以“雷洋”案件为例

  对检察文献资源的整合与分析是开展检察理论和检察实践研究的基础和前提条件。在大数据时代数字化检察文献激增的背景下,研究者基于个人的、非专业化的,且针对有限文献资料的整理分析,往往导致研究学者在开展学术研究中一方面要从事大量的前期文献准备工作;另一方面其艰难探索的结果也未必准确,例如不同学者观点之间的冲突等。因此,图书情报单位应以零次与非零次数字化检察文献的统一开发与应用为核心,在实现各类数字化检察文献资源无缝链接的基础上,构建智能知识管理网络和个性化用户管理体系,为研究者提供由点到面、全方位、立体化的一站式文献综合服务。下面以“雷洋”案件为例来看数字化检察文献的统一开发与应用。

  “雷洋”案件件简介:雷洋,男,湖南澧县人,中国人民大学环境学院2009级硕士研究生。2016年5月7日晚,雷洋离家后身亡,昌平警方通报称警方查处足疗店过程中,将“涉嫌嫖娼”的雷某控制并带回审查,此间雷某突然身体不适经抢救无效身亡。[8]

  (一)以“零次检察文献数据挖掘体系”挖掘“雷洋”案件中不同主体涉及的核心法律词汇

  本文以“雷洋”作为关键词,利用爬虫软件并结合网站API接口,爬取2016年5月9日-7月3日新浪微博信息共329条,内容包括微博正文、发布时间、发布用户ID及昵称、微博转发及评论数等直接数据,并在此基础上进一步抓取所需的关系数据,如粉丝用户信息、转发或评论用户信息等。在获得上述数据信息之后,借助“零次检察文献数据挖掘体系”中“核心词汇”分析模块,对数据信息进行分词、清洗,可得到如图4所示核心词汇图谱,并将其按照主体进行初步分类后得到如表1所示的结果。

  图4 “雷洋”案件核心词汇

  表1 “雷洋”案件中不同主体涉及的核心法律词汇

  从表1可以看出“雷洋”案件中不同的法律主体以及其可能涉及的主要法律问题。借助“非零次检察文献数据挖掘体系”中“研究进展”模块下的“核心词汇”功能以及“零次检察文献数据挖掘体系”中“核心词汇”分析模块可以得到零次及非零次检察文献关于“雷洋”案件的核心词汇,进而为司法者及研究者理清“雷洋”案件所涉及的法律关系,查找相关文献提供关键词。

  (二)以“非零次检察文献数据挖掘体系”理清“雷洋”案件所涉“嫖娼”问题的研究发展脉络

  在“雷洋”案件中,如果研究者要研究“嫖娼”问题发展的历史脉络,就可以借助“非零次检察文献数据挖掘体系”除可得到“早期文献”、“最新文献”以及“经典文献”外,利用其中“分布概况”模块下的“年度发文量”及“研究进展”模块下的“核心词汇”功能可以得到关于这一问题历史关注情况,如图7所示。

  (a)年度数量分布及增长率

  (b)年度核心词汇

  图5 与“嫖娼”相关文献的历史情况

  图5表明针对“嫖娼”的问题研究在不同的历史背景下所探讨的重点不同,从而可以帮助研究者理清“嫖娼”问题的研究发展脉络。

  (三)借助“零次文献数据挖掘体系”理清“雷洋”案件的发展历程:为检察机关舆情监控及舆论引导提供参考

  在“雷洋”案件中借助“零次文献数据挖掘体系”可以更清晰的理清事件的发展历程,从多方位、多角度审视该案件。

  利用“发展脉络”模块下的“时间脉络”功能可以对新浪微博中的相关微博数量进行统计,得到如图6所示的结果。通过返溯微博内容可以找到推动事件发展的关键,如2016年5月9日雷洋事件首次曝光;5月10日微博上开始出现相关的报道;5月13日张惠芹教授担任专家证人;5月19日北京市公安局通过微博发布雷洋案情况通报;6月1日北京市人民检察院决定对涉案的警察立案侦查;6月8日北京检方通报案件最新办理进展;6月27日对雷洋尸体检验鉴定结论进行审查论证;7月1日北京市检察院第四分院公布尸检结果。

  图6 “雷洋”案件发展时间脉络图

  利用“核心词汇”模块,如图4及表1所示,可以了解舆论热点及走向。

  利用“博主类型”模块下的“全体参与度”及“检察类博主参与度”功能可以了解在事件发展过程中各类博主对事件的关注程度,如图7所示。

  (a)全体博主参与度

  (b)检察类博主参与度

  图7 “雷洋”案件新浪微博博主类型及参与度

  利用“传播范围”模块可以了解不同博主的影响范围以及不同博文引起的粉丝转发情况,如图8所示。

  (a)一次传播范围

  (b)二次传播范围

  图8 “雷洋”案件新浪微博传播范围

  利用“感染效果”模块可以了解不同微博内容所引起的互动情况,从而体现博主的感染力,如图9所示。

  (a)认同度

  (b)深层参与度

  图9 “雷洋”事件新浪微博感染效果

  借助上述数据挖掘结果,研究学者可以深入分析“雷洋”事件传播路径及舆论走向,从而研究不同博主、不同微博内容对舆论的影响能力,为舆情监控及舆论引导提供参考。

  结  语

  大数据对时代的影响不言而喻,其与检察理论与检察实践的融合趋势也逐渐显现,并带来了一系列新的问题和挑战。本文以大数据对数字化检察文献开发与利用的影响作为切入点,探讨了如何针对大数据特征与时俱进开发与利用数字化检察文献的问题。笔者针对这一问题的思考,主要着眼于战略路径及技术实现。然而,检察文献的管理、开发与利用离不开人、财、物的支撑,需要一批既精通检察业务又具有大数据思维、善于文献管理的复合型人才;也需要具有云存储和云计算能力的系统平台等。只有将检察文献开发与利用好,才能为检察工作科学发展提供更多的智力支持。

【注释】
[1] 维克托·迈尔·舍恩伯格:《大数据时代》,浙江人民出版社 2013年1月版,第1-10页。
[2] 丁春燕:《大数据时代法学研究的新趋势》,载《政法学刊》2015年第6期。
[3] 孟小峰、慈祥:《大数据管理:概念、技术与挑战》,载《计算机研究与发展》2013年第1期。
[4] Hey T, Tansley S, Tolle K. The fourth paradigm: data intensive scientific discovery [M/OL]. Microsoft research, Redmond, Washington (2009) http://research.microsoft. com/en-us/collaboration/fourthparadigm/
[5] 陈秀英:《网上零次文献:图书馆信息服务的新资源》,载《情报探索》2007年第12期。
[6] 梁作明:《图书馆为科研人员提供零次文献服务的方法探讨》,载《情报探索》2009年第10期。
[7] 石磊:《新浪API与网络爬虫结合获取数据的研究与应用》,载《中国电子商务》2013年第22期。
[8] 引自百度百科
        
        
      首都法学网       北京市高级人民法院       中美法律信息与图书馆论坛(CAFLL)
      国家图书馆       美国法律图书馆学会(AALL)       国家检察官学院
      中国社科院法学所图书馆       国际法律图书馆协会(IALL)       最高人民法院图书馆

主管单位:中国法学会  主办单位:中国法学法律网合作机制 技术支持:北大英华科技有限公司(北大法宝)
电话:010-82668266-152 传真:010-82668268
加入收藏 | 本站首页 | 联系我们
go