大数据观世 | 第7期：基于裁判文书网的大数据法律研究 - 学者观点

摘要：以裁判文书网为主的司法公开平台的建设为法律实证研究提供了司法大数据这一新型资源，使得大数据法律研究空间更为广阔。目前基于裁判文书网的大数据法律研究存在着技术手段不成熟、研究缺乏学术深度及创新性的问题，原因在于技术门槛要求严格、已公开裁判文书不能反映出真实的司法实践全貌及研究者未能跳出现有法律理论的先验框架。未来的法律大数据研究应当继续推进统计科学、计算机科学在研究中的深度运用、谨慎对待数据的缺失问题、采用多元化的研究方式，同时充分认识并利用大数据资源的创新潜力

基于裁判文书网的大数据法律研究：反思与前瞻

文 | 左卫民王婵媛原载 | 《华东政法大学学报》2020年第2期

引言

在大数据来临的时代，实证法律研究路在何方是值得研究的问题。整体而言，实证法律研究是一种更多流行于域外的新型法学研究范式，以经验性研究的样态区别于纯理论式的抽象观点构建。域外学者对实证研究方法论的探讨及方法的实际运用上都已相对成熟。透过美国实证法律研究会议[1]和实证法律研究期刊[2]的相关文章，可以看出其在研究中惯常使用全国范围内的抽样数据或者与研究主题相关的全数据，至少也是较大区域或范围内的局部数据或大样本数据。在中国法学研究领域中，虽然目前基于演绎的法教义学方法仍然占据着主流地位，但实证研究这种新的法学范式近年来也得到较多接受，[3]专注于实证研究的出版物[4]已经面世，以“中国法律实证研究年会”[5]、“法律实证研究国际学术会议”[6]为代表的实证研究学术会议也开始召开。然而，实证研究方法兴起之初，全国范围的、权威性的法律大数据尚未出现，国内研究者多倾向于自行收集特定范围内的小样本数据作为研究材料。

随着数据时代的到来，海量数据得以迅速生成并且可被获取。在司法领域，得益于中国近年来对司法公开理念的大力贯彻，司法大数据这一新兴的研究资源应运而生，异于传统实证研究的实证研究新形式正在因法律大数据的出现而成为可能。中国特有的司法大数据主要来源于以裁判文书网为核心的司法公开平台。最高人民法院（以下简称“最高法”）为充分保障当事人和公众的知情权、监督权，通过司法公开平台对审判流程信息、执行信息、庭审直播信息、裁判文书信息等数据进行了较多公开。其中，裁判文书网所发布的海量裁判文书是对中国司法实践全面貌、原始面貌最为具体和客观的反映。

毋庸置疑，大数据的到来为中国实证法律研究提供了新的契机，有可能推动实证研究的跨越式发展。首先，大数据的可获得性大大地丰富了实证研究的基础资料，扩展了研究主题的范围和格局。其次，对大数据处理的技术需求也注定会推动实证研究方法的革新，使其更加多元化、科学化。相应地，大数据研究所得的研究结论也会更趋向精确和客观。然而，目前基于裁判文书网的大数据法律研究在诸多方面还做得不够完善，研究者需重视有关问题，积极寻找并及时采取对策。对此，笔者拟展开如下论述。

裁判文书网：大数据源泉

中国法律大数据源自何时、何地是首先讨论的问题。在真正可被称为大数据的法律数据出现之前，传统的法律数据主要是由官方统一收集、发布并最后呈现出数字化、结构化形式的司法统计数据，这包括了中央及地方司法机关、统计部门的工作报告、法律年鉴、统计年鉴等。对此，易斐斐等在统计整理了2014年法院主动公开的国家和地方层面的司法统计数据公开情况后分析认为，司法统计数据存在着“数据不完整、数据公开渠道零散、统计口径不统一、数据公开不够连贯及时等问题，导致公开的数据无法形成相互贯通、可以互相比较的数据网络”。[7]除了上述不足外，司法统计数据对于开展数据研究的一大局限是其统计的基础数据如各种司法文书从未整体性地向社会公开，因此公布的统计数据实则缺乏中观、微观的个案数据源支撑，研究者难以得知数据的具体生成过程，这使得这些官方统计结果往往只能被用作宏观、粗略的趋势分析。加之官方制作的数据不可避免地带有一定的政治、社会治理及司法管理的考量，难以达到完全的客观中立。因此，上述缺陷造就了官方结构化数据与学术研究者所需的研究数据之间的差距，传统的司法统计数据难以充分满足学术研究对于数据客观性、严谨性、具体性等的需要。当然，最高法还通过指导案例的形式公开了部分个案信息。相比之下，指导案例虽然更接近案件的原始信息（包括基本案情、裁判理由及结果），但其仅是删减浓缩后的案件概述，可供研究者发掘、利用的数据信息极为有限。更重要的是，指导案例总体数量极少，迄今最高法只发布了100余例，对于数据研究者而言不过杯水车薪。

需要指出，真正的法律大数据的出现与最高法的改革举措直接相关。基于司法公开的理念，自党的十八大以来，最高法建成了四大司法公开平台，包括审判流程信息公开网、执行信息公开网、庭审公开网以及影响最为广泛的裁判文书网。

裁判文书网的建立与发展是最高法近年来大力推进裁判文书上网工作最为重要的成果。早在2009年3月25日，最高法便印发了《人民法院第三个五年改革纲要(2009-2013)》(法发〔2009〕14号)，提出要“研究建立裁判文书网上发布制度和执行案件信息的网上查询制度”。随后，最高法陆续发布了如《关于司法公开的六项规定》（法发〔2009〕58号）、《关于人民法院在互联网公布裁判文书的规定》(法发〔2010〕48号)[8]等规范性文件，对法院在互联网公布裁判文书的原则、范围、程序等作出了具体规定，裁判文书网的建立工作启动。2011年12月30日，最高法召开司法公开工作领导小组第一次会议，提出制定建立全国统一裁判文书网的工作规划。2013年5月8日，最高法在广西柳州召开司法公开调研会,就建立全国统一裁判文书网的方案设计向全国部分法院进行调研。裁判文书网建设进入设计阶段。2013年5月22日,最高法党组审议通过了“关于建立中国裁判文书网的报告”,明确在互联网建立名为“中国裁判文书网”的网站平台,统一公布全国各级法院生效裁判文书。自此，中国裁判文书网建设进入具体实施阶段。最高法在2013年6月28日通过中国裁判文书网首批公布了本院生效裁判文书50份。值得一提的是，2013年7月1日，《最高人民法院裁判文书上网公布暂行办法》正式实施，这是最高法第一个专门规范自身裁判文书上网公布工作的制度性文件。依据该办法，除法律规定的特殊情形外，最高法发生法律效力的判决书、裁定书、决定书一般均应在互联网公布。更重要的是，2013年11月12日，党的十八届三中全会通过的《中共中央关于全面深化改革若干重大问题的决定》中提到要“增强法律文书说理性,推动公开法院生效裁判文书”，从而为裁判文书上网确立了极为重要的政治依据。

在最高法统领下，各级法院也加入了推动裁判文书上网的队列。2013年11月13日,最高法审判委员会第1595次会议讨论通过新的《最高人民法院关于人民法院在互联网公布裁判文书的规定》(法释〔2013〕26号)[9]，要求自2014年1月1日起,法院生效裁判文书应当统一在中国裁判文书网公布，这是最高法第一次以司法解释的方式对各级法院在互联网公布裁判文书的工作进行全面规范。为了响应该司法解释的规定，2013年12月31日,全国四级法院开始同时向中国裁判文书网上传生效裁判文书,中国裁判文书网开始全面发挥统一公布全国法院生效裁判文书的平台功能。2015年6月，全国四级法院已经全部实现生效裁判文书上网公布，实现了案件类型全覆盖、法院全覆盖。[10]随后，最高人民法院在2016年对原有裁判文书网上公开的意见进行修订并发布了《最高人民法院关于人民法院在互联网公布裁判文书的规定(2016修订)》（法释〔2016〕19号）。新规定将原规定“依法、及时、规范、真实”的原则调整为“依法、全面、及时、规范”，突出了“全面”。在具体制度层面，新规定进一步扩展了裁判文书网上公开的范围，同时规定“不在互联网公布的裁判文书，应当公布案号、审理法院、裁判日期及不公开理由”。

由此观之，裁判文书网所公布的是除法定不公开或不宜公开的案件外，包括最高法在内的全国各级法院的全部生效裁判文书，包括了判决书、裁定书、决定书、通知书、支付令及小部分调解书。因此，裁判文书网的诞生与发展所带来的丰富的全国性数据与传统实证研究所使用的数据在数量级、广泛性上都不可同日而语。2017年8月23日，裁判文书网的总访问量突破了100亿次，当时累计公开裁判文书3247万篇。[11]而约两年后，截至2019年8月12日，裁判文书网文书总量已达到7439余万份，访问总量已超过了312亿次，文书总量及访问总量均成倍增长。

需要指出，除裁判文书网外的其他公开平台中，审判流程信息公开网是主要面向案件当事人及其代理人公开的查询案件、联系法官、接受电子送达的平台，这一平台对于社会公众公开的内容只包括法院地址、开庭公告、审判委员会组成人员等法院公共信息，信息量稀少且研究价值有限。而庭审公开网和执行信息公开网主要面向社会公众公开，这两个平台所公开的信息虽不如裁判文书网一般全面、充分，但也都可能成为大数据研究的潜在挖掘对象，作为补充数据源。执行信息公开网主要公开全国法院失信被执行人名单信息。2013年10月1日起，《最高人民法院关于公布失信被执行人名单信息的若干规定》正式施行。该规定实施后，各级法院开始依职权作出将被执行人纳入失信被执行人名单的决定。2013年10月24日，全国法院失信被执行人名单信息公布与查询平台面向社会开通，此即是后来的中国执行信息公开网。截至2019年8月19日，执行信息网已公布了失信被执行人名单约1495万例。而庭审公开网则是实现全国法院庭审视频统一直播展示最重要的平台。2016年4月14日，最高法公布了修改后的《法庭规则》，其中规定以下三种依法公开进行的庭审活动人民法院可以通过电视、互联网或其他公共媒体进行图文、音频、视频直播或录播：（一）公众关注度较高；（二）社会影响较大；（三）法治宣传教育意义较强。2016年5月，最高法院长周强对《关于推进我院与全国法院庭审公开工作基本方案的请示》文件做出批复，要求各个地方法院依托全国统一庭审公开平台切实加大庭审公开力度。2016年7月，最高法率先示范常态化庭审公开。2016年9月27日，中国庭审公开网正式上线运行。自庭审公开网上线迄今接近三年的时间内，最高法累计直播3000余件，全国累计直播次数已达420余万次，访问总量超过183亿次。

相较于传统数据资源，上述司法公开平台特别是裁判文书网具备以下特征：其一，数据的海量性。在裁判文书网投入运行之前，我国通过两高工作报告、指导案例、法律年鉴等形式公开的司法数据仅是我国司法全貌的冰山一角。相比之下，裁判文书网所公开的信息堪称空前之多。按照最高法相关规定，除了特定不能公开的案件外，其余案件都要在生效七天之内上网公开，且原则上是面向全社会公开。此种公开的力度是革命性的，在全世界范围内也不遑多让。[12]随着过往文书还在被陆续上传，裁判文书网的数据量迅速增长。例如从2014年裁判文书网刚开始启动一年的558万份，2015年约900万份，2016年约1000万份，[13]截至2019年8月已超过7439万份。中国裁判文书网目前已经成为全球最大的裁判文书发布平台，可以预期未来的文书数据量也将非常可观。空前规模的文书数据量为基于数据挖掘的实证研究提供了广阔、全面的学术资源以反映中国司法特别是审判阶段司法面貌。

其二，数据内容的丰富细致性。与传统法律数据粗疏、笼统的特点不同，裁判文书网等平台所提供的是以个案裁判为支撑的详细文本、视频数据，如案件的判决书、裁定书、完整庭审视频等，通过对案件原始信息的具体、充分的呈现使得多角度、深入化的数据研究成为可能。其三，数据的客观性和不反应性[14]。相对于统计年鉴、工作报告等经过了“精细加工”、潜藏了数据发布主体自身价值偏好的结构化数据，[15]裁判文书网的数据是由审判法院按照法律规定直接上传的案件原始文本，数据发布主体的价值偏好得以淡化，以此为基的研究更能保持其客观本色。另外，裁判文书一旦上传就可供研究者自由选择下载，不会随着研究人员的观察而发生内容或形式上的改变，即裁判文书网的数据还具有不反应性。其四，数据的可生成性及相应数据研究的个性化。尽管裁判文书网、庭审公开网甚或执行信息公开网本身包含的信息并非严格意义上的数据或一些研究者所称的定量化的数据，[16]研究者难以直接对其进行数理统计、分析。但是，研究者可以通过标签、编码等数据科学方法将判决文书、庭审视频中所包含的案件信息转化生成研究所用的定量化数据。研究者可以根据自己的研究思路、研究偏好有倾向地选取数据搜集的范围和方式，从而得出不同于官方数据、有别于官方角度的新型法律数据，进而为设计个性化、特色化的研究模型提供了可能。

笔者认为，以裁判文书网为载体的新型司法公开数据构成了当代中国法律大数据的基本源泉。[17]这些数据载体的上线不仅推进了阳光司法，更为中国的实证法律研究创造了前所未有的机遇。中国的法律大数据研究的广泛展开也肇始于裁判文书统一集中上网：在裁判文书上网之前，中国极少有真正的法律大数据研究，法律实证研究基本上是基于“小数据”，即研究者局部范围或特定领域内所自行收集的数据而展开的“手工作坊式”研究。[18]而裁判文书网这一全国性、公开、细颗粒的法律大数据平台的出现，使得研究者能够运用统计科学和计算科学手段将海量文书转化为数据，从而收获不同于官方大数据的新型法律大数据。这为中国法学研究打开了丰富的可能。

剖析：基于裁判文书网的大数据研究之问题及其成因

以大数据为主题的研究之外延不限于文中实际运用了大数据的研究，例如有学者关注法律大数据所面临的伦理规范等问题，[19]也有学者就开展大数据法律研究的方法论提出了有启发性的见解。[20]

本文所关注的大数据法律研究是指直接运用大数据来进行现象描述或理论阐释的学术研究。近年来，国内业已出现了不少直接利用裁判文书网等平台的大数据或大量数据开展法学研究的探索，其展开方式如下：研究者首先借助计算机软件从裁判文书网批量下载数据，对数据进行清洗后，根据研究需要挖掘裁判文书中的有价值信息，对其进行相应的数据分析。但现有研究存在以下的不足之处：

当前大数据研究的技术手段仍停留在较为初级的阶段。首先，现有的研究仍未完成对裁判文书充分的文本识别与信息挖掘。已公开的裁判文书具有海量性、丰富细致性、不反应性等多种有利于研究的特征，但如何将裁判文书转化为研究所需的数据是研究者首先面临的问题。当下最常见的大数据研究在裁判文书中所收集和挖掘的数据多是一些浅层数据、显性数据，比如当事人有无律师、文化程度、籍贯、年龄、被采取的强制措施等处在裁判文书特定位置、易于被抓取的数据，未涉及对裁判文书的主文分析。对上述要素的提取可以通过直接的关键词识别来实现，再对提取后得到的数据进行研究主题下的个性化分析。一个典型的例子是笔者对四川省2015-2016年一审刑事辩护率所做的大数据分析。笔者收集了裁判文书网和聚法案例网上共54409份刑事一审判决书，先讨论了四川省范围内的整体辩护率，大致把握了辩护率的整体面向，再以辩护性质、法院层级、审理程序、犯罪类型等分类指标对数据进行更加细致的差异分析。最后，通过考察被告人各身份指标下的不同辩护情况，笔者提出了刑事辩护资源分配上目前存在的“财富效应”现象。[21]类似研究还有王禄生基于对303万判决书大数据的自然语义挖掘，提取了研究所需的逮捕转非羁押率、不必要逮捕率、捕后轻刑率等个性化指标。[22]然而，在难度更大的深层数据、隐性数据比如原被告的主张及相应证据、法院的说理和判决结果等信息的获取上尚未出现充分有效的技术手段，也尚无研究者实现了对此类信息的大数据分析。

相应地，研究者对数据分析方法的运用也趋于单调。在面对大数据的整理与分析时，法学研究者大多“还不能科学、熟练地运用数理统计等分析手段与方法对问题展开统计学意义上的定量分析，更遑论在研究中进行数理模型的建构”。[23]法学实证研究在整体上仍以基础的平均数、频数、方差等描述性统计方法为首要工具，[24]这与当前经济学、管理学等学科的研究技术水平相去甚远。[25]描述性研究在对经验现象的特征勾勒上起到了重要作用，但在面对构建事物间的相关性甚至是因果性这类深入研究时便显得捉襟见肘。因为包括大数据法学研究在内的法律实证研究不应当仅仅是描述现象的工具，更需承担着揭示法律运作过程的规律、深度阐释事实背后的相关关系甚或因果关系的任务。

大数据研究的主题及结论亦缺乏应有的学术深度和创新性。数据的选取与分析跟研究的主题与展开过程息息相关。首先，浅层数据、显性数据所呈现出的只是司法实践的大致面相，无法实现对某一专门化研究主题的深入分析。除掣肘于所能挖掘到的数据类型外，研究者对主题的选取也很大程度上局限于已有的现实问题，试图通过数据分析的新角度对其提出解决对策。[26]其次，现阶段研究中的数据往往只是一个论证理论主张的理据，远非论理的基础或核心。由此，目前研究多是对数据的一种纯手段性的运用，即以数据分析结果来验证既有的命题，研究者仍多以主观性较强的学理性解释作为补充甚或主要的论述理由。质言之，一些研究成果都囿于既有理论的框架，数据无法发挥出导向性的作用，所得结论也略显老套，甚至浮于浅显笼统的数据结论，可能脱离于真实的司法实践，研究者鲜少能发现异于传统认知的客观事实，缺乏发人深省的问题揭示与理论思辨，更毋论建构以数据为支撑的全新理论了。

何以形成上述问题？笔者以为主要在于技术门槛要求严格、已公开裁判文书不能反映出真实的司法实践全貌及研究者未能跳出现有法律理论的先验框架三个方面。

其一，对当前的法学研究者而言，数据的收集、清洗、处理及分析等方面都存在着天然的技术门槛限制。法律大数据研究的核心在于对海量数据的价值挖掘、处理，研究者掌握与运用相关技术方法的能力在很大程度上决定了研究的深度与层次，而在数据运用方面的薄弱可能导致研究结论流于肤浅甚至产生谬误。可以说，与数据打交道的必要步骤为大数据法学研究设定了先天的技术门槛，但传统的法律研究者很难娴熟掌握统计科学及计算机科学的新技术。上网裁判文书量的巨大决定了研究者自然不可能以手工下载的方式一份份收集文书。基于大量数据获取的需要，研究者已经开始使用爬虫软件等方式抓取数据。但由于通过网络爬虫系统获取裁判文书网数据的行为会造成网站负荷过大、影响正常用户的访问，最高法成立的专门运维保障团队已采取验证码等多种方式上线系统软件防爬功能，不断加强“反爬虫”技术，使得研究者获取大量数据的过程愈发艰难。[27]而文书的获取只是大数据研究的起点，爬虫软件所抓取的文书是典型的无标签非结构化数据，其中包含了大量重复文书、空白文书等“脏数据”，需要再次进行数据清洗。数据清洗的目的是为挖掘提供准确而有效的数据，因此需要过滤或修改不完整的数据、错误的数据和重复的数据等。数据清洗可以采用最简单易行的方法，即删除或忽略缺失值，但这伴随着损失样本量、统计功效弱的缺陷。更为精细的数据清洗方法还有插补、均值插补、离群点分析等，[28]这些方法的恰当运用要求研究者具备一定的统计学与计算机科学基础。更为重要的是，非结构化数据还需要经历被转化为结构化数据的过程。如前所述，研究者对裁判文书主文的内容挖掘程度尚浅，但更具研究价值的大多是不易于被提取的深层指标。法律文本挖掘的困难来源于实践中司法表达的极其丰富性加之法律规则及体系的不断变化性。正因于此，现实中部分研究者仍在采用逐份手工统计的办法来进行数据资源的挖掘。[29]这种耗时耗力的原始数据挖掘方法极大增加了数据研究的成本，只能适用于小数据样本的信息挖掘，但大数据时代海量的材料与数据决定了研究者难以再亲自、逐一地审阅、统计和分析。最后，研究者需要对处理后的数据内容作出分析。在这一步骤中，多数研究者仍停留于描述性的数据分析为主的阶段，往往停留在经验性地描述研究对象特征的层面，对因果关系的分析也只能作传统的推测性演绎，很少有研究者能够使用统计软件与统计学分析方法如断点回归、双重差分、匹配等对数据资料进行精确的定量分析。而随着大数据研究的深入和复杂化，更加专业化的机器学习与算法应用等工具也将进入研究者的视野。

其二，目前所公开的裁判文书只是全国范围内有缺失的数据，其缺失既源自数据公开渠道的限制，又源自数据公开范围的限制。一方面，裁判文书网（包括庭审公开网、执行信息公开网）是以法院为中心的信息公开，这一公开渠道对司法实践的反映是有限的。裁判文书网公开的信息主要是诉讼型信息、法院审判信息。而其余关键的程序过程如警察的侦查过程、检察院的起诉过程、法院庭审前后的过程都没有公开的、正式或非正式的文字记录，更遑论在此基础上的数据化了。而庭审公开网则仅仅是部分案件庭审阶段的视频数据。执行信息公开网提供的则主要是失信被执行人等的身份信息。另一方面，在公开渠道单一、公开阶段特定的框架下，数据仍存在一定程度的范围缺失，体现为随机性缺失和系统性缺失两类。系统性缺失的数据是法律规定不能公开或不宜公开的案件，如未成年犯罪案件、涉及国家秘密的案件等。[30]笔者之前关于刑事辩护率的研究发现，在法定不上网的刑事案件中数量最多的可能是未成年人犯罪案件，至于涉及国家秘密的案件、调解案件以及其他不宜在互联网公布的刑事案件数量很少。[31]而根据以往《中国法律年鉴》的数据，未成年犯罪人约占全国当年全部犯罪人数的5％-10％。[32]因此，上网裁判文书所涉及的案件类型并不全面。随机性缺失的数据则是依据法律规定应当上网公开但由于种种原因没有上网的案件，包括但不限于尚未生效的案件，比如提起上诉、抗诉的案件等。这些案件尚未上网，但却会被计入当年结案数。此外，随机性缺失的数据还可能包括由于工作滞后而上网不及时导致的晚公开案件等。[33]因此，数据随机性缺失的程度与负责实际数据传输的各个法院及有关工作人员的工作落实情况息息相关。基于上述原因，从整体数量上看，裁判文书网已经公布的裁判文书数据并不完全具备全样本特征：公布文书数量与实际结案文书数量相差较大，数据缺失问题相当严重。有学者对于全国法院2014年和2015年的裁判文书上网所做的统计显示：按省份看，上网裁判文书占实际结案文书比重最高的达78.14％（陕西），最低的仅为15.17％（西藏）；最高法在上述两年的上网裁判文书仅占其实结案件量的46.13％，这一比重与全国的总体情况大体持平。[34]截至2019年7月6日，四川省的法院在2017-2018年间的裁判文书上网约143.82万份，而根据四川省高级人民法院工作报告，2017-2018年间全省共审结案件216.79万件，[35]再考虑到每一起案件可能会同时具有判决书、裁定书、决定书等多份文书，这些审结案件所生成的裁判文书总量当然更远远多于216.79万件。综上而言，现阶段中国法律大数据整体上是以裁判文书网为主要来源的官方化、半结构化或非结构化的大量数据，实质上只是全国法律领域内的有限的、角度特定的数据。由此，“现实中的大数据”往往是有缺失的大量数据。若研究者意图开展反映我国法律和司法实践全貌的研究，则面对的只是“残缺”大数据，无法以直接上网的裁判文书样本推论到整体样本情况。上网裁判文书在数量、地域、案件类型等各个方面的偏差也决定了特定范围的数据研究也不一定能够获取到有代表性的全样本数据。而过往的数据研究经验已经表明未经调整的不具代表性的数据极有可能导致错误的结论。[36]

此外，裁判文书本身就是一种不完全的记载形式。当我们说已公开的裁判文书不能反映出我国司法实践的全貌时，不仅仅是在谈论裁判文书当前有限制的公开范围和公开数量，同时也是在强调裁判文书这一信息载体的本质缺陷。换言之，裁判文书不可能精确地记录下司法实践中影响法院审判案件的所有法律或非法律的因素及其在司法实践中真实的作用效果。白建军对裁判文书背后可能存在的司法潜见作用的大数据研究就是一个很好的揭示。[37]因此，我们在面对单个的裁判文书尚会存有这样的疑问：是否所有与案件相关的因素都在裁判文书中被提及了，有哪些因素可能被遗漏？会不会非法律的因素被包装成为法律的因素继而被呈现于裁判文书之中？是否文书中频繁提及了的内容一定是相对重要的？这些问题都是单薄的一纸文书无法向研究者提供答案的。可以说，裁判文书必然带着一定的“欺骗性”，过于依赖和偏信裁判文书信息可能会产生如下的问题，第一，忽略文本之外的其他相关要素，第二，非法律的要素被包装成法律要素并被研究者提取，第三，错误认识文本中某些要素的重要程度。裁判文书中存在的偏见和错误如果未被重视并加以纠正，在经过数据处理后会被保留甚至放大，并最终导致研究结论不同程度地偏离于客观的司法实践。

其三，国内研究者尚未摆脱先验法律理论框架的束缚。当下大数据研究展开的方式都以文本识别与挖掘为起点，所提取的裁判文书中的要素多是法律意义上的关键要素、重要的法律特征，比如犯罪构成四要件、定罪要素和量刑要素等。就算在一些深层指标如争议焦点的提取上有了机器学习的介入，但所使用的都是有监督的机器学习，在设计者所给定的先验框架下完成特定约束条件下的识别。因此，研究者不免带着先入为主的提取假设甚至研究假设，这使得国内现有的数据研究大多属于“理论导向”，即工具性地运用数据来验证既存的理论，而未将利用数据研究发现新现象、打造新理论的努力付诸实践。加之现有研究普遍缺乏较为精细的数据处理模型与严密的理论阐释体系，多是对各种法律数据的简单归类统计，因此能从数据直接分析得出的客观结论不够丰富，这使得仅仅作为论据的数据结果也远非严谨精确。大数据的潜力不止于此。实证研究的出现已架起了传统法教义学的话语与司法现实语境之间的桥梁，而司法大数据资源的涌现则使得现实中的图景更加清晰细致。面对海量、免费的大数据资源，我们更有可能从中获得全新的信息、知识，极大扩展法学研究的范围与领域，生产出“数据导向”的学术研究成果。但国内的研究者们尚停留在对大数据的初浅运用阶段，在官方话语、法律概念和传统法律理论的束缚下，既未意识到大数据丰富的待挖掘价值，也未能掌握处理大数据的科学方法，总之未能展示出以大数据重新认识法律实践、挑战权威法律理论的信心与能力。这种理论雄心与能力的相对短缺可能会使国内的大数据研究共同体较难走出当前画地为牢的困境。与此同时，部分国外学者开展的研究很值得我们参考与借鉴。如Holger Spamann及其合作者通过实验数据揭示了新现象，即判例法国家的法官在判案时反而比大陆法国家的法官更少受到既往先例的影响，且法官们还会不恰当地把与法律无关的因素纳入考虑。[38]虽然研究者尚未对这一意料外的实验结果提供理论上的解读，但类似事实的发现与人们的常识和传统认知大相径庭，必定会引发学界深入的追踪与探讨。更进一步地，Alexander Stremitzer及其合作者基于新现象的发现，构建了一种新理论——与传统的“取法于上，仅得为中，取法于中，故为其下”[39]的说法刚好相反，Stremitzer的研究表明设定要求过高的规则反而会收到适得其反的效果，而中规中矩的规则能收获更好的实施效果。[40]上述研究向我们展示了数据具有跳出既有观点与理论框架的束缚、直接揭示出客观世界隐藏面向的巨大潜力，这正是实证研究相较于法教义学所更具客观性、科学性的一面。

展望：如何更好地利用大数据开展研究

尽管存在问题，法律大数据研究毫无疑将成为一种引领未来的法学研究范式，学者们须将这面红旗坚定地打下去。未来的大数据研究应从以下四方面展开。

其一，不同于传统法教义学的展开方式，对数据处理技术的需求始终贯穿于大数据研究的各个流程之中，因此研究者需继续推进统计科学、计算机科学在研究中的深度运用。在数据收集、挖掘、整理、分析等方面，法学研究需要成熟的统计方式和数据科学方式，以期达到最大程度的客观及精确。在数据选取与收集上，研究者可以充分运用统计工具对非全样本数据进行调整，并甄别大数据或大量数据的有效性、真实性。而在数据挖掘阶段，正则表达式依然是被最广泛运用的方式。该方式在处理高度规整的文书表达时具有很强的准确性，如从海量文书中自动提取辩护人的数量、身份等表述高度一致的数据。然而,正则表达式在面临高度多元化的表达时，由于无法穷尽表述，就多少显得力不从心。例如，自首也许在文书中并不会以“自首”的关键词出现，而是以“家属扭送”等诸多样态的语词呈现，此时就需要用自然语义识别技术(NLP)，而此类技术已经开始出现在国内研究中。[41]在如何分析、判断数据之间的相关性和因果关系上，也应涌现出更多的方法与技术。[42]例如，张永健以量化的法系研究方法论，以具体而数量庞大的标准（170个），关注于一个部门法（物权法），采用新的统计方法画出了世界128个法域的物权法的法系树形图，进而考察了不同法域的法律之相似度。[43]在数据分析领域，推进主观性较强的臆断式分析转向客观性更充分的科学性研究，才能实现从“软科学”到“硬科学”的转型。

值得未来的研究者高度重视的是，与统计学相关但又颇为不同的机器学习方法也正在崛起并被运用于大数据分析之中。当现有的分析工具和统计手段已无法满足大数据的处理需求时，人工智能这一不断进化着的新型技术工具便登上了舞台。其通过对巨量数据进行智能筛选和算法分析，可以实现对海量数据分析效能的显著提升。例如布卢门斯托克及其同事就在其研究中创建并训练了一种能够预测150万名用户在调查中会做出何种答案的机器学习模型。[44]还有国外学者在其研究中运用了决策树、迭代算法等机器学习算法，有效地解决了逻辑回归等传统计量经济学工具所不能解决的数据处理问题，并最终得出了作出假释决定的精确机器预测模型。[45]

其二，研究者应当正视并谨慎对待现有数据资源的缺失问题。受限于各种客观条件，获取包含国内司法全样本的大数据只是一种奢望，仅有大量数据而非全数据可能是中国法学研究者在很长一段时间所要面临的窘境。但大量数据也是法学研究的重要材料，值得高度重视与充分利用。换言之，研究者通过裁判文书网等平台所能得到的样本必定无法直接代表总体的属性。但许多大数据资源其实都不具有充分代表性，不具充分代表性的数据对有些研究目标而言显然不适用，对另一些研究目标来说却可能正中挈领。

在利用裁判文书网进行研究时，研究者在了解数据偏差情况的前提下，可以适当缩小研究范围，并限定研究对象，确保在有限的数据条件下尽可能地收集、获取某领域、某区域或某类别相对完整、具有一定代表性的真实数据，开展特定区域、种类、问题的全样本数据研究。但即使是在特定范围的研究中，研究者也无法获取到研究目标所需的完美数据，这是因为系统性偏差和随机性偏差在任何数据样本中都无法被完全杜绝。但若辅之以一定的技术手段对不完整数据进行调整及修正，数据缺失带来的问题便可以通过研究者合理设计的数据处理和分析手段得到有效解决。一方面，研究者可以基于对数据的样本内比较，将样本内的研究结果泛化到抽取样本的总体目标上。例如国外研究者使用了明显非随机的样本——由Xbox（一款微软游戏机）的美国用户组成的偏男性化、年轻化的非概率样本。在对这一看起来非常不理想的样本的评估过程中研究者对非随机抽样过程进行了调整修正，尤其是利用了事后分层的技术，即利用关于目标总体的辅助信息对样本进行分组进而加权结果。简单来说，研究者将抽样总体分为组内每个人的回答倾向都相同的同类组。换言之，如果所有男性具有相同的回答倾向，所有女性具有相同的回答倾向，那么根据性别的事后分层便能产生无偏差的评估结论。最终，该研究正确预测了2012年美国大选的结果。[46]

另一方面，研究者还可整合多个数据资源，以达到数据间的查漏补缺。具体而言，当仅通过裁判文书网这一主要数据来源无法获取研究所需要的完整数据时，研究者便可以考虑转向其他的数据源，如传统的司法统计数据、非官方的案例检索工具和非官方机构建立的数据库等。例如笔者在以往研究中面对上网判决书数据存在系统缺失的情况，便综合考虑了裁判文书网以外的多方数据源对未上网案件的统计结果，在已知数量的上网案件的基础上，再加权考虑了所有未上网案件的估算值，代入公式计算，从而最终得出了S省的全局辩护率。[47]国外学者安索拉比赫和赫什在其研究中采用了更为复杂精细的数据整合过程。他们将Catalist数据中的投票记录和社会调查数据结合链接成为更大的主数据源，再基于该主数据源分析了投票行为与投票者属性间的相关性，而这两种基础数据源对于研究而言都缺一不可。[48]

其三，采取多元化的研究方式，如大数据与小数据研究方法的融合，以填补文书数据与司法实践间的罅隙。裁判文书只是一种不完全忠实于司法实践的文字记录。因此，基于裁判文书的大数据法学研究应以多种方法展开，而非只立足于单纯的大数据解读。数据分析在进行整体性描述时独具优势，但其缺陷在于单体价值低，甚至会忽视个体。且大数据往往更会忽略数据背后的政治、社会及司法制度等多重背景，在样本分析时无法做到如“深描”般充分细致，往往不足以反映研究对象的全貌、深貌。长期以来，基于小数据的法律实证研究一直是主流研究方式，研究者一般通过调查和深度访谈来获取定性数据。研究者对于小数据内容的挖掘和分析往往得益于其内容的细致和有用，而得以深入到极致的程度，这种研究方法因而具有不同于大数据研究、但同样重要的学术价值。因此，大数据研究的来临并不会彻底取代小数据研究。当下的大数据研究在数据不足、技术运用不深入的情况下，更应该与小数据研究相结合，共同验证研究结论。一方面，小数据研究的精细化思路与方法能够将大数据研究细致化，另一方面，大数据资源的丰富性则会提升小数据的科学性。两者相辅相成，共同提升了研究的价值。这就要求研究者不仅要留意裁判文书背后的隐藏信息[49]，也要走出裁判文书数据，主动地、有目的地收集小数据，进行相关访谈，以核实、校正大数据背后的信息。如笔者曾在对非法证据排除规则的实证研究中得出了法庭对所涉证据的合法性进行调查的案件占申请案件数的40％-50％这一数据，即在约一半左右的案件中法庭并未开展合法性调查。在对法官进行访谈后，笔者发现隐藏在该数据背后的一个重要原因是现阶段法官不希望被告提出排非申请，因此实践中倾向于通过“做工作”的方式劝解当事人不申请或撤销排非申请，即使提出申请法官也只是酌情进行调查。[50]在其他多次实证研究中，笔者也都采用了类似的当面访谈的调查方式。[51]

其四，应当充分认识并利用大数据资源在发现新问题、创建新理论上的潜力。大数据研究并不等同于数据统计的经验式研究，缺乏理论深度的事实性描述、脱离了抽象理论的数据调查与乏味的调查报告无异，远非学术研究所追求的终点。因此，我们应当重新审思数据与理论之间存在的张力。大数据法学研究首先是实证研究的一种新形式，关于实证研究的意义探讨对于我们理解大数据研究有一定的启发。如域外学者Fischman曾阐释过实证研究对于法学理论发展的重要意义，他指出，重要的实证研究能够引导法律改革，或能描述重要的、与法律有关的现象，或有助于理论之发展。[52]有的国内学者则具体举出了法律实证研究可能的四种法学作用：一是作为规范论证的实然基础；二是衡量法律的实效；三是描述法律论证与法律现象；四是发掘法制度相关行动者（如法官、律师）的行为模式。[53]换言之，实证研究所依赖的经验事实在被用于对法律现象或规律的阐释之基础上，也潜在地为后续的理论构建提供了充分客观的理据。大数据研究同样具有上述意义。

更重要的是，以司法大数据为基础的法律实证研究还具有传统的实证研究所不具有的独特价值，其具有的种种特征，如信息海量性、连续性、权威性及中立性等为自身赢得了相较于以往实证研究更为巨大的潜力空间，开拓了法学研究最前沿的问题域。如大数据所具有的空前规模这一特征便使得法学研究不再拘泥于传统的研究对象和素材，某些类型的研究也因此成为可能，例如对稀有事件的研究、对细微差异的发现等等。于是我们完全可以在未来的大数据研究中考虑这样一种新的思路：借助数据来发掘现实中的新问题，而非以既有问题为出发点甚至直接预设研究结论。一个很好的例子是国外学者使用了主题模型（topic modeling）这一无监督机器学习技术分析了从裁判文书网上获取的20321份河南省法院行政庭裁判文书。以往的官方的统计数据，即中国法律年鉴只将行政诉讼案件划分为12个基本类型，无法反映出案件中的诉讼主张或涉案当事人类型等信息，而他们研究中所使用的主题模型程序自行将样本案件划分出了4个大目录下的50个小主题。在分析了各案件主题出现的频率及其彼此间的联系程度，并对部分裁判文书进行了细致研读之后，他们发现了一些无论是官方数据、新闻报道或是过往学术研究都不曾揭露过的现象和问题：如传统观点只是主张典型的“民告官”案件在行政诉讼中占比重较大，而他们的研究除证实了这一点外，还发现政府本身也是率先触发行政法的积极使用者；如在22个小主题中都呈现出一种“案件串”（cases strings）的奇怪现象，即同一主题下有多个代表性案件实则涉及的是同一个争议事件，例如在交通罚款这一主题下，有10个典型案件都牵涉到同一原告对由郑州交警大队所罚一系列款项所提起的诉讼；还比如在河南省范围内由企业提起的行政诉讼及有关环境污染的行政诉讼案件数量都一反常态的稀少。在此基础上，他们总结道，主题模型这一无监督的机器学习工具不仅可以帮助我们“质疑及修正被广为接受的观点”，还能很好地“激发研究问题”。[54]质言之，大数据如果以恰当的方式被研究者所收集并充分挖掘其价值，数据分析结果便极有可能呈现出客观世界中尚未被揭露的真实及其隐藏的规律，由此，既有的理论可以被验证或是推翻，新的理论突破会在崭新的经验事实基础上产生。

纵观学术发展的历史，隐藏在一座座令人叹为观止的学术高峰背后的是学者们一步一个脚印的攀登。作为新兴的法学研究范式，大数据法学研究一方面为法学界打开了一扇潜力无限的大门，一方面也考验着进入者迎接挑战的能力。面对着裁判文书网等大数据平台为中国法学研究提供的空前机遇，研究者不妨紧跟时代，大胆尝试新的研究范式，在挫败中寻求改良，在变革中推陈出新，共同促进大数据法律研究欣欣向荣的发展。

*为便于阅读，删减了参考文献等注释内容。

————————————————————————————————————————————————

萌泰数据是社会科学领域知名数据服务商和科研教学工具厂商，面向社会科学教育实践、学术研究和社会服务，提供一体化数据解决方案。目前旗下包括“锐研”和“智社”两大子品牌。

“锐研”是萌泰数据旗下社会科学专题数据库及科研服务平台，旨在为学者和科研人员提供专题数据库和科研数据采集与分析服务，以及各类社会调查研究方法工具支持。旗下产品包括五大特色数据库、三大指数产品、六大社会调查研究工具以及智慧蜂众包任务平台等科研服务产品。