以法律大数据构建法律职业的新型关系

2017-01-23 23:56蒋勇

中国应用法学 2017年2期

蒋勇

不久前在中央政法委举办的第四次“百万政法干警学习讲座”上，阿里巴巴董事局主席马云先生做了题为《科技创新在未来社会治理中的作用》的发言，提出“未来的政法系统，是离不开互联网、离不开大数据的”，并且生动地描画了大数据在未来社会治理中的应用场景。孟建柱书记在讲座结束后发表了重要讲话，明确指出：“以大数据为代表的科技革命，不仅已改变我们所做的事情，而且将改变我们自己，改变我们认识世界、改造世界的方法。面对大数据，如果思想观念还停留在过去，就会落后于时代。”在这样的时代，充分认识大数据对法律行业的意义，积极利用大数据带来的新思维、新方法来推动行业的进步已经刻不容缓。

一、什么是大数据

所谓大数据，是一种规模大到在获取、存储、管理、分析等方面都大大超出了传统数据库软件工具能力范围的数据集合。大数据这个概念，是2012年以后才逐渐兴起的。但在此之前，大数据其实就已经广泛地存在于我们的工作和生活中，超大规模的数据也并不鲜见。大数据之所以会受到如此大的关注，核心其实并不在于数据的量，而在于数据的产生方式。

此前，数据的产生往往依赖于主动的采集。我们需要不断地统计和录入，才能建立起一个大型的数据库。这样的数据库建成之后往往是封闭的，它的应用场景十分有限，数据的更新速度也十分缓慢。

大数据的产生是与互联网的发展紧密相关的。随着互联网，尤其是近几年来移动互联网的发展，网络变得无所不在，人们越来越多的行为都在线上进行。而从互联网技术的特点来说，从最基础的TCP/IP协议和路由，再到http协议和超链接，它们天生就会让数据“沉淀”。因此，我们在互联网上的每一个动作，即使是一次小小的点击，也会“自然沉淀”为数据，留下痕迹。而随着我们在线完成的行为越来越多，沉淀下来的数据自然也会呈现爆发式的增长，成为真正的大数据。〔1〕王坚：《在线》，中信出版集团2016年版，第251-252页。

可见，大数据的产生并不需要人工采集，而是一个“自然沉淀”的过程。它也并非我们对某一类数据的刻意挑选，而是人们所有在线行为的数据体现。正因如此，阿里巴巴技术委员会主席王坚博士在《在线》一书中说，大数据的核心并不在于大，而在于在线。〔2〕前引〔1〕，王坚书，第 39-45 页。

更重要的是，云计算在近些年的发展让更低成本的强大计算能力成为可能，使得我们可以真正拥有计算和分析这些数据的能力。一方面，我们可以根据数据分析用户的行为，从而给出反馈。比如，根据对用户阅读数据的分析，新闻网站可以了解每一位用户的阅读兴趣，实现根据兴趣的智能推荐。另一方面，我们甚至可以从大数据中分析人们过往的行为规律，预测未来将会发生的事情。比如说，通过对国际贸易数据的分析，从第一天买家询盘开始，就可以预测会发生什么。今天询盘的人越少，未来12个月的出口肯定也越少。可以说，在未来的世界，数据将成为最重要的生产资料，对它的进一步挖掘和分析对于指导我们的生产和决策至关重要。

二、什么是法律领域的大数据

提到法律领域的大数据，我们最容易想到的是由上网公开的千万数量级的裁判文书构成的案例大数据。通过对裁判文书进行“解构”，挖掘出其中的数据段和规则，机器就能够读懂文书，在不同的裁判文书的数据中发现规律。当机器能够理解我们的规则，它就能根据它所理解的规则推导新的规则，或者至少依据规则对新出现的事物作出判断。

其实，通过前面对大数据的分析，我们可以知道，裁判文书的上网公开是裁判结果的在线化，而在它之前和之后，无论是当事人的起诉、律师提交代理意见，还是裁判执行的过程，所有司法过程都有可能成为法律大数据的宝贵来源，只要它们也被线上化。

可以说，线上公开的一切司法过程其实是法律大数据的构成部分。我们每一位法官、检察官、律师每一次对键盘的敲击，其实都是在生成法律大数据。所有能够线上化的东西都有可能被数据化。

不过，由于司法过程的线上化是一个需要被持续推进的过程，整个社会生活的线上化发展也有待深入，许多和司法相关的行为尚未被数据化。但裁判文书的上网公开已经为司法过程的线上化开了一个很好的头，并且取得了很好的成果。我们看到，截至2016年8月16日，中国裁判文书网公开的裁判文书数量超过了两千万份，中国裁判文书网已经成为全球最大的裁判文书公开平台。〔3〕人民网：《公开文书超过2000万篇中国裁判文书网全球最大》，网址：http://politics.people.com.cn/n1/2016/0831/c1001-28678786.html，2016年12月5日访问。

因此，我们不妨以裁判文书上网公开形成的案例大数据为主要对象，分析法律大数据在构建法律职业新型关系上可能发挥的积极作用。同时我们也可以想象，随着司法过程线上化的深入，越来越多的法律大数据资源将在线沉淀下来，从而发挥更大的价值。

三、法律大数据对法律职业的积极作用

总的来说，我们认为包括案例大数据在内的法律大数据可以从以下三个方面对律师职业及法律职业共同体产生积极作用。

（一）提升工作质量和效率

法律人的工作主要依赖于个人的知识和经验，对工具的使用不足，效率也普遍不高。建立在大数据基础上的工具可以为法律人的工作提供智能辅助，大幅度提升法律人工作的效率和质量。

第一种工具是文书的自动在线生成。这个文书自动在线生成要能够异地编辑，能够多人协同修改，甚至能够时时在线更新。它跟很多人现在正在使用的一些自动模板生成工具有所不同。

第二种工具是相似案件的推送。目前法律人需要主动搜索案件，但是从数据技术上来说，系统可以通过对裁判文书的解构，实现更精准的关键词匹配，甚至可以判断裁判文书之间的相似性程度，自动向用户推送与他关注的裁判文书类似的其他裁判文书。更进一步地，当用户向系统上传新的案件的基本信息，系统将可以通过解构和初步标签化处理，自动推送相关案件和法律法规。这方面，目前我们的“无讼案例”已经实现了这些功能。

第三种工具是对案件结果的预判。在大数据的帮助下，可以由系统自动找出相似案例，并且分析以往案例的裁判结果，从而给出对当下案件的预判情况。这样的案例数据基础更为全面，也会比人工的判定方式更加准确。同时，它将在第一时间呈现预判结果，这既可以帮助律师合理引导当事人的预期，也可以帮助法官更好地实现同案同判。

第四种工具是辅助制定诉讼策略。除了通过提供审理法官的相关观点、最新审判的价值判断等信息，为争议本质提供新的洞见之外，大数据还可以辅助判断证据材料的可采纳性程度。只要将证据材料与待证事实之间的关联关系作为标签，对这种关联关系是否成立进行大数据分析，评估证据与案件事实间的关联关系，就可以辅助法律人预判证据被法庭采纳的可能性大小。

第五种工具是工作风险预警。大数据工具并非只是单独的互联网工具，而是会被嵌入到法律人的工作流程中。当法官做出的判决与过往判决情况不符，当其他诉讼参与人提交的证据清单与该类案件的过往证据提交情况不符，系统都可以自动发出预警，提醒法官和其他诉讼参与人对内容进行进一步确认。

在“超级数据”+“超级计算能力”的基础上，能够发展出人工智能。2016年10月，在杭州市政府和阿里巴巴联合举行的“世界最大开发者大会——云栖大会”上，无讼发布了中国首个法律人工智能机器人，命名为“法小淘”。它利用阿里云技术底层架构，结合我们积累的法律的大数据，包括案例数据、法规数据、文章咨询、企业相关数据和法院公开的数据，以及律师职业数据等等，辅以机器学习的算法，对自然语言文本进行结构化处理以供实务中的应用。它未来可以应用于智能案情分析，包括智能律师遴选，以及智能诉讼的辅助。

如果这些工具和技术得到广泛应用，许多此前困扰司法健康发展的难题也将得到解决。例如，“案多人少”的问题，在经济“新常态”下，诉讼案件数量的爆发性增长与不可能持续增加的法官人数之间的矛盾是一直存在的。只有通过技术手段帮助法官提高工作效率，这个问题才会真正得到解决。又如，“同案同判”的问题，要想让每个法官熟知浩如烟海的过往判例，本就是难上加难的事。如果不辅以科技手段，实现同案同判几乎是一个不可能完成的任务。在全面实行主审法官制后，同案不同判的风险甚至会越来越大。但在大数据的帮助下，对于同案不同判的案件，法院可以形成一套预警机制，在判决出台前就及时发现，并且对偏离者做出裁判预警，促进“同案同判”的实现。

（二）健全法律行业的评价体系

对律师行业而言，律师评价体系是最重要的基础设施：由于法律知识的专业性，法律服务的受众对律师能力没有足够的判断力，其对律师的选择必须依赖于外界提供的评价。可以说，评价体系是法律服务市场供需对接的基础，从根本上决定了资源配置的走向。

然而，律师评价体系的建立却一直是律师行业里的一个难题。从律师主管机构的律师评级到一些市场机构发布的榜单，无一不因为样本的不全面和数据的不客观而或多或少地面临争议。有说服力的律师评价体系一直未能建立，这成为了制约行业发展的重要瓶颈。

但是，法律大数据可以为律师的评价体系提供更为客观的评价基础，从而在一定程度上解决律师能力的评价难题。例如，从公开的裁判文书法律大数据中，可挖掘出全国诉讼律师的执业信息，为每一位律师“画像”。随着公开信息的增多，这样的“画像”甚至可能扩展到律师的非诉业务。又如，从无讼阅读APP这样的法律内容社区的数据中，可以挖掘出律师们发表文章的情况，同行的评价与点赞则可以成为评价律师专业能力的重要依据。

除此之外，在法律行业里其实已经沉淀着一部分有关律师执业状况的数据：在律师行业里，司法行政机关和律协掌握着所有律师的注册信息、执业登记信息等基本数据；在法院系统里，也留存着律师的案件代理状况、提交的代理意见等数据；在教育机构里，留存着所有律师接受教育和培训的信息，只要整个法律行业的信息公开越来越彻底和深入，就可以采集到这一部分数据。将这些数据综合起来，就可以形成一个多维的律师评价体系。它是全面的，完全可以涵盖每一位律师；同时，它也是客观的，数据采集者的主观意愿可以被降到最低。

基于同样的思路，我们可以为其他法律职业人“画像”，从而实现对法律职业人工作经历和工作能力的客观评价。我们甚至可以在此基础上，建立法官、律师、检察官等法律职业人之间的交互评价机制。如果众多法官和律师在同一个互联网平台上，他们就可以相互“点赞”，相互评价。法官在发布裁判文书后，也可以在这个平台上对代理律师、检察官做评价，整个行业就会变得更加透明。

而一旦这样的评价体系得以形成，就可以在此基础之上更高效地调配资源。例如，由于对律师行业的不了解，当事人往往只能通过人脉网络找律师。这样的方式不仅效率低下，找到的律师也往往并非真正适合为其提供法律服务的最佳人选。当律师的能力能够被客观地分析和评价，就能精准地匹配当事人的法律服务需求与律师的专业能力，从而提升法律服务的质量与效率。又如，法官工作量的衡量一直是困扰法院管理的很大的难题。一个民事法官办几个离婚案件相当于一个商事法官办一个股权转让纠纷的案件？有些法院说，按小时算，让法官记录工作小时数，或者有些法院拿案卷的数量来算，考察法官的案卷有多少本，这些方法其实都是以偏概全的。基于大数据技术的评价将更加准确全面，从而更加科学合理地为法官分配工作任务，评定工作绩效。当然，这同样适用于检察院。

（三）完善法律职业共同体的关系

首先，法律职业共同体之间的协作配合将更为高效。虽然在线下，法律人供职于不同的机构，扮演着法律职业共同体的不同角色，但是在线上，法律人的工作平台将被互联网连接起来。每个人的工作进度都将更为透明地展现，协作和配合也将更加顺畅，甚至通过更多协作的开展创造更大的价值。典型案例的产生方式就是最典型的例子。过去法院典型案例的产生是权威发布式的，也就是由最高法院的大法官们参加的审委会来核定公报上的案例，在加工后作为指导性案例成批发布。互联网时代的去中心化和法律人的高参与度，会让典型案例的产生方式发生变革，从权威发布式转向维基百科（Wikipedia）式。例如，对于基层法院的一名法官而言，如果他觉得他办的某个案件非常有典型意义，就可以把这个案例发布一个法律专业人士的互联网平台上，其他法律人可以在这里点赞和评论。这个案例收获的点赞和评论越多，它的排名就越靠前。一个月下来，把这个平台上排名前10位的案件汇总起来，交由一个各方认可的机构审定，就可以作为典型案件被标注。其他人在搜索案例时会优先看到被标注的典型案例，以及各类读者对它的点评，就会认为它的典型性很强，进一步使用它。典型案例的产生是由去中心化的众多法律人共同完成的，就可以减少由于案例把关者的个人主观性而可能出现的偏差，也能在这样的互动中被内化为全体法律职业人的认知。

其次，法律职业共同体的行为将得到更好的监督。在过去，法律职业共同体观念的形成依赖于职业理念、行为准则和评价机制的引导。但是，信息的不透明带来了冲突和不信任，监督机制的缺乏也让灰色关系有了存在空间。法律大数据让法律职业人的工作全程留痕，从而起到更好的监督作用。甚至，法律大数据可以从细节中分析和预测可能出现的不当行为，及时提出预警。

最后，法律职业共同体对法律的共同信仰将被强化。对法律的共同信仰是法律共同体之所以存在的重要基石，但是在过去，法律之外的因素对司法的影响难以排除。而在线上的工作平台上，法律大数据可以为法律人的工作提供指引，甚至在偏差出现时及时提醒。对法律的共同信仰将因此被内化到法律职业人的日常工作中。

当这样的法律职业共同体成为可能，“法律人共治的法院”将真正实现。法院将不仅仅是法官的，而是由包含法官、检察官、律师在内的所有法律人共同运作和管理的法律服务平台。不同法律职业群体之间不再因为职业视角的不同而存在鸿沟和偏见，而是会在法律大数据的指引下，扮演好司法过程中的不同角色，共同推动中国法治的不断进步。所以，未来的法律职业共同体必定是一个线上线下融合的职业共同体。法律大数据是这个职业共同体共同的宝贵财富，也是它最坚实的基础。

四、形成法律大数据面临的困难

但是，我们也看到，要形成这样的法律大数据，还面临着一些困难，主要有以下三方面：

（一）数据采集方式有待提高

传统的数据采集以统计为导向，多靠人工录入。这样的方式既增加了工作量，也因为主观因素过强而存在数据不够客观，甚至存在数据“失真”的问题。即使通过传统的方式采集了大量数据，它也难以称得上是真正的大数据。真正的大数据应该来源于法律人在线行为的自然沉淀。事实上，人类社会的数据量之所以在近年来呈现爆发式增长，成为大数据，正是因为移动互联网的发展让人们越来越多的行为在线上完成了，而互联网技术的特点天生就会让数据沉淀。所以，准确地说，我们不应该去采集数据，而是通过推动法律人行为的在线化，让更多数据得以在互联网上沉淀下来。

（二）数据的完整程度不够高

一方面，目前数据公开的还不够全面。虽然这两年法院依托信息化和司法公开，向社会公开了裁判文书，但它实际上只是审判结果数据的在线化。审判过程数据等方面的开放程度还不够，法律大数据无法形成闭环。另一方面，现有法律大数据中的数据类别还不完整。相比法院，检察院、公安、司法行政机关的数据公开还有很大的发展空间，律师行业的信息化程度也远落后于法院。这种状态长期存在，十分不利于法律大数据的形成。

（三）数据不开放、不贯通

除了在线，流动是另一个大数据的题中应有之意。如果大数据不被开放，无法流动，自然也就难以得到最充分的利用。目前，法律行业里已经形成的数据多被保留在公检法司各部门内部，社会也就很难利用。即使是公检法司各部门之间，数据也尚未贯通，还停留在一个个“数据孤岛”的状态，严重制约了法律大数据的发展。

五、促进法律大数据形成的建议

为了促进法律大数据的形成，推动一个更加高效、健康的法律职业共同体的实现，本文有以下三个方面的建议：

（一）大力推动法律行业的信息化进程

法律人行为的在线程度决定了法律大数据的发展程度，养成法律人的在线工作习惯至关重要。为此，我有以下两个更具体的建议：

一方面，希望国家能够加大对法律行业信息化建设的投入。一直以来，在国家政策和资金投入的支持下，法院的信息化建设已经取得了很好的成果。但是在律师行业，由于律所与律所之间彼此独立分散，即使是同一家律所的律师也往往各自独立，少有人愿意为律所和行业共同的信息化建设投入资源，律师工作的在线化一直进展缓慢。如果国家的政策和资金能够朝这个方向有所倾斜，律师行业的信息化程度一定会有实质性的提高，从而与其他法律职业的信息化进程彼此促进，协同发展。

另一方面，应该让法律人真正感受到在线工作的便利，乐意在线工作。观察法院的信息化进程就会发现，由于数据的生成、采集过程和审判过程“两张皮”，在经办完一个案件后，法官往往还得要单独再录入一遍，他们的工作量非但没有减轻，反而大大增加。这对其他法律人也是一样。只有让法律人感受到数据采集和分析带来的实际好处，才能让他们从“要我用”转变为“我要用”。

（二）实现法律数据的全面开放，打破数据壁垒

国务院发布的《促进大数据发展行动纲要》将数据视为“国家基础性战略资源”，号召政府部门对数据的开发共享。而在法律领域，法律大数据将是由法律职业共同体的在线行为共同沉淀的，也是属于整个法律职业共同体的共同资源。

更重要的是，法律职业共同体本来就需要在法律事务中紧密协作。这就意味着，任何一个法律职业的工作都会涉及到其他法律职业，需要相应的数据作为支撑。只有打破各个法律职业间的数据壁垒，才能为所有法律职业人的在线工作提供更多数据支持，也才能更进一步地促进法律大数据的沉淀。

（三）鼓励、引导社会充分利用法律大数据

虽然我们一直强调大数据的价值，但是，数据本身其实是没有任何价值的。只有通过对数据进行计算，从数据中挖掘出数据与数据之间的关联，了解、分析甚至预测法律人的行为，法律大数据才将真正发挥前面提到的诸多积极作用。

但是，计算能力毕竟是稀缺的资源，即使是借助于云计算，也仍然需要耗费大量的人力、物力、财力。仅由某家律所、某个部门甚至某个法律职业来进行计算，难以充分释放出法律大数据的价值，从而造成巨大的浪费。此外，法律大数据本就是整个法律职业共同体，乃至全社会的共同财富，应该允许更为多元的创新力量在它的利用上发挥重要作用。毕竟，大数据是人类历史上第一次自我创造的资源，也是人类历史上第一种不会因为使用而被消耗的资源。社会各方对大数据的挖掘和利用并不会让大数据有丝毫减损，相反，这些努力将会彼此促进，推动法律大数据的价值得到最大程度的发挥。

我们期待，法律职业的在线化进程能够在各方的共同努力下尽快推进，从而让更完整的法律大数据得以沉淀。我们也期待与法律职业共同体的其他成员共同利用好这一笔宝贵的大数据财富，让法律职业共同体的整体执业状态得到改善，构建一个法官、检察官、律师等法律职业人之间相互支持、彼此信任的法律生态圈。

习总书记在前不久的乌镇大会上做了一个视频讲话，提到互联网的发展其实是无国界、无边界的，要携手共建网络空间命运共同体。这样的精神在法律职业当中也是同样适用的，我们需要一起来构建法律行业的网络空间命运共同体。