改进KG-BERT算法的涉毒案件法条预测方法

2022-05-26 08:56杨通超唐向红
软件导刊 2022年5期
关键词:法条案情三元组

杨通超,唐向红,2

(1.贵州大学计算机科学与技术学院;2.贵州大学省部共建公共大数据重点实验室,贵州贵阳 550025)

0 引言

司法判决预测任务主要包含法条预测、罪名预测和刑期预测,其中法条预测旨在根据案情信息,寻找出适用于案情描述的法条。案情描述信息往往错综复杂,致使法官和律师不得不反复阅读与分析案情,从众多法条中寻找适合于该案情的法条,从而大大延长了案件审判周期,增加了审判难度。法条预测作为智慧法院建设的重要一环,一方面减轻了法官和律师审判的负担,造就更高效的法庭;另一方面,法条预测的好坏会直接影响罪名预测和刑期预测结果。因此,法条预测意义重大。

特别地,程豪等[1]指出了涉毒法条的易混淆性,其案情描述存在差异性很小的情况,但这种细微差别可能对应不同的法条规定,使得审判结果截然不同。如图1 所示的案情描述差异性示例,两个案情都包含“驾驶”“车”“车内查获”等元素,但是分别被判为运输和非法持有毒品罪,在相同毒品级别的情况下,其刑期却相差巨大。法条预测大体可分为基于规则、基于机器学习和基于神经网络三大类。

Fig.1 Examples of similarity in case descriptions图1 案情描述相似性示例

基于规则的法条预测:通过手动定义大量规则,当案情满足某些条件时,根据规则匹配相应法条,其特点是人力资源耗费多、泛化能力差[2];基于机器学习的法条预测:采用随机森林、支持向量机、朴素贝叶斯等方法对案情文本作分类,其特点是具有一定的可解释性,可取得较稳定的效果[3-5];基于神经网络的法条预测:此类方法利用神经网络从不同角度挖掘与增强案情信息,或寻找法条之间的相关性,并一条条地输出法条。由于其具有较强的泛化能力和优异性能,基于神经网络的方法是目前法条预测的主流方法[6-12]。

然而,现有方法并未充分利用涉毒案件法条的文本知识。为了解决该问题,本文引入知识图谱补全算法KGBERT,将其改进后成为KG-Lawformer 算法,将案情描述和法条文本分别看作三元组中的头实体和尾实体描述信息,使用KG-Lawformer 算法进行其之间连接关系的学习,预测出案情与法条之间的对应关系。实验结果证明,该方法有效提升了涉毒案件法条预测的有效性。

1 相关工作

1.1 KG-BERT

KG-BERT(BERT for Knowledge Graph Completion)[13]是应用于知识图谱补全领域的算法。传统补全算法仅探索实体与实体之间的连接关系[14],KG-BERT 将实体进行语义上的扩充,并将扩充后的语义描述作为实体特征,如将实体“苹果”的语义扩充为“苹果为世界四大水果之一,性味甘酸而平,无毒,具有生津止渴、益脾止泻、和胃降逆的功效。”然后将扩充后的语义特征输入BERT 预训练神经网络模型,进行特征提取与分类预测。

1.2 BERT与Lawformer异同

BERT 和Lawformer 同为预训练语言模型,BERT 预训练数据是公共领域的维基百科[15],而Lawformer 采用法律领域真实的民事和刑事案件数据作为预训练语料库[16]。两者在预训练过程中的异同如表1所示。

2 KG-Lawformer模型

2.1 模型结构

KG-Lawformer 模型结构如图2 所示,输入格式为头实体、关系和尾实体描述组成的三元组,将输入序列第一个字符[CLS]的输出作为分类结果输出。头实体(Head Entity)对应案情描述的字序列,如“王某在房间贩卖毒品给李某”,尾实体(Tail Entity)对应法条描述的字序列,如“明知是毒品而非法销售……”,关系(Relation)对应“正确连接”或“错误连接”的字序列,实体和关系序列固定用[SEP]字符隔开。整体输入是由各个部分的字序列、位置顺序序列和句子标识序列进行向量嵌入后的联合输入,详情可参考文献[15]。

Table 1 Similarities and differences between BERT and Lawformer表1 BERT与Lawformer异同

不同于原生BERT,这里实体都采用相同的句子标识向量eA,关系用向量eB表示,位置向量i∈{1,2,3,...,512}由[SEP]隔开后重新开始计算,并对字向量、位置标识向量和句子标识向量3 部分向量输入原生的双向Transformer编码机制。隐藏层最后一层第一个字符C 的输出向量为C∈RH,H 为BERT 模型隐藏状态的向量维度大小。在字符C 处接入一个全连接层的分类网络,参数W∈RH。最终,对于输入的一组头、尾实体和关系三元组s=(h,r,t),其得分函数为st=f(h,r,t)=sigmoid(CWT)。其中,st是一个二维向量,满足st0,st1∈[0,1],且st0+st1=1。给定正例三元组集合D+和负例三元组集合D-,交叉熵损失函数计算公式如式(1)所示。

式中,yt∈{0,1}为三元组标签(负例或正例),负例t′由随机替换尾实体产生,如式(2)所示。

其中,Et为所有法条描述组成的尾实体集合。如果随机负例三元组已经在正例三元组集合中,则抛弃该负例三元组,最后输入模型通过梯度下降优化模型参数。

Fig.2 KG-Lawformer model structure图2 KG-Lawformer模型结构

2.2 数据输入结构

模型输入为知识图谱中三元组结构对应的描述字符串,其中知识图谱由若干结点和边组成,三元组由两个结点和一个关系构成,表达了两个结点之间的事实关系。如“[拜登,总统,美国]”表达了“拜登是美国总统”这一事实,正确的事实标签为1。相反的,如果将连接关系改为“平民”,组成三元组“[拜登,平民,美国]”,就会得到一个不成立的三元组,对应标签为0。

模型三元组的结点分为案情描述结点和法条描述结点,例如案情描述结点“2014 年5 月份以来,被告人陈某在贞丰县珉谷镇多次贩卖毒品大麻给吸毒人员曾某人吸食,并容留吸毒人员易某在自家仓库内吸食毒品海洛因”和法条描述结点“明知是毒品而非法销售…”。模型三元组的关系有“正确连接”和“错误连接”两种,如上示例可构成一个正例“[被告人陈某在贞丰县珉谷镇多次贩卖…,正确连接,明知是毒品而非法销售…]”,和一个负例[被告人陈某在贞丰县珉谷镇多次贩卖…,错误连接,明知是毒品而非法销售…]”。为了让法条描述结点更具特征性,本文构建并加入了不同犯罪类型的高频语义特征信息,如表2 所示,例如“非法种植毒品原植物罪”相应的强语义特征词有种植、播种、种在、撒在等。

在多标签分类任务(一个案例对应一个或多个标签)中,区别于传统方法,KG-Lawformer 能快速预测法条而不用训练多个二分类模型,具体做法是:①模型训练阶段:对于一个训练集中的案例,分别与所有标签进行1-1 的输入(其中有正例和负例),从而训练模型;②模型预测阶段:对于一个需要预测的案例,分别与所有标签进行1-1 的输入(其中有正例和负例),取所有输出结果中1 所对应的标签作为该案例对应的预测标签集合;③整个过程只需要训练一个模型。

Table 2 High-frequency semantic features of different crime types表2 不同犯罪类型高频语义特征

3 应用实验

3.1 数据集及评价指标

实验数据集来源于贵州省高级人民法院2010-2019年有关单被告人多犯罪类型的涉毒案件,共16 480 条。为聚焦涉毒法条预测,只对《刑法》中有关涉毒的法条,即第347~357 条进行预测。数据集总表如表3 所示,训练集与测试集按7.5:2.5的比例进行随机抽取。

Table 3 Overview of data set表3 数据集总表

从表3 可以看出,真实数据的分布是极不均衡的。各标签案件数量中,最多数据和最少数据量比达到127:1,因而考验了模型对少量数据的识别能力。为验证模型是否能均衡识别出各个法条,评价指标采用准确率accuracy(Acc)、宏精确率macro-precision(MP)、宏召回率macro-recall(MR)和宏macro-F1(MF1)作为评价指标,分别为Acc=其 中,,n表示数据的标签数量。

3.2 基线模型及参数

TFIDF+SVM:浅层模型,使用词频—逆文本频率(TFIDF)提取输入的文本特征,并采用支持向量机(SVM)作为分类[17]。

TextCNN:采用卷积神经网(Convolutional Neural Networks)对句子级别进行语义抽取与分类,在一些自然处理任务中具有不错的表现[18]。

BiLSTM:能获取句子的长距离依赖,是自然语言处理任务中比较常用的方法,在一些任务中具有较好性能[19]。

BERT:基于双向Transformer 层模型,一经推出,在包括文本分类、阅读理解等各项自然语言处理任务中展现出强大的性能[15]。

对于以上所有模型,设置案件文本最大长度为128 个字;对于浅层模型,采用词袋TF-IDF 作为特征输入;对于所有神经网络模型,使用Adam 优化器优化损失函数,设置学习率为0.001。特别地,BiLSTM 中每个LSTM 大小为128。TextCNN 模型卷积核窗口为(1,2,3,4),大小为128。

3.3 实验结果

实验结果如表4 所示,从表中可以看出,各项指标中KG-Lawformer 都优于对比模型。分析实验结果可得到以下结论:①该模型能有效提升法条预测性能;②由于数据稀疏性较强,法条编号为“第347 条”的案件数量占总案件的93%,导致测试级的精确率(Acc)都大于90%;③宏准确率(MP)和宏召回率(MR)作为两个相互均衡、相互制约的指标,除本文模型外,BiLSTM 也取得了不错的结果,原因是其在长文本语义提取中具有优势;④宏F1 值(MF1)是最能反映模型优劣的指标,本文模型的该值最大,反映了其在数据不均衡情况下依然有良好的学习表现,且能较好地学习到小量数据特征;⑤KG-BERT 模型性能最差,甚至不如只使用BERT 模型,造成该情况的原因为:使用单BERT模型的预测方法是同时训练多个二分类模型,降低了预测难度,使BERT 取得了接近0.5 的MF1 值,而KG-BERT 只使用一个模型预测多标签任务,在KG-BERT 模型基于维基百科语料库进行预训练且实验数据标签分布十分稀疏的背景下,KG-BERT 无法有效区分各个标签之间微小的差异,从而惰性地将大部分案件都分类到数量较多的“347”标签上,造成Acc高而其他指标低的现象。

Table 4 Experimental results表4 实验结果

3.4 消融实验分析

本文对KG-Lawformer 进行消融实验,验证法条知识在法条预测中是否有效。KG-Lawformer 模型输入包含案情信息和法条信息两部分,Lawformer 模型输入只包含案情信息。消融实验所使用的评价指标与3.1 节一样,都为Acc、MP、MR 和MF1,模型输入文本长度均为128,2 个epoch,学习率为10e-5。消融实验结果如表5 所示,可以看出在每个指标上,KG-Lawformer 都优于仅输入案情信息的模型,体现了法条知识在法条预测任务中的有效性。

Table 5 Results of ablation experiments表5 消融实验结果

4 结语

本文针对涉毒案件法条预测任务中存在案情信息易混淆的问题,提出使用基于KG-BERT 改进后的KG-Lawfromer 模型。实验结果证明,该方法有效提升了涉毒案件法条的预测性能,同时该方法作为多标签分类模型,区别于传统模型需要进行多次二分类实验,该模型仅需进行一次训练与预测,从而大大提升了效率。本文模型还存在以下问题:法条文本的定义灵活多样,哪个定义能最大程度提升法条预测的性能尚不明确;知识图谱补全算法如何结合矢量偏移模型进一步提升模型性能。在未来工作中,将尝试将不同法条文本作为输入特征,同时探索结合transE模型[15]等矢量偏移模型的可能性。

猜你喜欢
法条案情三元组
基于带噪声数据集的强鲁棒性隐含三元组质检算法*
特征标三元组的本原诱导子
关于余挠三元组的periodic-模
是谁下的毒
从法条的公司法到实践的公司法
论民法对人身权的保护
从法条的公司法到实践的公司法
刑法“从业禁止”法条的法律性质及改革方向
“两高”刑事指导性案例的文本分析及改进
三元组辐射场的建模与仿真