基于聚类算法的算法裁判的研究

2020-12-23 02:00王宝莹李泊宁徐天柱刘亚平

科学与信息化 2020年32期

关键词：聚类

王宝莹李泊宁徐天柱刘亚平

摘要目的：利用下深度学习算法实现智能裁判，提高判案效率和准确率。方法：采用聚类算法中k-means算法对案件进行分类，更好地实现算法裁判。结果：该聚类算法可以对案件进行分类，但对于没有给定分类的数据集需要多次实验选定适当k值。结论：初始中心选不同位置会导致最终分类结果不同，对于多分类可能出现局部最优情况，为了解决这种情况还可以优化k-means算法。

关键词聚类;k-means;算法裁判;数据集

引言

为了实现人工智能，深度学习被引入到机器学习这个领域中。深度学习在很多方面都有飞速的发展，例如数据挖掘，搜索引擎，机器学习和个性化推荐技术等。具体到审判上，算法是本质，对未来司法活动可以带来巨大的甚至可以说是革命性的影响就是算法。算法裁判虽然目前在司法实践中的运用还是在起步阶段，但它所具有的优势着实是显而易见。由于人的决策容易收到固有偏见的影响，相对而言，算法决策就会更加公平客观。由于算法是以大量数据为基础，因此在裁判中的运用，可以节省司法资源，提高司法效率[1]。本文主要探讨的是对于大量案件的分类方法，本文采用聚类分析中的k-means算法。

1聚类算法

①常见聚类算法简介。聚类算法也称聚类分析是数据挖掘中的一种重要算法，常见的聚类算法有k-means、k-medoids、clara和clarans等。这四类算法的特点如下，k-means算法对于非法数据格式较为敏感，产生类的大小相差不会很大[2]。而k-medoids方法可以解决数据敏感问题，但k-medoids方法也存在缺陷，该种算法只适合小数据，对于大量数据其计算量要大得多，因此也不适合本文中对于大量案件的分类。而clara算法能够处理大量的数据，因为clara算法是一种基于采样的方法。但同样clara算法也存在缺陷，采样的大小决定了clara算法的效率高低，clara算法采样都是不变的，最佳的结果很难得到。而clarans的算法在每一次循环的过程中所采用的采样都是不一样的，但也存在缺点就是循环次数必须认为定义[3]。所以最终经考虑本文采用k-means算法。②k-means算法介绍。k-means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛[4]。可以输入一个变量k，将大量数据对象进行数据对象划分，划分为输入值k类。这k个对象作为初始聚类中心，其余对象则是需要计算这些对象与聚类中心的距离，计算出距离后要将对象分配给与其距离最近的聚类。然后继续计算每个所获得的新聚类的中心，不断重复这一过程直到均值不在变化，或者说直到标准测度函数开始收敛为止。一般情况下都采用均方差作为标准测度函数[5]。

2k-means算法在算法裁判中的应用展望

我国目前正在大力发展和建设智慧法院，这也是算法裁判在司法实践中的具体体现。为实现法院审判体系和审判能力智能化，需要研制庭审数据格式统一规范，庭审数据深度分析等规范，利用本文中聚类算法中的k-means算法可以对多元化数据进行数据挖掘和分析，进而提升庭審效率[6]。我们对案件随机选取部分，选取其中k个点为聚类中心，计算每个点到k个聚类中心的聚类，然后将该点分到最近的聚类中心，这样就形成了k个簇。再重新计算每个簇的质心，重复做直到质心的位置不再发生变化[7]。这样就可以顺利将案件进行分类了。那么在深度学习的过程中，对待不同类型的案件可以统计规范，实现智能化审判[8]。当然，目前我国的算法裁判还是初步阶段，虽然有了一定的算法裁判应用，但依然存在一定争议，后续我们可以改进聚类算法，对于案件分类更加准确，也可以一定程度上减少算法裁判的争议[9]。把案件用表达式表示，假设簇划分为（C1，C2，...Ck），最小化平方误差E：

3结束语

算法已初步实现，数据集采用于北大法律信息网经典案例。该聚类算法可以对案件进行分类，但对于没有给定分类的数据集需要多次实验选定适当k值。初始中心选不同位置会导致最终分类结果不同，对于多分类可能出现局部最优情况，为了解决这种情况还可以优化k-means算法。

参考文献

[1] 高学强.人工智能时代的算法裁判及其规制[J].陕西师范大学学报：哲学社会科学版，2019（3）：161-168.

[2] 陈姿含.人工智能算法中的法律主体性危机[J].法律科学：西北政法大学学报，2019（4）：40-47.

[3] 苏令银.透视人工智能背后的“算法歧视”[N].中国社会科学报，2017-10-10.

[4] 张富利，郑海山.大数据时代人工智能辅助量刑问题研究[J].昆明理工大学学报：社会科学版，2018（6）：1-10.

[5] 辛春花，郭艳光，鲁晓波.大型数据库中利用强化学习改进Treap的关联规则挖掘算法[J].计算机应用研究，2020，38（1）：1-6.

[6] 何占军，邓敏，蔡建南，等.顾及背景知识的多事件序列关联规则挖掘方法[J].武汉大学学报（信息科学版），2018，43（5）：766-772.

[7] Huang Yu， Li Tang， Luo Cheng， et al. Matrix-based dynamic updating rough fuzzy approximations for data mining [J]. Knowledge-Based Systems， 2017， 119 （6）：273-283.

[8] HANM J W， KAMBER M， PEI J.范明，孟小峰译.数据挖掘概念与技术[M].北京：机械工业出版社，2012：35-37.

[9] 高一飞，高建.智慧法院的审判管理改革[J].法律适用，2018（1）：58-64.

[10] 潘玮，牟冬梅，李茵，等.关键词共现方法识别领域研究热点过程中的数据清洗方法[J].图书情报工作，2017（7）：111-117.

作者简介

王宝莹（1980-），女，河北承德人;学历：硕士研究生，职称：讲师;现就职单位：承德医学院，研究方向：网格计算。