机器学习系统的隐私和安全问题综述

2020-07-06 03:39蒋梦斐孙咪娜

中国新通信 2020年3期

蒋梦斐孙咪娜

摘要：机器学习主要分为联邦学习和集中学习两种训练模式，而大规模的数据收集也大大提高了机器学习的经济效益、社会效益，使其性能得到了良好的保障。但其学习系统的隐私与安全问题也在面临着巨大的挑战，各种攻击手段都层出不穷，因此对于其攻击手段开展防御研究十分有必要。本文就目前机器学习系统面临的隐私、安全问题的攻击手段、防御措施展开了研究，希望能够推动机器学习体统的发展。

关键词：机器学习系统;隐私;安全;防御措施

引言：人工智能、计算机技术的应用为我们的生活带来了极大的便利，在机器学习方面，随着该领域的不断发展，相应的安全、隐私问题也逐渐被人中重视起来。而机器学习系统面临的隐私和安全问题对于训练数据的影响在于，前者会使其丢失、泄露、而后者将直接导致其内在逻辑被破坏、篡改，而这两类为题都是现今机器学习面临的较为有挑战性的问题，保护机器学习系统的隐私，构建安全的机器学习系统已刻不容缓。

一、机器学习系统的隐私问题机器防御

（一）攻击方法

在机器学习系统中，大量的测试数据能够训练模型的基础，是建立深度学习的保障，因此对于数据、算命、模型参数的保护十分重要。模型提取攻击、成员推理攻击、属性推理攻击均属于对于機器学习系统的隐私攻击。其中模型提取攻击是通过是目标模型的参数进行窃取，应用一定的方法后见相似甚至精确的模型，这类攻击方法会造成目标模型隐私的破坏。成员推理攻击可通过训练攻击模型、概率信息计算、相似样本生成三种方法实现，其中训练攻击模型通过将成员推理问题进行转化，从而推断目标记录的信息的一种方法，对于白盒攻击、黑盒攻击均可应用。概率信息计算法不需要对目标模型进行攻击就能够推断其隶属度。相似样本生成法则是通过对生成的模型进行训练，从而提高样本相似度的一种方法。属性推理攻击则是通过对训练数据集的统计属性进行推理、统计的一种攻击方法。

（二）次优选择

通过次优模型的提供能够对模型提取来进行防御，问了实现这种防御方法，可以通过对攻击预测概率的提取来进行防御，攻击者不能够提取置信度，或是提取的置信度差异较大，能够有效的延长攻击时间，保障机器学习系统的隐私。其次通过对用户提交的查询请求超出阈值，就认定出现隐私攻击，从而采取既定的防御手段。

（三）安全多方计算

如果多个数据放在一个服务器上进行学习，但并不愿意共享数据，此时就需要一个系统来保证在多个数据方能够在共同学习模型时不共享彼此间的数据集，且各方能够在训练过程中能够通过模拟训练来实现全局参数库的及时更新，保证在后期能够获得最新的参数。在多方计算中，训练模型为私密共享，这些数据能够进行隐藏或是模型重构，保障各数据方的隐私。

二、机器学习系统面临的安全问题及其防御

（一）对学习算法及依赖库的攻击

机器学习模型是在使用机器学习时，使用者对自身的数据进行训练产生的，机器学习模型是通过对于能够对未知的数据进行预测，通过这种方法能够在不了解模型创建过程的前提下获取结果模型。而攻击者可以攻破库函数、机器学习算法，从而对训练算法进行修改以及对数据集的信息进行编码，从而窃取数据集的相关信息，盗取用户隐私。这些数据可能对结果模型的黑盒、白盒进行攻击，影响机器学习系统的安全。对于学习算法及依赖库的攻击，可以通过一定的隔离保护技术来对其进行保护。如应用enclave技术能够有效防止数据泄露，训练模型只有提供数据的用户才可以进行差距，从而保障用户数据的隐私，保障机器学习系统的安全。

（二）投毒攻击

投毒攻击的攻击方式是通过对训练数据的污染造成的不良影响来造成污染，以此影响机器学习系统在深度学习的预测。投毒攻击一般在训练阶段前发生，能够对相关的参数、模型进行调整、替代，以此在攻击机器学习系统的安全。对于投毒攻击的防御，主要在于对于算法数据的保护。对于数据的保护，要求收集到的数据。不被篡改、重写、伪造，能够检测出有毒的数据库等。在保护数据时，为了保障数据的可靠，可以使用物联网系统的数据来源模型，将该数据模型应用到相应的算法当中，这一种防御方法还需进一步的研究。而通过对投毒数据进行检测可以利用一种对训练模型在单个数据点的影响下的变化进行评价的一种方法。而机器学习系统的学习算法因为存在一定的不确定性，因此较为脆弱。对于学习算法的保护可以利用鲁棒学习算法，对其线性回归等问题进行研究，能够保证其防御性能的稳定。

结束语：针对机器学习系统的安全攻击、隐私攻击的攻击方法还有许多种，随着机器学习的进一步发展，对于这些攻击方法对应的方法措施进行研究是十分有必要的。在未来发展中，只有对于机器学习系统的隐私、安全问题的进一步研究才能够大大提高其安全性，攻防工作的研究也必将大大促进机器学习系统的应用。

参考文献：

[1]刘俊旭，孟小峰.机器学习的隐私保护研究综述[J].计算机研究与发展，2020，57（02）：346-362.

[2]陈宇飞，沈超，王骞，李琦，王聪，纪守领，李康，管晓宏.人工智能系统安全与隐私风险[J].计算机研究与发展，2019，56（10）：2135-2150.

[3]赵镇东，常晓林，王逸翔.机器学习中的隐私保护综述[J].信息安全学报，2019，4（05）：1-13.

[4]于颖超，丁琳，陈左宁.机器学习系统面临的安全攻击及其防御技术研究[J].信息网络安全，2018（09）：10-18.