数据的偏见

2017-05-13 16:17

金融博览 2017年5期

uck Dormehl在《算法时代》一书中讲了一个名为罗伯特·摩西的设计者，在二十世纪20至70年代，为纽约设计并修建了多处道路、公园和桥梁。在罗伯特·摩西的设计下，进入公园前的桥梁特别矮，只有2.7米左右，这就使得那些买得起轿车的有钱富人才能进入公园，而乘坐公共汽车的穷人（其中有很多是黑人）只能绕道而行。这在当时是一种有代表性的观念，现在来看，则是难以容忍的偏见——这种偏见并不是诉诸文字法律，而是嵌入在城市的设计中了。

在数据的时代，数据的采集者和算法的设计人员很可能存在一些他们自己都意识不到的偏见，这些偏见会影响他们对数据采集的重点，并隐蔽地藏在他们的代码中，最终产生有偏见的结果。

举个例子，我们在与某银行就企业贷款的贷后管理進行合作时，注意到某个特定籍贯人员开设的企业存在大量贷款偿还延期甚至恶意支付的现象。在我们把数据分析的结果反馈给银行的同事后，他们针对主要自然人股东中有相应籍贯或者法人股东注册在该地区的企业，添加了新的需要提供的尽调内容（更多的数据），并且人为收紧了放贷。这个结果是我们分析人员不可控的，也是一个典型的头痛医头脚痛医脚的方法，我个人认为不会产生一个解决方案，而只是让数据和模型变得复杂和丑陋。很可能这个地区之所以出现高风险，是该地区特定经济形势造成的，例如鄂尔多斯等地曾因能源价格下降发生过系统性经济风险，温州商人的现金流曾因非法集资遭受整体性的影响，等形势过去后，问题就会缓解甚至自动消失。但是等到那个时候，银行的这一批技术人员很可能已经离职或者升职，下一批同事也许都不能理解这些与众不同的数据采集和风控模型背后的逻辑了，所以这个针对特定地区的风控偏见，可能会一直持续下去。

公共安全的管理也会存在类似问题。比如有丰富经验的公安人员，对于什么样的人会涉毒、什么样的人有暴力犯罪的危险，都有自己的一套判断方法，这和他个人曾经成功的经历以及他自身的性格特点有关。因此，一个用来管理高风险人群并进行提前预警的系统，如果确认第一批数据采集的方向和内容，那么咨询A专家和B专家，得到的结果一般是不同的。

让我们不安的是，这种因为系统设计人员带来的初始偏见，有可能随着数据的积累和算法的运转慢慢强化放大。举个例子，如果现在我们有一套抓小偷的工具，而能够抓到的小偷只是真实小偷总数的一小部分。如果说中国的小偷主要来自于两个地方：A地和B地，大约各占一半。设计这个系统的人以前抓过的小偷大部分来自A地，于是，算法一开始就会把是否是A地人作为一个重要的参考特征，从而更多提醒警察关注A地人——这当然会让更多A地小偷落网。于是，这就进一步证明了把A地人作为重点监控对象是正确的，因此这个特征的权重会越来越大，算法中A地小偷的样本数占比也会越来越大。由于最早在这个系统做验证时，所有的数据都有一定偏差，于是偏见就积累并且被放大了。有的读者会问：如果不是把“是否是A地人”作为特征，而是把户籍作为一个特征，并且引入自适应的机器学习机制，这个问题是否就会得到解决呢？但是，真实情况比设计要复杂很多，设计人员在选择特征的时候，往往会自以为做出了显著正确的选择，而事实上是受限于初始数据和个人经验的局限性，而赋予了一个有偏见系统的第一推动力。

即便完全去掉个人经验的影响，看起来中立的技术本身，也可能带来偏见。比如在美国，面部识别技术对于男性的识别率高于女性，对于非白种人的识别率高于白种人，这就意味着一个犯罪现场出现过的白人女性，被识别出来的概率要小于非洲裔的男性。尽管算法不是有意为之，但是只要不是100%完美，总会存在自身的偏差，这些偏差投射在社会中，就可能成为算法导致的偏见。这种偏差甚至在一个人出生之前就可能遇到，因为随着B型超声波技术的发展和普及，同样严重等级的出生缺陷，凡是能从B超中检查出来的，就很可能被人工流产，而不能被B超检查出来的，“活着生出来”的概率就大得多——尽管这不一定是一件幸事。

我从2007年开始，就一直做个性化推荐方面的算法研究。个性化推荐系统的算法本身是没有什么偏见可言的，无非是根据消费者以前的购买记录，来预测他最可能购买的东西，从而给他推荐。如果这位消费者是一个穷人，以前买过的东西都是相应品类中单价最低的，那么他在系统画像中有一个名为“价格敏感程度”的维度，分数会顶呱呱得高！于是乎，当他搜索一个关键词时，从前到后翻十页，看到的都是为他这样的穷人量身定做的便宜货。如果说LV的店面上挂一个横幅，写着“穷人与狗不得入内”，那肯定会被砸了——因为这是不得了的偏见和歧视，但是在互联网上，数据和算法带来的偏见却很隐蔽，而且，从综合的算法效果来说，还很正确！

当我们积累了越来越多的数据，我们的喜好就会被刻画得越来越清晰，于是乎算法会给出越来越精确符合我们需要的服务。逐渐地，我们会被计算机封锁在一个狭窄的空间里面，因为我们所读之书都符合以前的兴趣，所试的衣服都符合以前的审美，所购买的商品都符合以前的经济水平。这很可能也是一种无形的偏见，而且人机互动互为增益——不仅是偏见，还是个性化的偏见。（作者为电子科技大学互联网科学中心主任，教授）