研究人员使用AI打击浏览器指纹

2020-10-14 22:26严柏

电脑报 2020年37期

严柏

浏览器指纹的反跟踪技术

什么是浏览器指纹，看看几类你被互联网巨头监控的场景：

场景一：在网站上浏览了某个商品，了解了相关的商品信息，但并没有下单购买，甚至没有进行登录操作，过两天同台电脑访问其他网站的时候却发现很多同类商品的广告。

场景二：在某博客中你有多个小号，这些小号的存在就是为了刷某个帖子的热度或者进行舆论引导，又或者纯粹进行流量交易，即便你在切换账号的时候清空了Cookie、本地缓存，重开路由器来进行操作，你觉得自己足够小心，但是管理人员可能还是知道这是同一个人在操作，从而被打击。

一般情况下，网站或者广告商都想要一种技术可以在网络上精确地定位到每一个个体，就算你没有账号，没有登录，也可以通过收集这些个体的数据，然后加以分析之后更加精确地去推送广告和其他的一些活动。而这个技术就是浏览器指纹，这还是用前端技术来实现的。

目前包括Firefox、Safari、Opera和Chrome在内的浏览器已开始提供针对使用Cookie和IP地址的跨站点跟踪方法的保护，尤其是为了打击指纹。

在最近的一项研究中，爱荷华大学和加州大学的研究人员戴维斯研究了一种基于机器学习的方法，称为FP-Inspector，该方法训练分类器学习指纹。共同作者说，通过将静态和动态分析相结合来提取句法和语义特征，从而有效地补充了彼此的局限性，FP-Inspector克服了动态分析的覆盖范围问题，同时解决了静态分析无法处理混淆的问题。

一些浏览器和隐私工具已尝试使用API更改和网络请求阻止之类的技术来减轻指纹跟踪。但是这些需要人工分析，并且难以限制内容交付网络之类的双重用途第三方提供的脚本。因为必须严格定义每个硬编码的试探法，以避免误报，并不断进行更新以捕获不断發展的指纹和非指纹。

相比之下，基于JavaScript的FP-Insp

ector具有独立的检测组件，该检测组件从脚本中提取特征（例如语法和执行）并训练分类器以识别指纹（无监督和受监督的特征选择方法将用于训练分类器的特征数量限制为1000个静态特征和1000个动态特征）。

缓解组件将限制应用于检测到的脚本;FP-Inspector限制所有已知正在使用指纹识别的脚本的访问，并阻止请求下载从执行指纹识别的域提供的脚本。

样本测试效率高

为了培训FP-Inspector，研究人员抓取了20000个网站的主页，以编译包含153354个不同执行脚本的17629个网站的列表。他们从100000个访问量最高的网站（Alexa的全球排名）中选出了前10000个网站，并从其余的10000个网站中随机抽取了样本，使它们可以覆盖最受欢迎的网站和下层网站在实验中。实验表明，FP-Inspector的性能很好，与手动设计的启发式方法相比，检测到的指纹脚本多出26%，准确率达99.9%。

为了衡量网络上指纹识别脚本的流行程度，研究人员将FP-Inspector的检测组件应用于Alexa排名最高的71112个网站。他们发现，现在有超过四分之一的顶级站点都部署了指纹识别（前十万个站点中的10.18%，总计2349个唯一域），并且指纹在不同类别的网站上使用不均。使用率范围从将近14%的新闻网站到仅1%的与信贷和债务相关的网站，这是作者之间的差异，这是因为指纹识别在依赖广告和付费墙进行货币化的网站上很普遍。

研究人员说，他们计划发布提供指纹识别脚本的域，以跟踪保护列表，例如Disconnect和EasyPrivacy。他们写道：“我们计划向面向隐私的浏览器供应商和标准机构报告这些API的名称和统计信息。”