一种基于攻击向量自动生成的XSS漏洞渗透测试方法

2016-05-14 09:09顾明昌王丹赵文兵付利华
软件导刊 2016年7期
关键词:机器学习

顾明昌 王丹 赵文兵 付利华

摘要:针对XSS漏洞自动化检测方法在检测效率方面的不足,研究了改进的基于渗透测试的检测方法。提出一种攻击向量自动化生成方法,同时使用机器学习算法对生成的攻击向量进行优化和分类,提高漏洞检测效率。在使用攻击向量进行渗透测试前,使用探子算法去除一部分不存在XSS漏洞的页面,以减少测试阶段与Web服务器的交互次数。此外,还对获取的注入点进行去重处理,以避免重复检测不同页面中相同的注入点。实验结果表明,该方法能够有效改善XSS漏洞检测效率。

关键词关键词:XSS漏洞;渗透测试;机器学习;攻击向量

DOIDOI:10.11907/rjdk.161321

中图分类号:TP309文献标识码:A文章编号文章编号:16727800(2016)007017305

0引言

近年来,随着互联网的飞速发展,Web应用越来越丰富,网上购物、社交网站等Web应用在现实生活中的使用也更加广泛。然而另一方面,Web安全问题不断出现,随着越来越多网络攻击发生在身边,Web应用的安全性也受到更多关注。根据最新的OWASP统计,XSS漏洞依然是Web应用漏洞的前三名。XSS漏洞的产生是由于攻击者向Web应用程序页面中嵌入恶意脚本代码,当普通用户浏览相关页面时,这些恶意脚本代码会在浏览器端执行,从而使普通用户受到攻击,窃取用户敏感信息,损害用户利益。因此,进行XSS漏洞检测十分必要。

XSS漏洞主要分为3类:存储型、反射型和DOM型。存储型XSS漏洞即Stored XSS,假如Web服务器端并未过滤掉该数据,用户浏览相关页面时,即可能触发这种类型的漏洞;反射型XSS漏洞即Reflected XSS,用户提交的数据立即被服务器端处理并返回一个响应页面,如果用户提交的数据包含未经检验的数据,则会发生该类型的漏洞;基于DOM的XSS漏洞即DOMbased XSS,恶意脚本代码并非由Web服务器注入到网页中,而是在浏览器接收到HTML代码之后,由浏览器在网页中嵌入该恶意脚本代码并执行。

目前,检测XSS漏洞的方法和自动化工具有很多,主要有3种:静态分析、动态分析和动静态混合检测方法。静态分析是指对应用程序的源码进行分析,通过分析源码来发掘可能存在的漏洞,相关的自动化检测工具有Fortify SCA、XSSDetect、Pixy等\[3,4\],这类检测工具或方法可以实现高效自动的检测。但静态分析具有一定局限性,如很难获取目标站点的源码;动态分析是在Web站点运行过程中,根据运行结果推测Web站点中可能存在的漏洞,是一种黑盒测试技术,其中渗透测试是动态检测方法中具有代表性的漏洞检测方法。渗透测试指通过模拟攻击者攻击Web站点的过程,发现Web站点中可能存在的漏洞。运用该方法检测Web漏洞的工具和方法很多,如XSSer、Burp Suite等\[5,6\],它们主要是通过模拟用户攻击过程,尝试向Web网页中存在的相关注入点注入攻击向量,根据服务器返回的对应响应页面信息来分析判断目标站点中是否有漏洞存在,如果返回页面中含有注入的攻击向量,说明该站点可能会遭受XSS攻击,反之则认为XSS漏洞不存在。动态检测方法主要具有准确率高、针对性强和无需程序源代码3方面优势,其不足之处在于不当的攻击向量可能造成较高的漏报率,因此要求XSS攻击向量样本的选取既要足够大,以此降低检测结果的漏报率,但同时过大的样本又会造成检测效率低下。

本文研究了基于攻击向量自动生成的XSS漏洞渗透测试方法,提出了一种攻击向量自动化生成方法,同时使用机器学习算法对生成的攻击向量进行分类和优化,以提高XSS漏洞检测效率。在使用攻击向量进行渗透测试前,使用探子算法去除一部分不存在XSS漏洞的页面,以减少测试阶段与Web服务器的交互次数。同时,分析记录探子算法检测响应页面的DOM路径用于测试时的响应结果分析,以提高结果分析效率。此外,对获取的注入点进行去重处理,避免重复检测不同页面中相同的注入点。

1攻击向量生成及优化

渗透测试中重要的一步是逐条使用攻击向量对注入点进行注入式攻击检测,因此攻击向量的选取将直接关系到检测方法的性能。攻击向量选取不足或者不完备,将会导致检测结果漏报率很高,但过量的攻击向量会严重降低检测效率。本文提出一种攻击向量的自动化生成方法,并使用机器学习算法建立优化模型,以减少攻击向量的条数。

1.1攻击向量生成

XSS攻击向量有很多种,只用单一的某个特征无法概括所有种类的攻击向量。但是攻击向量本身也有一定组成规则,表现在以下3方面:①攻击向量中包含的恶意脚本能够达到在浏览器端加载执行的功能;②攻击向量能够执行特定的攻击动作,以达到攻击者的某种目的;③攻击向量嵌入到Web页面,必须符合HTML语义逻辑。本文将攻击向量的语法规则分为3部分:备选符号集、攻击向量形式说明、变化规则说明,具体如下:

(1) 符号集描述了攻击向量中可能出现的语法符号,如HTML标签、JavaScript敏感词和CSS敏感符号。经过查阅和整理相关文献,本文将攻击向量符号集分为3部分:HTML备选字符集、恶意功能符号集和分隔符集。符号集分类如表1所示。

(3)变化规则是指初步生成的攻击向量通常为了绕过代码净化过滤器所要做的诸如编码、大小写混编、嵌入空白字符等常规处理。在攻击向量生成之后,自动生成变异的攻击向量可以使用变化规则绕过Web站点中的过滤器。

目前,一般的动态检测方法均是通过依次对某Web应用页面的XSS注入点使用所有的攻击向量来检测,而每提交一条攻击向量就会与服务器交互一次,从而造成大量客户端和服务器的交互,严重影响检测效率。本文采用一种有效办法来减少检测过程中攻击向量的使用。该方法是根据合法向量在页面中的输出位置对攻击向量进行分类,然后根据输出点的类型选择不同类型的攻击向量,从而大量减少了与服务器的交互次数。本文对输出点的分类如下:

(2)HTML特殊标签之间。这种类型的标签主要在title、iframe、textarea、plaintext、noscript等标签中,因为这类标签之间无法执行脚本,采用的攻击向量需引入HTML标签使相关属性闭合,例如:

(3)HTML标签之内。输出点在HTML标签之内的类型主要是某些标签中的值属性,如input标签中的value属性、img和a标签中的src/href属性等,可采用如下类型的攻击向量:

(4)作为JS的一部分。有时用户的输入将作为JS的一部分,这时输出点在JS内。如。该类型采用的攻击向量如下:

(5)作为CSS的一部分。CSS用来定义展示HTML元素的样式,有两种方法可以对其注入恶意的JS脚本代码。一种是以style标签作为属性注入,另一种是直接为标签

(2)分析探子请求响应页面,使用DOM路径定位技术分析其输出点类型。

(3)从生成的相应类型攻击向量库中取出一条攻击向量对注入点进行检测。

(4)最后,根据响应页面是否存在与攻击向量相同的字符串来确定是否存在XSS漏洞攻击,如果发现响应页面存在该攻击向量,则认为存在XSS漏洞,记录相关的检测点和攻击向量信息,结束对该注入点的检测;否则,如果该攻击向量库中还有攻击向量没有被注入分析,则继续对该检测点进行注入检测;如果最终攻击向量库的所有攻击向量都逐步被分析检测完毕,则本注入点检测结束,认为XSS漏洞不存在。

对于存储型XSS,由于注入数据后,其输出不一定在响应页面中,也可能在站点的其它页面中,故使用探子向量后,如果在响应页面里并不存在探子向量,则要分析注入点是否为Form表单,若是,则进行存储型XSS攻击检测。图4为Form表单的存储型XSS检测过程。

对Form表单的存储型XSS检测中,首先要进行Form表单提交后的响应页面定位,需要遍历所有的页面。如果每次检测都这样做,将严重影响检测效率。本文采用的方案是,对Formstored队列中的每一个Form表单采用一个唯一的合法向量进行探子请求,各个注入点的唯一合法向量采用Java中的java.util.UUID类的randomUUID()方法来生成。UUID指通用唯一识别码,是一个128位长的数字,使用16进制表示。它是结合以太网卡地址、纳秒级时间、随机数字等生成的,以保证每次生成的识别码的唯一性,为后续的漏洞检测工作提供支持。探子探测执行完毕后,到hash值发生变化的文件中查找对应的合法向量。然后,根据合法向量和Form表单的对应关系,生成Form表单和其提交后的响应页面的对应集合,从而完成了Form表单和其响应页面的定位。最后,对每个Form表单依次提交攻击向量进行渗透测试,测试方法如前文所示。

为了验证本文提出的方法在检测XSS漏洞方面的有效性和检测效率,本文实现了一个XSS漏洞检测的原型系统,并对该系统进行了性能测试。本文采用4个性能分析指标,包括:检测到的漏洞个数、漏报率、误报率和响应时间。误报率指原本不存在XSS漏洞而使用本系统检测时被判定为存在XSS漏洞的数量与正常样本数量的比率;漏报率指本来存在XSS漏洞而使用本系统检测时被判定为不存在XSS漏洞的数量与实际漏洞数量的比率;响应时间定义为一个站点的全部页面检测完成所耗费的时间。在检测性能分析时,为使检测性能评估更加客观,采用各个系统独立对一个站点检测5次,计算其平均响应时间作为最终响应时间。理论上,误报率、漏报率及响应时间相比于其它检测工具,其结果数值越小,说明检测效果越好。对于Web站点的检测,采用同一站点所有网页检测出的XSS漏洞个数和响应时间作为评估标准。其中对于开源系统,为了获得更详细的测试数据,采用Apache服务器搭建本地系统环境,进行检测结果比对。而为了分析本文方法的误报率和漏报率性能指标,需要预先了解待检测样本的XSS漏洞存在情况。

本文选择使用OWASP开源项目以及XSSed.com网站上发布的存在XSS漏洞且尚未修复的网站进行测试。参与检测的系统或工具有Paros Proxy、XSSer和本文实现的检测系统。Paros Proxy是基于渗透测试方法设计的一个Web应用程序漏洞评估的代理程序,它拥有一个可用于测试网站攻击的扫描器,可以同时实现对XSS漏洞和SQL注入的检测;XSSer同样是基于渗透测试方法而设计的工具,专门用来检测XSS漏洞。它可以绕过某些过滤器,实现对Web网站中XSS漏洞的安全检测;本文实现的检测系统的开发环境为Window 7 操作系统,使用Java作为开发语言,并采用MySQL数据库。以下是3种方法检测结果的比对,如表4所示。为评估漏报率和误报率,检测样本是从XSSed.com网站上选取的100个最近发布的存在XSS漏洞且未被修复的样本,同时选取50个已经修复漏洞的样本。而对于Web网站的检测,评估结果采用检测的漏洞数和响应时间进行比对,检测OWASP项目WebGoat-6.0.1站点的比对结果如表5所示。

4结语

本文通过对Web中存在的XSS漏洞的产生、利用和检测相关技术的研究,设计并实现了一个安全检测XSS漏洞的系统。该系统采用动态测试技术的渗透测试方法,在该方法基础上,针对原有动态测试技术中手动收集攻击向量导致的攻击向量不足、检测效率较低的问题,提出一种攻击向量自动化生成方法,同时使用机器学习算法对生成的攻击向量进行优化和分类,以改善渗透测试系统的检测效率。同时,在动态测试过程中,采用探子请求技术来减少与服务器的交互次数。另外,通过对注入点和攻击向量的分类,使提高检测结果的分析效率成为可能。实验证明,本文方法可以提高Web应用程序中XSS漏洞的检测效率。

参考文献:

OWASP T.Top 102013the ten most critical web application security risks\[Z\].The Open Web Application Security Project,2013.

张哲.Web应用中安全漏洞检测技术的研究.西安:西安电子科技大学,2011.

SHAR L K,TAN H B K.Automated removal of cross site scripting vulnerabilities in web applications[J].Information and Software Technology,2012,54(5): 467478.

NENAD JOVANOVIC,CHRISTOPHER KRUEGEL,ENGIN KIRDA.Pixy:a static analysis tool for detecting web application vulnerabilities.Proceedings of the 2006 IEEE Symposium on Security and Privacy,2006: 258263.

沈忠涛,张玉清.基于爬虫的XSS漏洞检测工具设计与实现[J].计算机工程,2009,35(21):151154.

猜你喜欢
机器学习
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究
基于Spark的大数据计算模型
基于朴素贝叶斯算法的垃圾短信智能识别系统