网络钓鱼邮件分析系统的设计与实现

2012-03-15 02:29杜彦辉刘晓娟
关键词:电子邮件权值邮件

杨 明, 杜彦辉, 刘晓娟

(1.中国人民公安大学信息安全工程系,北京 102623;2.青海省公安厅,青海西宁 81000)

0 引言

随着电子商务的迅速发展,网络钓鱼已经成为当前最主要也是增长最快的网络欺诈手段。网络钓鱼(Phishing)一词,是“Fishing”和“Phone”的综合体,由于最初黑客是用电话实施诈骗活动,所以用“Ph”来取代了“F”,变成了现在的“Phishing”。近几年,网络钓鱼开始变得猖獗,据统计,2010年中国新增钓鱼网站175万个,受害网民高达4411万人次,损失超过200亿元。从中国反钓鱼网站联盟的统计数据看,2010年3月份联盟认定并处理钓鱼网站1074个,而2011年3月份则为3988个,同比增长271%。数据表明,钓鱼网站数量急剧上升,网民受害人数激增,网络钓鱼手段也变得越来越复杂。其中钓鱼邮件是网络钓鱼的最常用的手段,网络钓鱼者通过发送欺骗性的电子邮件或者伪造web站点来进行诈骗活动。本文通过分析钓鱼邮件的特征,设计和实现了网络钓鱼邮件分析系统。系统通过提取邮件的内容进行分析,提取出可疑的URL,判断出邮件是否为网络钓鱼邮件,是目前检测网络钓鱼网站的有效工具。

1 网络钓鱼电子邮件的特征分析

1.1 网络钓鱼电子邮件概述

根据金山安全实验室,2010~2011中国互联网安全研究报告统计,2010年,有近28%的互联网用户遭遇过虚假钓鱼网站、诈骗交易、交易劫持、网银被盗等针对网络购物的安全攻击。目前,大多数人已经深刻认识到垃圾邮件的危害,对垃圾邮件会置之不理,但钓鱼网站却会通过诱骗你查看垃圾邮件中相关的各种购物信息,或者查看一些貌似同事、朋友或者亲人的邮件,来降低你的警惕性,从而实施欺诈活动。

钓鱼邮件是指利用伪装的电子邮件,欺骗收件人将账号、口令等敏感信息回复给指定的接收者;或引导收件人链接到特定的网页,这些网页通常会伪装成和真实网站一样,从原来单一的仿冒淘宝等电子商务网站,到仿冒中国工商银行等银行网站,再到针对证券、票务、团购、网游等网站,令登录者信以为真,使得在网页上输入的银行卡号码、账户名称及密码等信息被盗。

1.2 网络钓鱼邮件的特征

随着网络犯罪活动的日趋猖獗,网络钓鱼攻击成为网络诈骗的主要手段。网络钓鱼的基本原理可以概述为网络犯罪分子综合利用社会工程学原理和互联网应用技术手段,以盗取个人敏感信息为重要途径实施网络诈骗的违法犯罪手段和行为方式。目前,网络钓鱼分两类:第一类主要是通过社会工程学的方法对网络用户进行诱骗,以获取网络用户金融信息和其他个人信息。钓鱼者搜集相关个人信息,引诱他人受骗。此类方式典型的途径是垃圾邮件。另一类主要是利用技术手段攻击计算机或网页可能存在的漏洞,影响其正常有效运行后,再对网络用户进行诱骗。网络钓鱼花样众多,且手法不断翻新。但究其根本,目的都是相同的,就是索取收信人的重要个人信息。本文通过对大量的网络钓鱼电子邮件的分析得出,网络钓鱼电子邮件通常都会有以下几个特征。

1.2.1 发信人伪造自己的身份

根据美国微软研究院的分析显示,大约有95%的“网络钓鱼”来自欺骗电子邮件或伪造电子邮件。用户在收到电子邮件后,一般情况下首先会查看邮件的来源,来源的可靠性会直接影响用户对邮件真实性的判断。目前互联网上普遍采用MIME标准的邮件格式,MIME邮件采用域保存邮件的重要信息,其中发信人名称和地址是保存在邮件头的From域中,而通过邮件代理服务器或者Web脚本程序,可以对From域中的信息进行修改,这些垃圾邮件,将发件人的邮箱和称谓伪造成一些知名的电子商务网站或者银行,如“淘宝网”、“支付宝”、“中国工商银行”等。钓鱼者很善于将钓鱼邮件伪装得与真实机构发送的邮件非常相似,并且在整体风格上也抄袭官方的内容,比如商标或者网站的图标,使邮件与被仿冒的网站具有一定的相似性,使收信人放松警惕,从而一步一步走入钓鱼者的陷阱。普通用户很难识破这种伪造的身份。目前还有一种鱼叉式网络钓鱼,其锁定之对象并非一般个人,而是向特定人群或机构发送电子邮件,目的是为了获取对方高度敏感性资料,如商业机密等。

1.2.2 邮件的内容中包含诱惑信息

社会工程学是网络钓鱼者常用的一种手段,它是一种通过对受害者心理弱点、本能反应、好奇心、信任、贪婪等心理陷阱进行诸如欺骗、伤害等危害手段,取得自身利益的手法。通过社会工程学技术愚弄用户,钓鱼邮件的内容包含类似“您中奖了”、“超低价”、“免税商品”;或“需要验证您的账户,请快速处理,否则账户会被冻结”等包含迫切需要用户“更新”或“核实”的数据。收信人收到此类信息后,通常都会因紧张、好奇或者贪婪等心理,对邮件中所提出的要求做出回复。社会工程学的手法其实并不包含较高的技术,但因为其直接针对的是比较感性的邮件用户本身,而用户往往是网络安全中较薄弱的一个环节,易受外界因素的影响,所以这种典型的欺骗手法仍然很容易得手。

1.2.3 邮件中包含虚假链接

网络钓鱼者通过伪造自己的身份,在邮件中发布诱惑信息,最终的目的就是千方百计地将用户通过链接方式引诱到他精心设计的虚假网上银行、虚假电子商务网站中,并获取收信人的个人敏感信息,实施网络欺诈。邮件中的链接往往有一定的隐蔽性,以达到欺骗收信人的目的。这些虚假链接主要有以下几种形式:

1)相似域名

钓鱼者在邮件中提供的链接地址,一般都是仿冒银行、购物等知名网站,人们对这些网站的网址都比较熟悉,所以钓鱼者会使用看起来非常相似的域名,以达到以假乱真的目的。例如:工商银行的真正网址是 www.icbc.com,而 www.1cbc.com 或者www.lcbc.com就是用数字1和小写字母l来仿冒小写字母i。网上还有用www.taobaoo.com仿冒淘宝网站www.taobao.com。总之,收信人稍不注意,就会误认为这些链接指向的是合法网站,从而点击链接访问这些网站。

2)DNS域名与实际链接中的DNS域名不符

在网页的源代码中用a标记来表示超链接,格式为<a href=”real_link”>show_link</a>,页面上显示的网址为show_link,而该超链接实际指向的地址为real_link。假如邮件中包含这样一段html代码:

<a href=“ http:∥amdel.cl/archivos/suncorp.html”>

https:∥internetbanking.suncorpmetway.com.au/sml/logon.asp< /a>

用户看到的地址是https:∥internetbanking.suncorpmetway.com.au/sml/logon.asp,但是当用户点击该链接时,进入的却是钓鱼网站 http:∥amdel.cl/archivos/suncorp.html,而对普通用户而言,却浑然不知自己已进入了钓鱼网站。

3)用编码策略伪装超级链接

常见的url一般是由ASCII字符,或者其他易于识别的字符组成,比如中文等。浏览器支持对这些字符的编码,编码的方式是将字符转换成十六进制,并在前面加上“%”,编码后的url由一串数字和%组成,用户识别起来非常困难。同时浏览器还支持对 url的部分编码,例如 www.icbc.com.cn%2E%61%62%63,看似是工商银行的网址,可实际指向的地址是 www.icbc.com.cn.abc,是一个钓鱼网站的网址。还有的用一些特殊字符(如在可见链接中使用@来迷惑用户),使用户相信这封邮件来自一个可信的发送端。例如:www.abc.com@www.aabc.com,这个网址看起来很像www.abc.com域名下的某个网页,可实际上浏览器打开的是@后面的地址。钓鱼者通常会在合法网站的网址后面附上@符号蒙骗收件人。

1.2.4 邮件中出现恶意脚本和木马攻击

目前,出现了利用恶意脚本实施钓鱼式欺诈攻击,通过钓鱼邮件中提供的嵌入脚本链接触发,用户点击链接后,会进入一个正常站点,而恶意脚本毫无觉察地在后台下载木马,捕获用户输入的账号和密码,甚至用户并不需要打开邮件附件或者点击链接,只要打开了有恶意的电子邮件,就会运行脚本文件,计算机被操纵,当用户下一次登录合法的银行网站时,自动地被引导到一个钓鱼网站。

2 网络钓鱼邮件分析系统设计

2.1 系统功能设计

网络钓鱼邮件分析系统的基本功能是从邮件服务器上下载大量的邮件,并进行分析,提取出可疑的URL,从而过滤出具有网络钓鱼特征的邮件。本文对网络钓鱼电子邮件的特征作了详细分析,邮件分析系统根据这些特征制定一系列判断规则,依照判断结果为每个特征项设置权值,所有特征项的权值之和为整个邮件的权值。最后将邮件的权值与预先设定的阀值相比较,来决定该邮件是否为钓鱼邮件。

2.2 系统框架结构

网络钓鱼邮件分析系统主要包含邮件接收模块、系统配置模块和邮件分析模块三部分,系统工作流程以及各部分之间的关系,如图1所示。

图1 网络钓鱼邮件分析系统模块结构图

2.3 系统功能模块设计

2.3.1 邮件接收模块

邮件接收模块的主要功能是从邮件服务器上收取邮件,并保存为本地文件,为后期的邮件分析工作准备数据。邮件接收过程遵循POP3协议,POP是Post Office Protocol的简称,即邮局协议,该协议主要用于支持客户端远程管理服务器上的电子邮件,它规定怎样将个人计算机连接到Internet邮件服务器以及如何下载电子邮件。

2.3.2 系统配置模块

邮件分析模块在工作的过程中,需要用到一些参数,这些参数都可以在系统配置模块中进行灵活设置,需要设置的参数主要如下:

1)关键字的设置

系统会自带一些常用关键字,这些关键字都是在网络钓鱼邮件中经常出现的敏感词语,比如账户、密码、银行、过期、失效、冻结、激活、姓名、身份证、信用卡、注册、中奖,紧急处理等。用户还可以根据不同情况添加或删除关键字。例如,钓鱼者可能会借助一些热点问题吸引收信人的注意,用户可以在系统中及时增加相关的关键字,以提高系统分析的准确性。

2)白名单的设置

系统的白名单涉及一些常见的金融、证券、购物等钓鱼者最容易仿冒的网站,这些网站的域名和对应的IP地址段都保存在白名单中。用户可以根据需要增加或者删除需要保护的网站的信息;当某些网站的域名或IP发生变动时,需要及时更新信息。

3)权值的设置

系统分析邮件时主要是判断邮件的特征项,每个特征项I都一个权值qi,如果特征项I被判断为可疑,则其权值为qi,否则权值为0,所有特征项的权值之和为邮件的权值,邮件的权值代表邮件的可疑程度。用户可以根据具体情况对特征项的权值大小进行调整,以提高判断的准确性。

4)阀值的设置

阀值是决定邮件是否为网络钓鱼邮件的关键值,此值的合理性直接影响到系统分析的效果。如果邮件的权值大于阀值,系统就认定该邮件为钓鱼邮件,否则为正常邮件。阀值越高,判断出的可疑邮件的数量会越少,准确率越高,但是有可能发生漏判的情况;阀值越低,判断出的可疑邮件的数量就越多,但也可能会出现误判的情况,从而影响系统的效率。所以用户可以根据使用情况和自己的需求,对阀值进行调整。

2.3.3 邮件分析模块

目前互联网上的电子邮件普遍遵循MIME规范,MIME(Multipurpose Internet Mail Extensions)即多用途互联网电子邮件扩展,它通过定义一系列的格式规范和编码方式,使得电子邮件可以包含声音、图像、动画等非US-ASCII字符。

邮件分析模块的主要功能是对收取的电子邮件按照MIME规范进行解析,还原出邮件内容,并提取其特征项进行可疑性判断。本文对分析算法不做具体的介绍,只对各个特征项以及判断规则进行描述。

1)发件人地址

如果发件人邮箱的域名与白名单中某个域名相同,则检查邮件的发送服务器IP地址,如果该地址与白名单中所指向的地址相同,则权值为0,否则权值为 q1。

2)邮件主题

如果邮件主题包含系统中所设置的关键字,则权值为q2,否则权值为0。

3)邮件中的文本信息

如果邮件的文本信息包含系统中所设置的关键字,则权值为q3,否则权值为0。

4)邮件中的超链接

对邮件中的超链接进行判断,如果出现下列任意一种情况,则权值为q4,否则权值为0。

①超链接中的地址为十进制形式、IP地址形式、或者出现了%或@;

②超链接中的真实链接地址与显示地址不一致;

③超链接中的地址与白名单中的某个域名相似。

5)邮件中的网页标签

如果邮件的HTML部分包含form,action,post,submit或者script标签,则权值为q5,否则权值为0。所有的特征项判断完毕后,将各个权值相加,得到邮件的权值,并与阀值相比较,大于阀值则邮件为可疑邮件,否则为正常邮件。

2.4 系统测试及结果分析

2.4.1 测试环境

本文从邮件服务器上随机选择200封邮件作为测试样本,对网络钓鱼邮件分析系统的性能进行测试。测试的指标主要有网络钓鱼邮件分析系统的判断准确率,误判率以及时间效率。

由于测试样本的规模不是很大,所以将阀值设置得较低,期望误判率为0,判断准确率达到70%,平均每封邮件的判断时间低于1秒。

2.4.2 系统参数的配置

1)关键字设置如下:

银行、账户、密码、过期、失效、激活、姓名、身份证、信用卡、冻结、注册、中奖、紧急。

2)白名单设置如下:

3)权值设置如下:

4)阀值设置为1

2.4.3 测试结果分析

网络钓鱼邮件分析系统通过内容分析,判断出的可疑邮件为7封,其中5封中包含钓鱼信息,2封为广告型的垃圾邮件,所以判断的准确率约为71.4%;同时漏判1封,漏判率约为16.7%;判断时间为2分50秒,平均每封邮件的判断时间为0.85秒。通过结果分析可以看出,网络钓鱼邮件分析系统的判断准确率和时间效率均达到了预期的目标,而漏判率虽然没有达到预期的目标,但可以通过修改关键字和白名单的设置来降低。

3 结论

随着网络钓鱼数量的激增,电子商务的网络安全面临前所未有的挑战。本文详尽设计和实现了网络钓鱼邮件分析系统,通过该系统可实现对邮件内容的分析,提取出可疑的URL,并能较准确地判断出邮件是否为网络钓鱼邮件,为追查邮件来源、屏蔽钓鱼网站提供了数据支持,为电子商务的安全提供了技术保障。同时,网络钓鱼邮件分析系统在运行中还需要大量参数的支持,如关键字,权值,阀值等,而参数的设置直接影响到系统的效率,所以还需要在实际运行中,根据需求进行适当的修改,以使系统的效率和准确率达到最佳值。网络钓鱼邮件分析系统作为一种检测网络钓鱼邮件的有效工具,必将在打击网络钓鱼攻击中发挥重要的作用。

[1]郭敏哲,袁津生,王雅超.网络钓鱼Web页面检测算法[J].计算机工程,2008(10).

[2]陈涓,郭传雄.网络钓鱼攻击的在线检测及防治[J].解放军理工大学学报,2007(4).

[3]卢秉亮,王玉湘,许莉.基于 WINDOWS环境POP3协议邮件接收客户端的实现[J].沈阳航空工业学院学报,2006(6).

[4]胡燕,滕桂法,董素芬,等.基于MIME邮件结构的邮件内容提取技术的研究[J].现代图书情报技术,2008(5).

[5]周文林.网络钓鱼更趋猖獗[N].经济参考报,2011-04-26(7).

[6]李佟鸿,麦永浩.网络钓鱼犯罪技术分析与对策研究[J].信息网络安全,2011(4).

[7]黎其武,武良军.网络钓鱼犯罪问题研究[J].信息网络安全,2011(4).

[8]周国民,陶永红,吕钟炜.国外“网络钓鱼”技术原理与方法初探[J].信息网络安全,2009(8).

猜你喜欢
电子邮件权值邮件
二进制张量分解法简化神经网络推理计算①
有关旅行计划的电子邮件
一种融合时间权值和用户行为序列的电影推荐模型
基于James的院内邮件管理系统的实现
来自朋友的邮件
一封邮件引发的梅赛德斯反弹
强规划的最小期望权值求解算法∗
程序属性的检测与程序属性的分类
小测试:你对电子邮件上瘾了吗?
Outlook和Foxmail邮件互导