密码持有人信息与所使用密码关系的调查统计分析

2013-01-04 10:47石瑞民
关键词:持有人位数口令

张 弘,石瑞民,丁 锰

(中国人民公安大学,北京 100038)

1 背景和意义

随着计算机技术在我国各个领域的推广、普及,越来越多的人开始学习计算机知识并且开始重视计算机存储的各种信息的安全性,对重要内容设置密码加密。此前有文章研究过学校的MIS系统的暴力破解[1],发现使用的密码复杂度越高,传统的暴力破解会耗费越多的时间,破译工作越困难。与暴力攻击方式相比,字典攻击方式在统计学意义上的破解速度要快很多,而其破解率主要依赖于所使用的口令字典。

口令字典中包括许多人们习惯性设置的密码,配合解密软件使用,可以有效缩短解密时间,提高解密软件的密码破解率。口令字典的制作方法有很多种,其中如何有效地运用社会工程学方法制作口令字典是破译学领域中的热点问题之一[2-4]。我们通过大范围调查,运用统计学相关工具详细分析了密码持有人信息与所使用密码的相关关系[5],从而对口令字典的生成起到指导性作用。

2 资料与方法

1)资料:北京市范围内发放问卷20 000份,回收有效问卷12 560份,有效回收率为63%。

2)方法:通过随机发放问卷,进行调查。问卷的内容包括:年龄、受教育程度、密码持有数量、持有密码位数、密码组成情况、密码与本人信息是否相关。

3)统计分析:资料经整理录入计算机,采用SPSS软件包,结合手工进行统计分析。

3 分析

3.1 密码持有人分析

3.1.1 密码持有人分类

我们将密码持有人按照年龄和受教育程度分别进行分类统计,结果见表1。

1)按年龄段划分:1、20岁以下;2、21~35岁;3、36~50岁;4、50岁以上。

2)按最高学历划分:1、低学历(高中及以下),2、中等学历(大学专科、本科),3、高学历(硕士、博士)。

表1 密码持有人分类

3.1.2 密码持有人的年龄与使用密码情况的相关分析

图1和表2中列出了密码持有人的年龄和使用密码的位数及密码组成的调查结果。统计发现66.6%的被调查人群持有密码位数是6~8位,并且各个年龄段的被调查人群中,使用6~8位密码的比例最多;74.6%的被调查人群持有密码组成是数字+字母形式,其中21~35岁和36~50岁的被调查人群中使用数字+字母密码的比例分别为78.2%和79.7%,明显高于20岁以下和50岁以上的被调查人群中使用该密码组成的比例。

图1 密码持有人使用密码位数分布图

表2 密码持有人使用密码组成比

对于20岁以下和50岁以上的人群,由于涉及密码保护的内容较少以及计算机知识的匮乏,使用仅由数字构成的密码的比例较高,破译起来比较容易。而21~35岁和36~50岁的人群,由于需要密码保护的内容较多以及对计算机知识比较熟悉,所以使用的密码复杂度较高,破译起来也就比较困难。按照对计算机的熟悉程度,我们将各年龄段密码持有人分成4个等级,见表3第2列。按照密码持有人使用密码组成比,对每个年龄段赋一个密码复杂程度值(以20岁以下年龄段为例,其使用密码复杂程度 =24.2% × 1+59.8% × 2+16.0% × 3=1.918),并相应地分成4个等级,见表3第4列。利用等级相关系数 ,我们计算了密码持有人年龄和他们使用密码复杂程度的相关性,此处n=4,di等于B等级减去相应的A等级。经计算rs=1,说明密码持有人年龄和使用密码复杂程度高度相关。因此生成口令字典时密码组成应以数字和字母为主,辅以一些常见的其他字符。在编写软件时,增加密码持有人年龄段的分类选项,以提高破译效率。

表3 年龄段和密码复杂程度等级表

3.1.3 密码持有人的受教育程度与使用密码情况的相关分析

通过统计调查,密码持有人所使用的密码位数及密码组成和他们的受教育程度密切相关。从表4中可以看出,66.6%的被调查人群持有密码位数是6~8位。低学历人群中使用6~8位密码的人数最多,占77.4%;其次是使用6位以下密码的比例,占16.1%。中等学历人群和高学历人群使用的密码位数则集中在6~8位和8~12位,并且中等学历人群中使用6~8位密码的人数最多,占68.7%;高等学历人群中使用8~12位密码的人数最多,占50.3%。从图2中的数据分析得知,74.6%的被调查人群持有密码组成是数字+字母形式。低学历人群中有61.8%的人使用数字+字母形式的密码;中等学历人群和高等学历人群中使用该密码形式的比例提高到77.6%和74.3%,且高学历人群中使用其它形式密码的比例(14.1%)稍高于中等学历人群中的比例(13.3%)。

表4 密码持有人受教育程度与使用密码位数的比例%

图2 密码持有人使用密码组成分布图

我们将密码持有人按照受教育程度分成3个等级,见表5第2列。按照密码持有人使用密码位数比,对每种学历人群赋一个平均密码位数,并相应地分成4个等级,见表5第4列。利用等级相关系数,我们计算了密码持有人受教育程度和他们使用密码位数的相关性,此处n=3,di等于D等级减去相应的C等级。经计算rs=1,说明密码持有人受教育程度和使用密码位数高度相关。

密码持有人的受教育程度越高,其密码保护意识越强,使用的密码复杂度越高,设置的密码位数越多。但是密码位数越多,采用的字符集越复杂,生成的口令字典就越庞大,破译时需要的时间就越多。而且在我们的调查结果中,仅有0.7%的人会设置多于12位的密码,绝大多数人表示由于记忆困难等原因,密码位数不会超过12位,这个统计结果与此前的文章[7]结论基本一致。因此生成口令字典时密码位数应以12位以下为主,同时增加密码持有人受教育程度的分类选项,以提高破译效率。

表5 受教育程度和平均密码位数等级表

3.2 密码来源分析

统计调查发现,密码持有人的密码来源大致分为两类。第一类是密码持有人直接使用自身相关信息作为密码,例如生日、手机号码等信息(可被看成口令因子),或者使用在自身相关信息的基础上生成的密码;第二类是使用完全随机生成的密码。众所周知,口令字典对于破解第一类密码有比较好的破译效果,而当密码持有人使用第二类密码时,使用口令字典的破解模式便无从下手,只能通过暴力破解的方式破译密码。

第一类密码的优点在于易于记忆,不容易遗忘,因此97.3%的被调查人群选择使用这类密码(其中22.9%的人群直接使用自身相关信息作为密码,74.4%的人群使用相关信息生成的密码);缺点在于一旦他人掌握密码持有人的相关信息,其密码将会比较容易破译。第二类密码的优点在于他人无法利用密码持有人的相关信息破译密码,缺点是不易于记忆,一旦长时间不使用很容易遗忘,从而造成自己也无法解密的情况。因此,在调查人群中仅有2.7%的人群使用此类密码,而且使用此类密码的人多数(2.1%)使用密码位数在8位以内,使用随机密码且位数多于8位的仅占0.6%。这个结果与目前已有的一些口令数据库的分析结果一致:用户密码和真正随机密码的分布是不同的[8]。而且,此前有文章提出了通过这些口令因子生成口令字典的方法,并得到了较高的破解成功率[9]。

表6 被调查人密码来源比例

3.3 密码持有人持有密码数量分析

随着科技的发展和时代的进步,人们在日常生活和工作中对电子产品的需求越来越大,存储在电子产品中需要密码保护的内容也越来越多。为了确保一些个人信息的安全,大家设置了多于一个的密码。调查发现,85.8%的人持有2个以上密码,只有14.2%的人所有信息都只用一个密码加密。但是持有密码数量的增加也给人们的工作生活带来一些不便,比如多个密码之间容易产生混淆等问题,因此人们持有的密码数量也不会太多。根据我们的统计,97%的人在日常工作和生活中使用的密码不会超过3个,持有3个以上密码的人的数量仅占被调查人群的3%。

表7 被调查人持有密码个数比例

4 结论

如何有效地制作口令字典是破译学领域中的热点问题之一,它是一项关系到密码能否成功破译的重要工作。本文中,我们通过12 560份有效随机调查问卷,详细分析了密码持有人信息与所使用密码的相关关系。统计调查发现,密码持有人所使用的密码位数及密码组成和他们的年龄及受教育程度密切相关。因此生成口令字典时密码组成应以数字和字母为主,辅以一些常见的其他字符;密码位数以12位以下为主;基于数据的相关性计算得到的结果,建议在编写软件时,增加密码持有人年龄段和学历层次的分类选项,以提高破译密码的效率。同时我们也对密码持有人的密码来源和持有密码数量进行了调查分析,发现97.3%的被调查人群使用自身相关信息作为密码或是由相关信息生成密码。因此在口令字典的前期准备工作中,应重点收集密码持有人本人及其相关关系人(夫、妻,父母,子女,男女朋友等)的各类信息(身份证号,生日,手机,家庭电话等数字信息)。

由于本次调研我们只在北京市范围内发放问卷,得出统计结果,这使得我们的统计具有一定的地域性。我们希望在后续的研究中能够扩大调研的范围和数量,通过对二、三线城市以及农村地区进行调研,得到更加广泛的统计数据,进而对数据进行更深入的研究。

[1] 王胜利,刘明月,马立国.暴力破解MIS登录密码的一种方法[J].电脑编程技巧与维护,2012(10):118-132.

[2] 王宏波.社会工程的概念和方法[J].西安交通大学学报:社会科学版,2000(1):41-53.

[3] 王治,范明钰,王光卫.信息安全领域中的社会工程学研究[J].信息安全与通信保密,2005(7):230-231.

[4] Granger S.Social engineering fundamentals,Part I:Hacker Tactics[EB/OL].[2010-11-03].http:∥www.symantec.ocm.

[5] 袁卫,何晓群,贾俊平,等.统计学[M].2版.北京:中国统计出版社,1996:18-34.

[6] 何晓群,刘文卿.应用回归分析[M].3版.北京:中国人民大学出版社,2011:92-96.

[7] Cazier JA,Medlin B D.Password security:an empirical investigation into E-commerce passwords and their crack times[J].Information Systems Security,2006:45-55.

[8] Matt W,Sudhir A,Breno M,et al.Password cracking using probabilistic context-free grammars[C].New Orleans:IEEE Publications,2009:391-405.

[9] 卢致旭,邱卫东,廖凌.基于数据挖掘技术的字典生成方法[J].信息安全与通信保密,2011(11):63-65.

猜你喜欢
持有人位数口令
山东省研制机构药品上市许可持有人检查现状及问题探讨
连续自然数及其乘积的位数分析
高矮胖瘦
口 令
好玩的“反口令”游戏
比大小有窍门
居住证持有人可享住房养老等权利
遥感卫星CCD相机量化位数的选择
叶丽娅的年龄
健身气功·五禽戏教学口令