一种基于样本的模拟口令集生成算法-韩伟力.pdf
《一种基于样本的模拟口令集生成算法-韩伟力.pdf》由会员分享,可在线阅读,更多相关《一种基于样本的模拟口令集生成算法-韩伟力.pdf(17页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第40卷第5期 计 算 机 学 报 v0140 No52017年5月 CHINESE JOURNAL OF COMPUTERS May 2017一种基于样本的模拟口令集生成算法韩伟力 袁 琅 李思斯 王晓阳(复旦大学软件学院上海201203)(上海市数据科学重点实验室 上海201203)摘要大规模的用户口令集因可用于评估口令猜测算法的效率、检测现有用户口令保护机制的缺陷等,而广受系统安全研究领域的重视然而,尽管可以通过一些渠道,譬如网站口令泄露、用户自愿征集或者个别网站出于研究目的的共享等,获取真实的大规模用户明文口令对当前研究人员来说仍然非常困难为应对上述问题,该文提出了一种基于样本的模拟口
2、令集生成算法(Sample Perturbation Based Password Generation,SPPG)该算法利用较容易获得的小规模真实口令样本,通过学习生成概率模型,并产生大规模用户口令集合为评估这一算法的效能,该文提出了一组模拟口令集质量的检测指标,包括真实口令覆盖率、Zipf分布拟合度等最后,论文对比了SPPG算法与当前常见的用户口令猜测概率模型,包括概率上下文无关文法和多种马尔科夫模型,在生成用户口令集上的效能差异结果显示,SPPG算法产生的模拟口令集在各指标下都有更好的表现平均地,在真实口令覆盖率上,相对上下文无关文法和四阶马尔科夫模型分别提高了958和7279,相对三阶
3、和一阶马尔科夫模型分别提高了1034倍和1341倍,并且Zipf分布的拟合度保持在09及以上的水平同时,其口令结构分布和特殊模式的使用也更符合真实用户生成口令的情况关键词 口令安全;口令集生成;样本;概率上下文无关文法;马尔科夫模型中图法分类号TP391 DOI号10。11897SPJ1016201701151An Efficient Algorithm to Generate Password Sets Based on SamplesAbstractHAN WeiLi YUAN Lang LI SiSi WANG XiaoYang(Software School,Fudan Univers
4、ity,Shanghai 201203)(Shanghai Key Laboratory of Data Science,Shanghai 201203)Largescale real user password sets are well regarded important in the field of systemsecurity research,due to their usages in evaluating the efficacy of the algorithms that guesspasswords,and detecting defects of existing p
5、assword protection mechanisms,etcAt present,some ways of capturing real passwords are available for researchers,such as accidental ormalicious passwords disclosure,voluntary user contributions,or sharing by voluntary websitesfor research purposesHowever,there are some serious 1imitations involved in
6、 collecting userpassword sets in the above waysFor example,password sets that are captured from passwordsdisclosure may have been tampered,and therefore their quality cannot be guaranteedWhatSmore。types of these password sets are limitedAs a result,it is still difficult for researches tohave access
7、to the largescale clear-text user passwords in a systematic mannerMotivated toresolve the above issue,this paper presents a sample perturbation based password generationalgorithm(SPPG for short)The algorithm is to use a given smallscale real user password sampleas a training set to generate a probab
8、ility model that can then be used to provide largescale password收稿日期:20161031;在线出版日期:201703一01本课题得到上海市科委“创新行动计划项目”(16DZll00200)、国家自然科学基金(61572136,61370080)资助韩伟力,男,1975年生,博士,教授,中国计算机学会(ccF)高级会员,主要研究方向为访问控制、网络身份安全、大数据E-mail:wlhanfudaneducn袁琅,女,1993年生,硕士研究生,主要研究方向为信息安全李思斯,女,1995年生,硕士研究生,主要研究方向为信息安全王晓阳,
9、男,1955年生,博士,教授,中国计算机学会(ccF)高级会员,主要研究领域为数据分析与安全万方数据1152 计 算 机 学 报 2017年setsThe smallscale sample is relatively easier to obtainWith the purpose of improving theauthenticity of the simulation password sets,the SPPG algorithm is designed based on the idea ofsample perturbationOn the one hand,the algori
10、thm takes advantage of the ProbabilisticContextFree Grammar to parse the sample,and then generates passwords that have the samestructures with passwords in the sampleOn the other hand,it also utilizes rules that arefrequently used for users to deform their passwords,and then generates passwords that
11、 are similar topasswords in the sampleTo evaluate the efficacy of the SPPG algorithm,this paper presents aset of criteria to evaluate the quality of the simulation password setsThese criteria include thecoverage rate of the real passwords,the goodness of fit to the Zipf distribution,the similarity o
12、fpassword structure distributions and the proportion of special patternsIn the end,this papercompares the efficacy of the SPPG algorithm with the popular probability models of passwordguessing,including the Probabilistic ContextFree Grammar and several variants of the Markovmodels,In the experiment,
13、smallscale samples are randomly selected from real user passwordsets,and then are used by different models to generate the simulation password setsThe experimentresults show that the SPPG algorithm has better performancesOn average,the coverage of thereal passwords is improved by 958and 7279respecti
14、vely compared with the ProbabilisticContextFree Grammar and the 4-order Markov modelAnd the coverage of the real passwords is1034 times more than the 3-order Markov model and 1341 times more than the 1 order MarkovmodelBesides,the goodness of fit to the Zipf distribution remains at a high level that
15、 is no lessthan 09As for the password structure distribution and the proportion of special patterns,simulation password sets generated by the SPPG algorithm are also shown to be more similar tOthe real password sets compared with simulation password sets generated by the other modelsKeywords passwor
16、d security;password set generation;sample;password contextfree grammar;Markov model引 仁习文本口令是目前最常用的网站用户认证方式之一它在为用户和网站管理者提供使用便利的同时也伴随着严重的安全威胁在系统安全研究领域,大规模的用户口令集因可用于评估口令猜测算法的效率、检测现有用户口令保护机制的缺陷等,而成为十分关键的研究材料当前,真实的用户口令集可通过一些渠道收集,如:部分口令安全研究直接利用公开可获得的大规模泄露口令作为用户口令集进行研究13;也有研究者通过用户自愿征集的方式来收集El令;另外,个别网站还会出于研
17、究目的而共享用户口令H然而,后两种渠道获取的口令规模有限,而网上泄露的用户口令又有着其他严重的局限,例如:(1)当前泄露的用户真实口令,其数据质量不能保证,导致研究结果会随着数据质量的差异而不一致例如文献Es指出Tianya和7k7k口令集,由于数据污染而包含大量的相同条目,这样的口令集会给口令研究的结果带来偏差甚至,迄今为止尚不能判断这些数据集是否还存在其他的污染(2)当前泄露的用户真实口令种类有限当前泄露的大规模用户口令集通常都是基于Web的论坛型网站口令集,缺少包括网上银行、企业信息系统等更为敏感的信息系统口令集这使得研究人员得到的研究结果不能直接影响到这些高度敏感系统的安全防护(3)当
18、前泄露的口令集存在时效性问题随着时间的推移,很多系统采取单向加密机制保护存储的用户口令,使得研究人员通过口令泄露获取用户明文口令变得越来越困难这导致当前的口令安全研究很多采用的是2012年左右泄露的用户口令综上,有针对性地获取大规模的用户口令集对Tianyahttp:helptianyacnabouthistory201 I0602166666shtm 7k7khttp:www7k7keomhtmlabouthtm万方数据5期 韩伟力等:一种基于样本的模拟口令集生成算法 1153于研究人员来说仍然十分困难然而无论是真实用户口令集还是高质量的模拟用户口令集,对于评估用户口令猜测算法的效率、评估用
19、户口令强度度量方法的有效性、构建口令字典等都同样十分重要为了解决这一问题,本文利用机器学习领域虚拟样本生成的思想,提出了一种利用现有的口令作为小样本来生成能反映目标网站真实用户口令选择的模拟口令集的方法通过这一方法生成的口令集,由于用户口令的小样本相对可控,因此无论是大规模模拟数据集的质量、用户口令的种类,还是用户口令的时效性都可以得到有效保障在机器学习领域,虚拟样本是指在未知样本概率分布函数的情况下,利用研究领域先验知识并结合已有的训练样本,产生待研究问题的样本空间中的部分合理样本6在模拟口令集生成的问题中,先验知识表现为现有的口令研究中发现的一些用户口令设置规律,已有的样本即研究者能够获取
20、的小规模口令数据模拟口令集的目标是尽可能生成属于真实用户口令分布空间中的合理样本,即生成大规模真实的网站用户口令用户口令的生成方法总体可以归纳为3类:(1)基于特定场景的规则(如长度限制或字符种类限制等)产生具有一定特征的口令;(2)基于字典,再结合一些变形产生口令当前流行的口令攻击工具John the Ripperq)产生候选口令的字典模式就属于这种情况;(3)建立口令概率模型,训练口令数据,并生成概率模型空间中的其他口令常用的用户口令模型包括Narayanan和ShmatikovL7J在2005年提出的基于马尔科夫模型(以下简写为“Markov”模型)的口令生成方法和Weir等人L81在2
21、009年提出的基于概率上下文无关文法(ProbabilisticContextFree Grammar,以下简写为“PCFG”)的口令生成方法在用户口令研究中,口令生成主要用于网站口令猜测攻击基于概率模型的方法由于相对其他方法具有更好的适应性和扩展性,因此是目前最有效的口令攻击方法之一然而,这些以攻击为目的而生成的口令在恢复网站原始口令的同时,也包含许多不属于真实用户设置的口令本文提出的基于样本的模拟口令集生成算法(Sample PerturbationBased Password Generation,以下简写为“SPPG”)充分考虑到现有口令生成模型的不足,并在它们的基础上实现了更优的模拟
22、口令生成效能本文也提出了一组指标来评估口令集生成算法的有效性评估的标准主要是所生成的模拟口令集的真实性本文认为,口令概率模型生成的口令集真实性可以通过模拟口令是否符合真实用户设置口令的习惯来判断这涉及两个层次的条件:首先,模拟口令集需要符合人类口令集普遍的分布规律Wang等人对网站用户口令集的整体频率分布进行了研究,他们指出用户口令集的1=1令出现频次与频次的排序之间存在Zipf分布的特点因此,利用Zipf分布的拟合程度来评估模拟口令集应是个良好的指标;其次,模拟口令集需要描述样本对应的网站中用户口令设置习惯,例如该网站中所有口令的长度分布、字符类型分布等本文综合考虑了这两个条件,并提出从真实
23、口令覆盖率、Zipf分布拟合度、口令结构分布以及特殊模式的使用这4个方面对口令集真实性进行全面的统计分析结果显示,由SPPG算法生成的模拟口令集相比PCFG模型和一阶或多阶Markov模型具有更高的真实性本文的主要贡献包括:(1)提出了一种高效的基于样本的模拟口令集生成算法SPPG该算法利用小规模用户真实口令样本,采用基于扰动的方式生成大规模模拟口令数据SPPG算法借助了上下文无关文法学习生成概率模型,但进一步对该模型空间进行了裁剪并添加了与样本具有更高相关性的口令,增加了模拟口令集的真实性另外,SPPG算法不必对整个口令空间进行概率排序,这明显提高了模拟口令集生成速度平均地,PCFG模拟口令
24、集的生成时间约为SPPG的243倍;而单机的一阶Markov模拟口令集生成时间约为SPPG的3364倍(2)提出利用多个指标从不同角度对模拟口令集的质量进行综合评估的方法以中英文网站泄露的大量真实口令数据为实验材料,对比了SPPG算法与现有两种主要口令模型分别生成的模拟口令集的真实性评估结果显示SPPG的模拟口令集的真实口令覆盖率相对PCFG提高了958,相对一阶Markov提高了1341倍;在不同样本和模拟规模下Zipf拟合度始终保持在09以上,能较好地符合Zipf分布;口令结构分布和包含特殊模式的口令比例都比PCFG和Markov模型更接近真实用户生成口令的情况John the Rippe
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 一种 基于 样本 模拟 口令 生成 算法 伟力
限制150内