基于朴素贝叶斯算法的垃圾短信智能识别系统(共8页).doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《基于朴素贝叶斯算法的垃圾短信智能识别系统(共8页).doc》由会员分享,可在线阅读,更多相关《基于朴素贝叶斯算法的垃圾短信智能识别系统(共8页).doc(8页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上基于朴素贝叶斯算法的垃圾短信智能识别系统 摘要:在信息化时代,垃圾短信、诈骗短信越来越成为人们日常生活中的困扰。在对垃圾短信的发展及市面上现有的拦截垃圾短信的软件进行分析后,发现垃圾短信为了躲避拦截在不断变化,拦截软件需要更加智能的去识别这些垃圾短信。为了应对不断变化的垃圾短信,为了解决联网举报、黑白名单等传统垃圾短信拦截模式触及不到的盲区,提出通过机器学习的方式让垃圾短信的拦截更加具智能化。该文就解决垃圾短信智能识别的问题,主要阐述了基于朴素贝叶斯公式的垃圾智能识别算法,分析了其算法效率,介绍了该算法在安卓平台上的设计,并对该系统进行了测试和评估。 关键词:垃圾短信
2、智能识别;机器学习;朴素贝叶斯公式 中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)12-0190-03 1 概述 1.1 背景介绍 科技高速发展的今天,智能手机已经越来越成为人们日常生活中必不可缺少的一部分了。骚扰电话和垃圾短信不仅严重干扰了人们的日常生活,甚至对于那些认知能力较差的群体,容易使其上当受骗,造成精神和财产上的损失。国家立法并不完善,无法做到手机号码实名制,预防垃圾短信的任务艰巨困难。现在市面上的垃圾短信拦截软件普遍具有以下缺点: 1)不支持用户个性化的识别功能。每台手机无法根据用户的偏好提供相应的拦截服务; 2)很大程度依赖黑白名单,在白名单联系
3、人手机被盗后无法预防诈骗短信; 3)收集用户信息。需要连接网络,将用户的信息上传至企业,一定程度上侵害了用户的隐私权。 1.2 我们的改进 针对以上情况,为了更好识别、过滤垃圾短信,在本文中,我们设计了一种基于朴素贝叶斯算法的垃圾短信智能识别系统。该系统存储了大量有利于判别垃圾短信的关键词,根据短信内容中出现的关键词进行垃圾短信判断,也可以根据用户的反馈进行智能学习,提供符合用户需求的服务。除此之外,在不连接移动蜂窝网络的情况下也可正常使用,不会将数据上传至服务器,保证不对用户的信息进行收集与窃取。 2 贝叶斯算法 2.1 贝叶斯算法的简介 朴素贝叶斯算法是用于分类的概率算法,在具有大量数据的
4、情况下通过概率分析、判定某物是否能归于某类,具有很高的准确度。对于拦截垃圾短信这一课题,我们也可以用朴素贝叶斯公式对短信进行分类,类别有二:垃圾短信和正常短信,在具备大量关键词出现概率的条件下我们能对短信进行实时分类,实现了对垃圾短信的判定。 2.2 分类器的数学模型 根据测试,MI2时该特征能起到判别的作用,故此值可作为选择关键词的依据。无论一个关键词是集中出现在垃圾短信中还是集中出现在正常短信中,该关键词对区分垃圾短信与正常短信都产生了贡献,应收纳进关键词数据库中。但事实上,垃圾短信数量与正常短信数量有很悬殊的差距,正常短信的数量要远大于垃圾短信的数量,若选取集中出现在正常短信的关键词,该
5、关键词的MI值很难大于2。故实际运用中多数选取集中出现在垃圾短信的关键词作为特征。 5 算法效率分析 在具备各个关键词的相关条件概率和先验概率的情况下,可以对短信进行判断。先验概率的计算只需一步即可完成,时间效率是线性的。计算关于各个关键词的条件概率是需要进行累乘来实现。假设有N个关键词,其中包含在短信文本中的关键词有N个,累乘的时间效率为O(N)。根据经验,一个短信文本中含有的关键词数量远不及存储的关键词集,NN,朴素贝叶斯算法的判断过程并不需要消耗太多时间,具有高效性。在空间上,每个关键词本身需要占用10个字节,加上有关该关键词属性的数据,每个关键词共计占20个字节,海量关键词库需要100
6、0个左右的关键词,这样算来,判断垃圾短信需要占用手机20k左右的存储空间,当下手机的存储空间都在16G以上,本系统的数据仅占用手机存储的0.%,占用空间很小。 6 系统设计与实现 6.1 系统的组成 该智能识别垃圾短信系统主要包含两个功能,判断垃圾短信功能和智能学习功能。判断垃圾短信功能分为下面三个部分:识别短信部分、比较关键词部分和计算概率部分。学习功能由用户反馈的机制实现,具体分为:手动添加垃圾短信,手动删除垃圾短信。 6.2数据库的设计 除了存储各个能作为判别特征的关键词,还应该在数据库中存储该关键词相应的属性,包括:各个关键词在垃圾短信中存在的个数、各个关键词在正常短信中存在的个数,这
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 朴素 贝叶斯 算法 垃圾 短信 智能 识别 系统
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内