朴素贝叶斯算法(共3页).doc
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《朴素贝叶斯算法(共3页).doc》由会员分享,可在线阅读,更多相关《朴素贝叶斯算法(共3页).doc(3页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上1. 问题描述用高效朴素贝叶斯算法对Web 新闻文本进行分类模型的设计2.算法结构我们要判别一个文本的类别,就要计算出该文本属于各类别条件概率,根据贝叶斯原理可以得出: (1.1)然后比较各类别条件概率大小,选择类别条件概率最大者为该文本分类,如下 (1.2)而要计算出,先要先验概率,其计算方法如下:先将展开其变成由一个由词语为单位组成的词组向量,即,然后得出: (1.3)而则是训练样本各类别文本数量与训练样本总数之比,计算公式如下: (1.4)至于它是表示每篇训练文档出现的概率,因为都一样,所以在实际计算时可以不用考虑。所以实际计算的公式可以估算为 (1.5)由式(
2、1.5)可知,然而这样多个小数连续相乘最后的结果会非常小导致出现下溢问题,令计算结果无效。为解决这个问题,我们在使用式(1.5)计算时需要做一些数学转换来防止出现这个数值下溢问题,而这些数学处理就令等式1.5 两边取对数,如下: (1.6)3.特征提取本文将采用 jieba 分词模块来对文本进行分词及提取有代表性的关键词作为特征,jieba 分词模块自带的词库中包含着每个词的词频(TF)及反文档频率(IDF),每个词的 TF 值,IDF 值均由原作者通过大量文本训练统计出来的,所以具有一般性,使用该方法得到的关键词用人工标准来判断能反映出文本主题。当使用 jieba 分词模块的提取关键词功能时
3、,它会对在对文本进行分词的同时会利用每个词的 TF 值及 IDF值计算出每个词的权重(Weight = TF*IDF),然后根据权重大小对词进行排序,至于返回前多少歌词则由用户设定。另外,在使用提取特征词功能的时候还能去除标点符号及对文本主题无意义的停用词。根据 jieba 分词模块提取关键词的方法可知,它直接可以对单个文本提取关键词,利用这个特点,在对待分类文本也作关键词提取处理,只保留当中有代表性的关键词,这样既能大大减少生成词向量的时间又能提高分类准确率。4.设计算法采用朴素贝叶斯算法作为文本分类算法时,因其每个特征出现概率相互独立且每个特征重要程度相等的假设,所以选择一种高效的特征选择
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 朴素 贝叶斯 算法
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内