最新微博挖掘文本挖掘PPT课件.ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《最新微博挖掘文本挖掘PPT课件.ppt》由会员分享,可在线阅读,更多相关《最新微博挖掘文本挖掘PPT课件.ppt(22页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、微博挖掘文本挖掘微博挖掘文本挖掘微博挖掘例子最近热映的国产喜剧电影泰囧,在微博上拿到了998条和“泰囧”有关的微博文本完成分词之后,便是对词频进行统计。词频排名前53的词列表泰囧泰囧 1174 1174 一代宗师一代宗师 87 87 时候时候 53 53 生活生活 44 44 娱乐娱乐 35 35 成功成功 30 30电影电影 385 385 看过看过 70 70 影片影片 52 52 文化文化 43 43 但是但是 33 33 王宝强王宝强 30 30票房票房 306 306 上映上映 68 68 今天今天 51 51 影院影院 43 43 分享分享 33 33囧囧 275 275 泰国泰国
2、 68 68 喜剧喜剧 51 51 炮轰炮轰 40 40 发现发现 32 32笑笑 192 192 感觉感觉 62 62 导演导演 49 49 电影院电影院 38 38 故事故事 32 32俗俗 188 188 观众观众 61 61 好看好看 49 49 排排 38 38 光线光线 32 32十二生肖十二生肖 123 123 可以可以 60 60 喜欢喜欢 49 49 哈哈哈哈 37 37 国民国民 32 32什么什么 104 104 大家大家 59 59 上海上海 48 48 兽兽 37 37 时间时间 32 32中国中国 102 102 教授教授 56 56 现在现在 48 48 水平水平
3、 37 37 哈哈哈哈哈哈 31 31徐峥徐峥 90 11 90 11亿亿 54 54 搞笑搞笑 47 47 需要需要 35 35 逼逼 30 30对微博信息挖掘,需要处理海量的用户信息和微博内容通过对微博信息的挖掘,可以获取相关的商业信息,人际关系信息,热点新闻,趋势信息等内容,以及对历史事件进行相关的分析总结。处理用户信息时可以挖出企业感兴趣的微博用户处理微博内容时进行文本挖掘可以得到有用信息微博文本挖掘步骤:1)文本挖掘信息的预处理:需要对文本信息进行统一个格式,因为不同格式,有些软件可能会不识别,如果统一也方面后面的主题特征的进一步编码。缺失值、分布分析等这也是通常需要处理的过程。2)
4、文本挖掘描述:这一步是为分析人员提供整体特征的了解。这一过程是对主题词描述,包括词频、词在文本的出现的概率等信息。3)特征抽取并分类:特征化的目的就是将数据降维,并从文档中抽取能反映研究主题的一些特征后,使用分类器进行训练,分类设置包括很多方法,如聚类、关联、信息检索、链接分析等方法。分类模型是文本分类的核心技术类模型是文本分类的核心技术总体来说对文本挖掘分类的模型包括两种:(1)基于规则的文本分类在规则文本分类的技术中,规则的设定很重要,这一般要求根据问题情境来设置。这里包括文本、类别的表示方法等。常用的规则分类方法包括:(I)决策树decisiontree,这种方法在文本挖掘中有很重要的地
5、位,其得出的结果很容易理解,比较直观,分类准确性也能保证,只是在实际应用中的效率不是很高,这在实际的商业用途上受到了极大的限制。(II)神经网络NeuralNetwork,这种方法效率一般,最主要的是其内部的算法无从了解,这也是机器学习的一种,通过机器自己来寻找适合数据的方法。不过其优点是准确性能保证,而且在相同情况下,神经网络的结果准确性方法一般优于其他方法。(III)支持向量机(SupportVectorMachine)技术原理上是处理二次规划的全局最优解问题,但是他的计算速度通常比较慢,所以效率也不能保证,在准确性方面一般还算理想,但尤其当我们的样本量不是很大的情况下,得到的结果往往比较
6、稳定。(2)基于统计的文本分类这种文本挖掘的分类技术主要依据统计思想,来完成分类器的建立工作。常用的规则分类方法包括:(I)朴素贝叶斯NaiveBayes,现在朴素贝叶斯在文本挖掘的应用中较为广泛,其原理当然还是概率,基本是将词频作为概率值的估计,首先对于每一个样本中的元素计算先验概率,然后计算一个样本对于每个分类的概率,概率最大的分类则被接受。这种方法的应用性较强,综合评比性能良好。(II)K近邻方法K-nearestneighbor,这种方法的缺点挺多,因为需要将新纳入的文本与已有的文本一一比较所以计算量很大,自然也就很慢,而且在要对比的样本中如果两两样本相差太大,也容易导致结果的不稳定。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 最新 挖掘 文本 PPT 课件
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内