R语言文本挖掘(10页).doc
《R语言文本挖掘(10页).doc》由会员分享,可在线阅读,更多相关《R语言文本挖掘(10页).doc(10页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、-R语言文本挖掘-第 10 页中文及英文的文本挖掘R语言所需要的包tm(text mining) rJava,Snowball,zoo,XML,slam,Rz, RWeka,matlab1 文本挖掘概要文本挖掘是从大量的文本数据中抽取隐含的,求和的,可能有用的信息。通过文本挖掘实现Associate:关联分析,根据同时出现的频率找出关联规则Cluster:将相似的文档(词条)进行聚类Categorize:将文本划分到预先定义的类别里文档自动摘要:利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯描述性短文。文本挖掘的运用主要有如下几方面l 智能信息检索同义词,简称词,异形词
2、,同音字、赘字移除l 网络内容安全内容监控内容过滤l 内容管理自动分类检测和追踪l 市场监测口碑监测竞争情报系统市场分析2 英文文本挖掘实例实现多个英文文档的聚类分析2.1 文本预处理2.1.1 读取文本内容#取得tm内部文件texts/crude/下的文件目录。library(tm,lib.loc=d:/ProgramFiles/R/R-3.0.3/library) vignette(tm)#获取相关帮助文档的内容,pdf格式reut-system.file(texts,crude,package=tm)# 用Corpus命令读取文本并生成语料库文件由于要读取的是xml文件,所以需要xml包
3、reuters inputtest-read.csv(file.choose()2.1.2 文本清理对于xml格式的文档用tm_map命令对语料库文件进行预处理,将其转为纯文本并去除多余空格,转换小写,去除常用词汇、合并异形同意词汇,如此才能得到类似txt文件的效果需要用到的包SnowballCreuters - tm_map(reuters, PlainTextDocument)#去除标签reuters - tm_map(reuters, stripWhitespace)#去多余空白reuters - tm_map(reuters, tolower)#转换小写reuters query tm
4、_filter(reuters, FUN = sFilter, query)找到由于语料库已经将大小写转换以及将介词类删除所以对应的语句只是特有单词的组合。2.1.4 生成词频矩阵并查看内容dtm inspect(dtm10:15,110:120)A document-term matrix (6 documents, 11 terms)Non-/sparse entries: 6/60Sparsity : 91%Maximal term length: 9 Weighting : term frequency (tf) TermsDocs activity. add added added.
5、 address addressed adherence adhering advantage advisers agency 1, 0 0 0 0 0 0 1 1 0 0 2 2, 0 0 0 0 0 0 0 0 0 0 0 3, 0 0 0 0 0 0 0 0 0 0 1 4, 0 0 0 0 0 0 0 1 0 0 2 5, 0 0 0 0 0 0 0 0 0 0 0 6, 0 0 0 0 0 0 0 0 0 0 02.1.5 查看含有特定词的文档若要考察多个文档特定词汇的出现频率或以手工生成字典,并将其作为生成阵的参数 inspect(tdmc(price, texas),c(127,
6、144,191,194)A term-document matrix (2 terms, 4 documents)Non-/sparse entries: 6/2Sparsity : 25%Maximal term length: 5 Weighting : term frequency (tf) DocsTerms 127 144 191 194 price 2 1 2 2 texas 1 0 0 2 inspect(DocumentTermMatrix(reuters,+ list(dictionary = c(prices, crude, oil)A document-term matr
7、ix (20 documents, 3 terms)Non-/sparse entries: 41/19Sparsity : 32%Maximal term length: 6 Weighting : term frequency (tf) TermsDocs crude oil prices 127 3 5 4 144 0 11 4 191 3 2 0 194 4 1 0 211 0 2 0 236 1 7 2 237 0 3 02.1.6 元数据操作(词元素)2.1.6.1 查看词条出现次数大于某个具体值的词findFreqTerms(dtm,5)#查看出现频大于等于5的词2.1.6.2
8、条 findAssocs(dtm,opec,0.8) opecmeeting 0.882.1.7 处理词频矩阵 dtm2 temptoscale d fit plot(fit)2.3 分析结果从聚类图可以看出,文档16和17是比较接近的。而3,4,1,19可以聚成一类,1,6,11,10,13也可分别聚为一类3 中文文本挖掘实例3.1 前期准备3.1.1 Mmseg4j分词使用中文分词法,由于词之间无有像英文一样的空隔,好在有Java已经解决了这样的问题,我们只需要在R-console里加载rJava与rmmseg4j两个工具包即可。如mmseg4j(中国人民从此站起来了)1 中国 人民 从此
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 文本 挖掘 10
限制150内