大数据与数据挖掘之文本挖掘13919.pptx
《大数据与数据挖掘之文本挖掘13919.pptx》由会员分享,可在线阅读,更多相关《大数据与数据挖掘之文本挖掘13919.pptx(56页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、大数据与数据挖掘-文本挖掘文本挖掘的背景数据挖掘大部分研究主要针对结构化数据,如关系的、事务的和数据仓库数据。现实中大部分数据存储在文本数据库中,如新闻文章、研究论文、书籍、WEB页面等。存放在文本数据库中的数据是半结构化数据,文档中可能包含结构化字段,如标题、作者、出版社、出版日期 等,也包含大量非结构化数据,如摘要和内容等。1、文本挖掘概述文本挖掘概念文本挖掘旨在通过识别和检索令人感兴趣的模式,进而从数据源中抽取有用的信息。文本挖掘的数据源是文本集合,令人感兴趣的模式不是从形式化的数据库记录里发现,而是从非结构化的数据中发现。文本挖掘的过程预处理文档建模相似性计算信息检索文本分类文本聚类模
2、型评价预处理预处理把中文的汉字序列切分成有意义的词,就是中文分词,也称为切词。“我是一个学生”分词的结果是:我是一个学生。和平民主和平、民主;和、平民、主提高人民生活水平提高、高人、人民、民生、生活、活水、水平大学生活象白纸大学、生活、象、白纸大学生、活象、白纸最大匹配分词法S1=计算语言学课程是三个课时 设定最大词长MaxLen=5 S2=(1)S2=“”;S1不为空,从S1左边取出候选子串W=计算语言学;(2)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/”,并将W从S1中去掉,此时S1=课程是三个课时;(3)S1不为空,于是从S1左边取出候选子串W=课程是三个;(
3、4)查词表,W不在词表中,将W最右边一个字去掉,得到W=课程是三;(5)查词表,W不在词表中,将W最右边一个字去掉,得到W=课程是;(11)查词表,W不在词表中,将W最右边一个字去掉,得到W=是三(12)查词表,W不在词表中,将W最右边一个字去掉,得到W=“是”,这时W是单字,将W加入到S2中,S2=“计算语言学/课程/是/”,并将W从S1中去掉,此时S1=三个课时;(21)S2=“计算语言学/课程/是/三/个/课时/”,此时S1=。(22)S1为空,输出S2作为分词结果,分词过程结束。停用词指文档中出现的连词,介词,冠词等并无太大意义的词。英文中常用的停用词有the,a,it等中文中常见的有
4、“是”,“的”,“地”等。停用词消除可以减少term的个数,降低存储空间。停用词的消除方法:(1)查表法:建立一个停用词表,通过查表的方式去掉停用词。(2)基于DF的方法:统计每个词的DF,如果超过总文档数目的某个百分比(如80%),则作为停用词去掉。文档建模文档建模特征表示是指以一定的特征项如词条或描述来代表文档信息。特征表示模型有多种,常用的有布尔逻辑型、向量空间型等向量空间模型中,将每个文本文档看成是一组词条(T1,T2,T3,Tn)构成,对于每一词条Ti,根据其在文档中的重要程度赋予一定的权值,可以将其看成一个n维坐标系,W1,W2,Wn为对应的坐标值,因此每一篇文档都可以映射为由一组
5、词条矢量构成的向量空间中的一点,对于所有待挖掘的文档都用词条特征矢量(T1,W1;T2,W2;T3,W3;Tn,Wn)表示。向量空间模型将文档表达为一个矢量,看作向量空间中的一个点。文档的向量空间模型W权值计算方法TF-IDF 目前广泛采用TF-IDF权值计算方法来计算权重,TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF逆文档频率(Inverse Document Frequency)是全体文档数与
6、包含词条文档数的比值。如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。在完整的向量空间模型中,将TF和IDF组合在一起,形成TF-IDF度量:TF-IDF(d,t)=TF(d,t)*IDF(t)TF度量在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)对于在某一特定文件里的词语 来说,它的重要性可表示为:以上式子中 是该词在文件中的出现次数,而分母则是在文件中所有字词的出现
7、次数之和。IDF度量逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到:|D|:语料库中的文件总数:包含词语的文件数目(即的文件数目)如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用关键词与网页的相关性计算在某个一共有一千词的网页中“大数据”、“的”和“应用”分别出现了 2 次、35 次 和 5 次,那么它们的词频就分别是 0.002、0.035 和 0.005。三个数相加,其和 0.042 就是相应网页和查询“大数据的应用”相关性的一个简
8、单的度量。概括地讲,如果一个查询包含关键词 w1,w2,.,wN,它们在一篇特定网页中的词频分别是:TF1,TF2,.,TFN。(TF:term frequency)。那么,这个查询和该网页的相关性就是:TF1+TF2+.+TFN。词“的”站了总词频的 80%以上,它对确定网页的主题几乎没有用。在度量相关性时不应考虑它们的频率。删除后,上述网页的相似度就变成了0.007,其中“大数据”贡献了 0.002,“应用”贡献了 0.005。“应用”是个很通用的词,而“大数据”是个很专业的词,后者在相关性排名中比前者重要。因此我们需要给汉语中的每一个词给一个权重,这个权重的设定必须满足下面两个条件:一个
9、词预测主题能力越强,权重就越大,反之,权重就越小。我们在网页中看到“大数据”这个词,或多或少地能了解网页的主题。我们看到“应用”一次,对主题基本上还是一无所知。因此,“原子能“的权重就应该比应用大。应删除词的权重应该是零。如果一个关键词只在很少的网页中出现,我们通过它就容易锁定搜索目标,它的权重也就应该大。反之如果一个词在大量网页中出现,我们看到它仍然不很清楚要找什么内容,因此它应该小。概括地讲,假定一个关键词 在 个网页中出现过,那么 越大,的权重越小,反之亦然。在信息检索中,使用最多的权重是“逆文本频率指数”(Inverse document frequency 缩写为),它的公式为()其
10、中是全部网页数。假定中文网页数是亿,应删除词“的”在所有的网页中都出现,即亿,那么它的log(10亿/10亿)=log(1)=。假如专用词“大数据”在两百万个网页中出现,即万,则它的权重log(500)=6.2。又假定通用词“应用”,出现在五亿个网页中,它的权重=log(2)则只有 0.7。也就只说,在网页中找到一个“大数据”的比配相当于找到九个“应用”的匹配。利用 IDF,上述相关性计算个公式就由词频的简单求和变成了加权求和,即 TF1*IDF1+TF2*IDF2.+TFN*IDFN。在上面的例子中,该网页和“原子能的应用”的相关性为 0.0159,其中“大数据”贡献了 0.0124,而“应
11、用”只贡献了0.0035。这个比例和我们的直觉比较一致算例1词频(TF)是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“大数据”出现了3次,那么“大数据”一词在该文件中的词频就是3/100=0.03。一个计算逆文件频率(IDF)的方法是测定有多少份文件出现过“大数据”一词,然后除以文件集里包含的文件总数。所以,如果“大数据”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 log(10,000,000/1,000)=4。最后的TF-IDF的分数为0.03*4=0.12。算例2关键字k1,k2,k3与文档的相关性可用TF1
12、*IDF1+TF2*IDF2+TF3*IDF3来表示。比如文档1所包含词汇总量为1000,k1,k2,k3在文档1中出现的次数是100,200,50。包含了 k1,k2,k3的文档总量分别是 1000,10000,5000。文档的总量为10000。TF1=100/1000=0.1;TF2=200/1000=0.2;TF3=50/1000=0.05;IDF1=log(10000/1000)=log(10)=2.3;IDF2=log(10000/100000)=log(1)=0;IDF3=log(10000/5000)=log(2)=0.69 这样关键字k1,k2,k3与文档1的相关性=0.1*2
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 文本 13919
限制150内