欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    (本科)第13章医学文本数据分析ppt课件.pptx

    • 资源ID:77577732       资源大小:21.81MB        全文页数:55页
    • 资源格式: PPTX        下载积分:12金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要12金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    (本科)第13章医学文本数据分析ppt课件.pptx

    课程主讲人:第13章 医学文本数据分析医学大数据分析医学文本数据分析高等教育出版社CONTENTS目 录1文本数据分析概述2文本数据分析的流程3文本分析实例1文本数据分析概述医学文本数据n病历的描述文字。医学文本数据n检查报告的检查所见医学文本数据病例文本病例文本胃小弯及胃体后壁溃疡型低分化腺癌,肿瘤大小约为8X8X1.8cm。癌组织侵及胃壁全层、神经伴脉管内癌栓,再取上、下切缘及送检(食管下切缘)均为未见癌。结构化构化输出出字段名字段名 值肿瘤部位 胃小弯,胃体组织学类型 腺癌分化程度 低分化肿瘤大小 8X8X1.8cmT分期 T4a切缘 阴性医学文本数据n政策、管理、新闻和时事发布医学文本数据n专业网站、微博医学文本数据n文献数据库(期刊、电子书)医学文本数据n你所在的研究领域有哪些有研究价值的文本数据?n文本分析在医学领域的有哪些成果?(webofscience或pubmed文献库中医学领域查找textanalysis或contentanalysisoftext文章)Leveraging medical thesauri and physician feedback for improving medical literature retrieval for case queries文本分析的医学应用Watson Health用户:浙江省中医院 北京朝阳中西医结合急诊抢救中心 文本分析的医学应用同义词“先天性胆管扩张症”和“先天性胆总管囊肿”是同义词“口疮”、“口腔溃疡”、“口腔溃烂”、“嘴巴起泡”也是同义词“2型糖尿病”、“糖尿病2型”、“糖尿病II型”、“II型糖尿病”、“糖尿病二型”、“二型糖尿病”、“2-糖尿病”和“乙型糖尿病”是同一个概念的不同写法医学文本分析的难点缩写词冠心病、冠状动脉粥样硬化性心脏病、CAD都是同一个概念HCC表示肝细胞癌(HepatocellularCarcinoma)医学文本分析的难点新词如“症状性动脉粥样硬化性椎动脉起始部狭窄”这个词长达18个字。它是通过不同的词“症状性”、“动脉粥样硬化性”、“椎动脉”、“起始部”、“狭窄”拼接成的长词。医学文本分析的难点2文本数据分析的流程分词文本数据(Raw Data)分词Tokenization标准化(Normalization)特征提取(Feature Extraction)建模(Modeling)(停用词(Stop Word)jiebaR(结巴分词):njiebaR(结巴分词)是一款高效的开源免费中文分词包,基于MIT协议,底层使用C+,通过Rcpp进行调用。njiebaR提供函数worker()初始化分词引擎,使用函数segment()进行分词。分词分词语句提供了三种写法:wk=worker()#方法1wk全身诸骨显影,双侧肘关节、腕关节、膝关节、踝关节及双手掌指关节见点片状放射性轻度浓聚#方法2wk=全身诸骨显影,双侧肘关节、腕关节、膝关节、踝关节及双手掌指关节见点片状放射性轻度浓聚#方法3segment(全身诸骨显影,双侧肘关节、腕关节、膝关节、踝关节及双手掌指关节见点片状放射性轻度浓聚,wk)分词分词语句:#还可以把分析句子放入到一个文件中,然后直接对这个文件进行分词,比如:segment(D:/test.txt,wk)分词结果自动在原文件所在的目录下生成一个文本文件,内容如下:分词【例13-1】利用jiebaR工具包实现中文语句的分词。#安装jiebaR包install.packages(jiebaR)#加载jiebaR包library(jiebaR)#调用worker()函数,加载jiebaR库的分词引擎wk=worker()wk目前,国家药监局已附条件批准我国2个新冠病毒疫苗上市,应急批准5条技术路线共16个疫苗品种开展临床试验,其中6个疫苗品种已开展III期临床试验。分词【例13-1】利用jiebaR工具包实现中文语句的分词。#安装jiebaR包install.packages(jiebaR)#加载jiebaR包library(jiebaR)#调用worker()函数,加载jiebaR库的分词引擎wk=worker()wk目前,国家药监局已附条件批准我国2个新冠病毒疫苗上市,应急批准5条技术路线共16个疫苗品种开展临床试验,其中6个疫苗品种已开展III期临床试验。分词Rwordseg分词:nRwordseg是使用的是rJava调用Java分词工具Ansj。所以Rwordseg依赖rJava包和Java运行环境,在使用之前先装rJava包和JDK(Java的运行环境,并正确配置环境变量)。n只有前面的安装配置都成功后,Rwordseg分词才能正确安装使用。nsegmentCN()是Rwordseg包里用于中文分词的函数。分词【例13-2】利用Rwordseg工具包实现中文语句的分词。#安装Rwordseg包install.packages(Rwordseg)#加载Rwordseg包library(Rwordseg)#分词句子赋值给变量texttext-目前,国家药监局已附条件批准我国2个新冠病毒疫苗上市,应急批准5条技术路线共16个疫苗品种开展临床试验,其中6个疫苗品种已开展III期临床试验。#调用segmentCN()函数实现分词segmentCN(text)分词在jiebaR中通过show_dictpath()函数可以查看默认的标准词典,也可以指定自己的词典。#查看默认的词典位置show_dictpath()#查看目录dir(show_dictpath()n在指示的位置找到用户自定义词典的文件,用记事本打开后,添加默认词典不能识别的词语 配置词典停用词文本数据(Raw Data)分词Tokenization标准化(Normalization)特征提取(Feature Extraction)建模(Modeling)(停用词(Stop Word)停用词n停用词就是在句子中无实际意义,去掉这些词后对理解整个句子的语义没有影响的词。例如大量的虚词、代词或者没有特定含义的动词,像“吧”、“吗”、“的”、“呢”这些无实际含义的语气词,或者是“即使”、“但是”这样的转折词。n在jiebaR中提供了2种过滤停用词的方法,一种是使用filter_segment()函数,另一种是通过配置stop_jiebaRword文件实现停用词的过滤。停用词 标准化文本数据(Raw Data)分词Tokenization标准化(Normalization)特征提取(Feature Extraction)建模(Modeling)(停用词(Stop Word)标准化n标准化就是把多个单词合并称为一个单词,主要是由于英语中同一个单词可能有不同的形态。n比如单词的单复数,单词的时态变化名词以book为例,有book,books的形态;动词以study为例,有study,studies,studied,studying的形态。标准化 特征提取文本数据(Raw Data)分词Tokenization标准化(Normalization)特征提取(Feature Extraction)建模(Modeling)(停用词(Stop Word)文本特征提取n实现的思路是基于向量空间模型(VectorSpaceModal),把一篇文档看作N维空间的一个点,用这个点的各维数据表示文档的特征。一般采用关键词集表示文档的特征,即根据一组预定义的关键词,以某种方法计算这些关键词在当前文档中的权重,然后用这些权重形成一个数字向量,该向量就是文档的特征向量。文本特征提取文本特征提取可以分解为两个步骤:n提取关键词集(也可以称之为特征词集)n计算每个关键词在该篇文档中的权重。文本特征提取文本特征提取nIDF(InverseDocumentFrequency)表示逆文档频率。如果包含词语t的文档越少,则IDF越大,说明词语t在整个文档集层面上具有很好的类别区分能力。如“我”,“了”,“是”等在每篇文档中几乎具有非常高的词频,那么对于整个文档集而言,这些词都是不重要的。文本特征提取文本特征提取n通过IDF来算出每个词的权重,不常见的词出现的频率越高,则权重越大。计算TF-IDF的公式为:TF-IDF=TF(词频)*IDF(逆文档频率)n对文档中每个词计算TF-IDF的值,把结果从大到小排序,就得到了这篇文档的关键性排序列表。文本特征提取【例13-4】将【例13-3】处理后的文本计算特征向量。#计算词频freq(segment)#取TF-IDF的前5的关键词keys=worker(keywords,topn=5)#计算关键词vector_keywords(segment,keys)文本分析处理tm包是R文本分析一个常用的基础包。它提供了一些文本分析中的综合处理功能。如:数据输入、语料库处理、数据预处理、建立“文档-词条”矩阵等功能。使用该包前首先要安装和加载:install.packages(tm)library(tm)文本分析处理tm包中主要管理文件的数据结构称为语料库(Corpus),它表示一系列文档的集合。语料库又分为动态语料库(VolatileCorpus)和静态语料库(PermanentCorpus)。动态语料库将作为R对象保存在内存中,使用VCorpus()或者Corpus()生成。而静态语料库则作为R外部文件保存,使用PCorpus()函数生成。文本分析处理【例13-5】通过不同的方式创建语料库。library(tm)#1、使用DirSource()方式读取指定目录位置的文档创建一个语料库texts-Corpus(DirSource(directory=D:/texts,encoding=UTF-8)#2、使VectorSource()方式创建语料库txts-c(thisisatext,Wecreateavector.)Corpus(VectorSource(txts)#3、利用DataframeSource()方式创建语料库data-read.csv(D:/data.csv)textdata-Corpus(DataframeSource(data),readerControl=list(language=UTF-8)文本分析处理n词条-文档矩阵是一个非常重要的对象,建立文本分类,文本聚类等模型一般需要对语料库创立词条-文档关系矩阵。n其核心思想就是通过把所有文档所用到的词提取出来,然后行(或列)代表文档,列(或行)代表词,若该文档中该词出现n次,则此处的矩阵元素为n,反之为0。从而构造出一个稀疏矩阵。文本分析处理n在tm包中提供了两个函数来构造此矩阵,TermDocumentMatrix是词条-文档矩阵指的是词条作为行、文档标签作为列的稀疏矩阵TermDocumentMatrix(x,control=list()nDocumentTermMatrix是“文档-词条矩阵”是以文档为行、词条为列的稀疏矩阵。所用到的函数为:DocumentTermMatrix(x,control=list()文本分析处理【例13-6】使用tm包中texts/txt目录下的文本文件(5篇不同主题的诗),创建语料库,实现聚类分析。library(tm)txt-system.file(texts/txt,package=tm)txts-Corpus(DirSource(txt),readerControl=list(language=utf-8)#文档术语矩阵,其中weightTfIdf根据词频-文档频率的倒数,为词频-文档矩阵加权,stopwords是包默认的列表。dtm-DocumentTermMatrix(ovid,control=list(weighting=function(x)weightTfIdf(x,normalize=FALSE),stopwords=F)inspect(dtm)3文本分析的实例n在“春雨医生”网站爬取“经典问答”栏目下有关儿科的患者家属提问问题的数据,将这些数据制作成主题词云分析,用于发现儿科常见病症的特点。实现方式nwordcloud2是基于wordcloud2.js封装的一个R包,可以使词频以图形的形式展示,与wordcloud包不同的是wordcloud2支持任意形状的词云绘制。文本分析实例实现方式#安装方法1:install.packages(devtools)library(devtools)install_github(lchiffon/wordcloud2)library(wordcloud2)#安装方法2(在RStudio中执行):if(!require(devtools)install.packages(devtools)devtools:install_github(lchiffon/wordcloud2)文本分析实例library(jiebaR)#加载jiebaR包library(wordcloud2)#加载词云包text-readLines(d:/data.txt,encoding=UTF-8)#读取数据文件#加载分词引擎,并配置自定义的停用词表过滤。wk=worker(stop_word=d:/stopword.txt)fc-segment(text,wk)filter-c(宝宝,小孩,孩子)#去除不能反应症状的高频词fc-filter_segment(fc,filter)fc 1#去除字符长度小于2的词语fc-gsub(0-9,fc)#去除数字freq-sort(table(fc),decreasing=T)1:50#统计词频,并提取出现次数最多的前50个词语#把关键词和词频转换为数据框结构mydata=data.frame(word=names(freq),freq=as.vector(freq),stringsAsFactors=F)wordcloud2(mydata,size=1.5)#制作一个词云图实例代码:THANKS本讲结束高等教育出版社

    注意事项

    本文((本科)第13章医学文本数据分析ppt课件.pptx)为本站会员(可****阿)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开