(本科)第13章医学文本数据分析ppt课件.pptx
《(本科)第13章医学文本数据分析ppt课件.pptx》由会员分享,可在线阅读,更多相关《(本科)第13章医学文本数据分析ppt课件.pptx(55页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、课程主讲人:第13章 医学文本数据分析医学大数据分析医学文本数据分析高等教育出版社CONTENTS目 录1文本数据分析概述2文本数据分析的流程3文本分析实例1文本数据分析概述医学文本数据n病历的描述文字。医学文本数据n检查报告的检查所见医学文本数据病例文本病例文本胃小弯及胃体后壁溃疡型低分化腺癌,肿瘤大小约为8X8X1.8cm。癌组织侵及胃壁全层、神经伴脉管内癌栓,再取上、下切缘及送检(食管下切缘)均为未见癌。结构化构化输出出字段名字段名 值肿瘤部位 胃小弯,胃体组织学类型 腺癌分化程度 低分化肿瘤大小 8X8X1.8cmT分期 T4a切缘 阴性医学文本数据n政策、管理、新闻和时事发布医学文本
2、数据n专业网站、微博医学文本数据n文献数据库(期刊、电子书)医学文本数据n你所在的研究领域有哪些有研究价值的文本数据?n文本分析在医学领域的有哪些成果?(webofscience或pubmed文献库中医学领域查找textanalysis或contentanalysisoftext文章)Leveraging medical thesauri and physician feedback for improving medical literature retrieval for case queries文本分析的医学应用Watson Health用户:浙江省中医院 北京朝阳中西医结合急诊抢救中心
3、 文本分析的医学应用同义词“先天性胆管扩张症”和“先天性胆总管囊肿”是同义词“口疮”、“口腔溃疡”、“口腔溃烂”、“嘴巴起泡”也是同义词“2型糖尿病”、“糖尿病2型”、“糖尿病II型”、“II型糖尿病”、“糖尿病二型”、“二型糖尿病”、“2-糖尿病”和“乙型糖尿病”是同一个概念的不同写法医学文本分析的难点缩写词冠心病、冠状动脉粥样硬化性心脏病、CAD都是同一个概念HCC表示肝细胞癌(HepatocellularCarcinoma)医学文本分析的难点新词如“症状性动脉粥样硬化性椎动脉起始部狭窄”这个词长达18个字。它是通过不同的词“症状性”、“动脉粥样硬化性”、“椎动脉”、“起始部”、“狭窄”拼
4、接成的长词。医学文本分析的难点2文本数据分析的流程分词文本数据(Raw Data)分词Tokenization标准化(Normalization)特征提取(Feature Extraction)建模(Modeling)(停用词(Stop Word)jiebaR(结巴分词):njiebaR(结巴分词)是一款高效的开源免费中文分词包,基于MIT协议,底层使用C+,通过Rcpp进行调用。njiebaR提供函数worker()初始化分词引擎,使用函数segment()进行分词。分词分词语句提供了三种写法:wk=worker()#方法1wk全身诸骨显影,双侧肘关节、腕关节、膝关节、踝关节及双手掌指关节见
5、点片状放射性轻度浓聚#方法2wk=全身诸骨显影,双侧肘关节、腕关节、膝关节、踝关节及双手掌指关节见点片状放射性轻度浓聚#方法3segment(全身诸骨显影,双侧肘关节、腕关节、膝关节、踝关节及双手掌指关节见点片状放射性轻度浓聚,wk)分词分词语句:#还可以把分析句子放入到一个文件中,然后直接对这个文件进行分词,比如:segment(D:/test.txt,wk)分词结果自动在原文件所在的目录下生成一个文本文件,内容如下:分词【例13-1】利用jiebaR工具包实现中文语句的分词。#安装jiebaR包install.packages(jiebaR)#加载jiebaR包library(jiebaR
6、)#调用worker()函数,加载jiebaR库的分词引擎wk=worker()wk目前,国家药监局已附条件批准我国2个新冠病毒疫苗上市,应急批准5条技术路线共16个疫苗品种开展临床试验,其中6个疫苗品种已开展III期临床试验。分词【例13-1】利用jiebaR工具包实现中文语句的分词。#安装jiebaR包install.packages(jiebaR)#加载jiebaR包library(jiebaR)#调用worker()函数,加载jiebaR库的分词引擎wk=worker()wk目前,国家药监局已附条件批准我国2个新冠病毒疫苗上市,应急批准5条技术路线共16个疫苗品种开展临床试验,其中6个
7、疫苗品种已开展III期临床试验。分词Rwordseg分词:nRwordseg是使用的是rJava调用Java分词工具Ansj。所以Rwordseg依赖rJava包和Java运行环境,在使用之前先装rJava包和JDK(Java的运行环境,并正确配置环境变量)。n只有前面的安装配置都成功后,Rwordseg分词才能正确安装使用。nsegmentCN()是Rwordseg包里用于中文分词的函数。分词【例13-2】利用Rwordseg工具包实现中文语句的分词。#安装Rwordseg包install.packages(Rwordseg)#加载Rwordseg包library(Rwordseg)#分词句
8、子赋值给变量texttext-目前,国家药监局已附条件批准我国2个新冠病毒疫苗上市,应急批准5条技术路线共16个疫苗品种开展临床试验,其中6个疫苗品种已开展III期临床试验。#调用segmentCN()函数实现分词segmentCN(text)分词在jiebaR中通过show_dictpath()函数可以查看默认的标准词典,也可以指定自己的词典。#查看默认的词典位置show_dictpath()#查看目录dir(show_dictpath()n在指示的位置找到用户自定义词典的文件,用记事本打开后,添加默认词典不能识别的词语 配置词典停用词文本数据(Raw Data)分词Tokenization
9、标准化(Normalization)特征提取(Feature Extraction)建模(Modeling)(停用词(Stop Word)停用词n停用词就是在句子中无实际意义,去掉这些词后对理解整个句子的语义没有影响的词。例如大量的虚词、代词或者没有特定含义的动词,像“吧”、“吗”、“的”、“呢”这些无实际含义的语气词,或者是“即使”、“但是”这样的转折词。n在jiebaR中提供了2种过滤停用词的方法,一种是使用filter_segment()函数,另一种是通过配置stop_jiebaRword文件实现停用词的过滤。停用词 标准化文本数据(Raw Data)分词Tokenization标准化(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 本科 13 医学 文本 数据 分析 ppt 课件
限制150内