医学数据挖掘与大数据处理.pptx
《医学数据挖掘与大数据处理.pptx》由会员分享,可在线阅读,更多相关《医学数据挖掘与大数据处理.pptx(97页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第七章 医学数据挖掘与大数据处理本章主要内容l l数据挖掘与数据仓库数据挖掘与数据仓库 l l常用的数据挖掘方法常用的数据挖掘方法l l大数据概念大数据概念l l大大数据处理方法数据处理方法l l医疗医疗大数据应用大数据应用阅读书目阅读书目l l崔雷.医学数据挖掘.高等教育出版社l l涂子佩.大数据.广西师范大学出版社l l赵刚.大数据技术与应用实践指南.电子工业出版社l l李雄飞等.数据挖掘与知识发现(第2版).高等教育出版社纽约警察-杰克.梅普尔的传奇数据驱动管理除了上帝,任何人都要用数据说话。-爱德华.戴明图灵奖、诺经济学奖、图灵奖、诺经济学奖、美心理学会终身成就奖美心理学会终身成就奖人
2、类理性是有限的,人类理性是有限的,人类理性是有限的,人类理性是有限的,所有决策都是基于有所有决策都是基于有所有决策都是基于有所有决策都是基于有限理性的结果,如果限理性的结果,如果限理性的结果,如果限理性的结果,如果能利用存储在计算机能利用存储在计算机能利用存储在计算机能利用存储在计算机里的信息来辅助决策,里的信息来辅助决策,里的信息来辅助决策,里的信息来辅助决策,人类理性的范围将扩人类理性的范围将扩人类理性的范围将扩人类理性的范围将扩大,决策的质量就能大,决策的质量就能大,决策的质量就能大,决策的质量就能提高。提高。提高。提高。决策决策决策决策支持支持支持支持商务智能商务智能商务智能商务智能2
3、022/12/78数据挖掘的发展动力数据挖掘的发展动力需要是发明之母需要是发明之母u数据爆炸但知识贫乏数据爆炸但知识贫乏u全球每秒全球每秒290290万份电子邮件、每秒亚马逊产生万份电子邮件、每秒亚马逊产生72.972.9笔订单,每分钟笔订单,每分钟2020个小时视屏上传到个小时视屏上传到YouTube,GoogleYouTube,Google每天处理每天处理24PB24PB数据;淘宝有数据;淘宝有6 6亿注亿注册会员,在线商品超过册会员,在线商品超过9 9亿,每天交易超过数千亿。亿,每天交易超过数千亿。u自动自动数据收集工具和成熟的数据库技术使得大量数据收集工具和成熟的数据库技术使得大量的数
4、据被收集,存储在数据库、数据仓库或其他的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析信息库中以待分析。u这些这些数据数据当中大量有用当中大量有用的知识被淹没其中的知识被淹没其中。2022/12/79解决方法-数据仓库和数据挖掘u数据仓库(ata Warehouse)和在线分析处理(OLAP)u在大量的数据中挖掘感兴趣的知识(规则、规律、模式、约束)u支持数据挖掘技术的基础支持数据挖掘技术的基础 -海量数据搜集海量数据搜集-强大的多处理器计算机强大的多处理器计算机-数据挖掘算法数据挖掘算法 数据仓库数据仓库是一个数据仓库是一个数据仓库是一个数据仓库是一个面向主题的,集面向主题的,集面
5、向主题的,集面向主题的,集成的,相对稳定成的,相对稳定成的,相对稳定成的,相对稳定的,反映历史变的,反映历史变的,反映历史变的,反映历史变化的数据集合,化的数据集合,化的数据集合,化的数据集合,用于支持管理中用于支持管理中用于支持管理中用于支持管理中的决策支持。的决策支持。的决策支持。的决策支持。数据仓库体系结构数据仓库体系结构l数据源:数据源:通常包括企业内部信息和外部信息。内通常包括企业内部信息和外部信息。内部信息包括存放于部信息包括存放于RDBMSRDBMS中的各种业务处理数据和中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场各类文档数据。外部信息包括各类法律法规、市场
6、信息和竞争对手的信息信息和竞争对手的信息等等。等等。l数据的存储与数据的存储与管理:管理:决定决定采用什么产品和技术采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。库和部门级数据仓库(通常称为数据集市)。数据仓库体系结构lOLAP(On
7、Line Analysis Processing)对对分析需要的数据进行有效集成,按多维模型予以分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋组织,以便进行多角度、多层次的分析,并发现趋势。势。lROLAPROLAP(关系型在线分析处理),基本数据和聚合数(关系型在线分析处理),基本数据和聚合数据均存放在据均存放在RDBMSRDBMS之中;之中;lMOLAPMOLAP(多维在线分析处理)和(多维在线分析处理)和HOLAPHOLAP(混合型线上(混合型线上分析处理),基本数据和聚合数据均存放于多维数分析处理),基本数据和聚合数据均存放于多维数据库中;据库中
8、;lHOLAPHOLAP基本数据存放于基本数据存放于RDBMSRDBMS之中,聚合数据存放于之中,聚合数据存放于多维数据库中。多维数据库中。数据仓库体系结构l前端前端工具工具各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。l数据分析工具主要针对OLAP服务器l报表工具、数据挖掘工具主要针对数据仓库。数据仓库四大特点数据仓库四大特点l l数据仓库是数据仓库是数据仓库是数据仓库是面向主题的。面向主题的。面向主题的。面向主题的。数据库数据库数据库数据库的数据组织面向事务处理任务,而数据仓库的数据组织面向事务处理任务,而数据仓库的数据组织面向事务处理任务
9、,而数据仓库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指中的数据是按照一定的主题域进行组织。主题是指中的数据是按照一定的主题域进行组织。主题是指中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,用户使用数据仓库进行决策时所关心的重点方面,用户使用数据仓库进行决策时所关心的重点方面,用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关一个主题通常与多个操作型信息系统相关一个主题通常与多个操作型信息系统相关一个主题通常与多个操作型信息系统相关。l l数据仓库是集成数据仓库是集成数据仓库是集成数据
10、仓库是集成的的的的。数据数据数据数据仓库的数据有来自于分散的操作型数据,将仓库的数据有来自于分散的操作型数据,将仓库的数据有来自于分散的操作型数据,将仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中所需数据从原来的数据中所需数据从原来的数据中所需数据从原来的数据中抽取抽取抽取抽取出来,进行加工与出来,进行加工与出来,进行加工与出来,进行加工与集成集成集成集成,转换转换转换转换统一统一统一统一与综合之后才能进入数据仓库;与综合之后才能进入数据仓库;与综合之后才能进入数据仓库;与综合之后才能进入数据仓库;数据仓库特点l l数据仓库是随时间而变化的。数据仓库是随时间而变化的。数据仓库是随
11、时间而变化的。数据仓库是随时间而变化的。不断跟踪事务处理系统中,数据仓库会把业务系统不断跟踪事务处理系统中,数据仓库会把业务系统不断跟踪事务处理系统中,数据仓库会把业务系统不断跟踪事务处理系统中,数据仓库会把业务系统数据库中数据库中数据库中数据库中变化变化变化变化数据追加进去。传统数据追加进去。传统数据追加进去。传统数据追加进去。传统的关系数据库系的关系数据库系的关系数据库系的关系数据库系统比较适合处理格式化的数据,能够较好的满足商统比较适合处理格式化的数据,能够较好的满足商统比较适合处理格式化的数据,能够较好的满足商统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只
12、读格式保存,业商务处理的需求。稳定的数据以只读格式保存,业商务处理的需求。稳定的数据以只读格式保存,业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变且不随时间改变且不随时间改变且不随时间改变。l l数据仓库是稳定的(非易失性的数据仓库是稳定的(非易失性的数据仓库是稳定的(非易失性的数据仓库是稳定的(非易失性的)。其数据以物理分离的方式存储其数据以物理分离的方式存储其数据以物理分离的方式存储其数据以物理分离的方式存储,决策人员只进行数决策人员只进行数决策人员只进行数决策人员只进行数据查询,而不进行数据修改。数据仓库只需要两类据查询,而不进行数据修改。数据仓库只需要两类据查询,而不进行数
13、据修改。数据仓库只需要两类据查询,而不进行数据修改。数据仓库只需要两类操作:数据的初始化装入和数据访问操作:数据的初始化装入和数据访问操作:数据的初始化装入和数据访问操作:数据的初始化装入和数据访问2022/12/723数据挖掘与知识发现基本概念数据挖掘(从数据中发现知识)数据挖掘(DM):从大量的数据大量的数据中正规地发现有效的、新颖的、潜在有用的,最终可被读懂的模式的过程,简单的说就是从大量数据中提取或“挖掘”知识。医学数据挖掘:是针对医学方面的数据仓库进行挖掘知识发现:知识发现(KDD)包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示等步骤有人把数据挖掘视为数据中
14、的知识发现或KDD同义词,另一些人将其视为知识发现的一个基本步骤。2022/12/725数据挖掘和知识发现的基本步骤数据挖掘和知识发现的基本步骤数据库目标数据已处理数据已转换数据模式趋势知识选择处理转换数据挖掘解释评价2022/12/726数据挖掘和知识发现的基本步骤l选择:选择:根据某种标准选择数据l处理:处理:包括清除和充实l转换:转换:删除丢失重要内容的记录,将数据分类、格式变换等l数据挖掘:数据挖掘:运用工具或算法,在数据中发现模式和规律l解释评价:解释评价:将发现的模式解释为可用于决策的知识2022/12/727数据挖掘:数据库中的知识挖掘(数据挖掘:数据库中的知识挖掘(KDD)l数
15、据挖掘知识发现过程的核心数据清理与集成数据集数据仓库任务相关数据选择数据挖掘模式评估模式2022/12/733知识发现和数据挖掘的算法l数据挖掘算法由3部分组成:模型表达、模型评价和检索方法。l关联规则。关联规则。两个或多个变量之间存在某种规律性,称为关联。如超市中顾客买可乐和玉米片的相关性。l分类分类或者特征提取。或者特征提取。如检查特定记录并描述第一类记录的特点。如信用分析。l序列模式。序列模式。注重在一定时间段内发生的购买事件。如买电视和摄像机序列。l聚类分析。聚类分析。将数据库中的记录分成子类。可用统计学方法和神经网络等非监督性符号归纳方法实现数据聚类。本章主要内容l l数据挖掘与数据
16、仓库数据挖掘与数据仓库 l l常用的数据挖掘方法常用的数据挖掘方法l l大数据概念大数据概念l l大大数据处理方法数据处理方法l l医疗大数据应用医疗大数据应用常用的数据挖掘方法l关联规则与关联分析l聚类分析l决策树l人工神经网络l遗传算法l粗糙集理论本章主要内容l l数据挖掘与数据仓库数据挖掘与数据仓库 l l常用的数据挖掘方法常用的数据挖掘方法l l大数据概念大数据概念l l大大数据处理方法数据处理方法l l医疗大数据应用医疗大数据应用大数据大数据概念和特征概念和特征l大数据概念 无法在一定时间内用传统的数据库软件工具无法在一定时间内用传统的数据库软件工具无法在一定时间内用传统的数据库软件
17、工具无法在一定时间内用传统的数据库软件工具对其内容进行抓取、管理和处理的数据集合对其内容进行抓取、管理和处理的数据集合对其内容进行抓取、管理和处理的数据集合对其内容进行抓取、管理和处理的数据集合。-维基百科维基百科维基百科维基百科奥巴马竞选连任-大数据应用Dan Wagner,奥巴马奥巴马2012年竞选团队首席分析师,长的有点像比尔年竞选团队首席分析师,长的有点像比尔 盖茨盖茨大数据在医疗行业的应用l基因组学测序分析大数据在医疗行业的应用l疫情和健康趋势分析lGOOGLE官网全球登革热趋势。/l大数据分析或可助抗击埃博大数据分析或可助抗击埃博拉。拉。l健康地图”通过搜集社交媒体、地方媒体信息,
18、比WHO早早9天天确定埃博拉出血热在几内亚境内的传播情况。大数据的作者-涂子沛l我们已经不仅仅处在信息时代l新信息时代?后信息时代?智能时代?l越来与依赖机器,越来与依赖网络,人机共生的时代,机器是数据启动的l软件定义这个世界,数据驱动这时代大数据的特征(四个V)l l数据数据数据数据量巨大(量巨大(量巨大(量巨大(VolumeVolumeVolumeVolume):):):):PBPBPBPB级以上级以上级以上级以上l l数据类型多(数据类型多(数据类型多(数据类型多(VarietyVarietyVarietyVariety):日志、音频、视频):日志、音频、视频):日志、音频、视频):日志
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 数据 挖掘 数据处理
限制150内