医学数据挖掘(共5页).doc
《医学数据挖掘(共5页).doc》由会员分享,可在线阅读,更多相关《医学数据挖掘(共5页).doc(5页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、精选优质文档-倾情为你奉上第一章一填空1数据挖掘和知识发现的三大主要技术为:数据库、统计学、机器学习2数据挖掘获得知识的表现形式主要有6种:规则、决策树、知识基网络权值、公式、案例3规则是由前提条件、结论两部分组成4基于案例推理CBR的基础是案例库5知识发现的基本步骤:数据选择、处理、转换、数据挖掘、解释与评价。数据挖掘是知识发现的关键步骤6数据挖掘的核心技术是:人工智能、机器学、统计学7.目前数据挖掘在医学领域的应用集中在疾病辅助诊断、药物开发、医院信息系统、遗传学等方面二名解1数据挖掘DM:在数据中正规的发现有效的、新颖的、潜在有用的、并且最终可以被读懂的模式的过程2案例推理CBR:当要解
2、决一个新问题时,CBR利用相似性检索技术到案例库中搜索与新问题相似的案例,再经过对就案例的修改来解决新问题三简答1数据挖掘的特点 a挖掘对象是超大型的DB,b发现隐含的知识,c可以用于增进人类认知的知识,d不是手工完成的2案例是解决新问题的一种知识,案例知识表示为三元组 a问题描述:对求解的问题及周围环境的所有特征的描述,b解描述:对问题求解方案的描述,c效果描述:描述解决方案后的结果情况,是失败还是成功3医学数据挖掘存在的关键问题 a数据预处理,b信息融合技术,c快速的鲁棒的书库挖掘算法,d提供知识的准确性和安全性4数据挖掘在遗传学方面的应用 遗传学的研究表明,遗传疾病的发生是由基因决定的,
3、基因数据库搜索技术在基因研究上做出了很多重大发现,其工作主要包括:a从各种生物体的大量DNA序列中定位出具有某种功能的基因,b在基因DB中搜索与某种具有高阶结构或功能的蛋白质相似的高阶结构序列第二章一填空1DM的对象分为:关系型DB、数据仓库、文本DB、复杂类型DB2从用户角度来看,数据仓库的基本组成包括:数据源、数据存储、应用工具、可视化用户界面3数据仓库是最流行的数据模型是多维数据模型,多维数据模型将数据看作是数据立方体的形式,数据立方体是由维和事实来定义4常用的多维数据模式包括:星型模式、雪花模式、事实星座模式。星型模式是由事实表和维表构成5WEB 分为:内容挖掘、结构挖掘、使用挖掘二名
4、解数据仓库:一个面向主题的、集成的、时变的、非易失的数据集合,用以支持管理活动的决策过程数据立方体:指以两维或多维来描述或者分类数据。这里的维类似于关系数据结构中的属性或者字段数据挖掘:指同万维网相关数据的挖掘三简答人们使用文本DB的三个主要目的 a用户需要便利的获得全文文本,即文献检索,b用户应用此类数据库确定需要阅读的相关资料,c用户希望从文本数据库中获得信息的特异性片段,即从相关资料的特异性部分获得某个特意问题的答案2WEB数据库中的数据可以分为五个类别 a网页的内容,b网页间的结构,c网页内的结构,d描述用户如何使用网页的数据,e用户的人口统计学和注册信息第三章一.填空题1.确定商业目
5、标,认清数据挖掘的目的是DM的第一步2.影响DM结果质量的两个因素是:所采用DM技术的有效性(模型的选择),用于挖掘的数据的质量和数量3.数据质量的含义包含四个方面:数据的正确性,数据的一致性,数据的完整性,数据的可靠性4.数据清洗的技术:空值处理,噪音数据,不一致数据等处理技术5.数据挖掘模型按功能可分为:预测模型,描述模型.其中前者包括:分类模型,回归模型,时间序列模型;后者包括:聚类模型,关联模型,序列模型6.模型准确性的测试分为三类:简单验证,交叉验证,自举法二.名词解释1.静态数据:开展业务活动所需要的基本数据(动态数据的基础,保持数据的唯一性)动态数据:指每笔业务发生时产生的事务处
6、理信息2.数据归纳:其目的是建立用于挖掘的合适的数据集合,缩小处理范围,是在数据选择的基础上对挖掘数据的进一步约简,又叫数据缩减或数据收缩三:简答1.CRISP-DM模型的六个阶段 理解问题,理解数据,准备数据,建立模型,方案评估,方案实施2.数据准备包含的方面a从多个数据源中整合数据挖掘所需要的数据,保证数据的综合性,易用性,数据的质量和数据的时效性;b如何从现有数据中衍生出所需要的指标3.在数据生成,处理和管理的许多阶段都会引入错误,主要包括 a数据输入和获得过程的错误;b数据集成所表现出来的错误(a度量纲问题b命名冲突问题c数据精度问题d汇总问题);c数据传输过程所引入的错误4.通过历史
7、数据预测未来,它的的有效性的前提条件隐藏着三个假设为 a过去是将来的好的预测器;b数据是可利用的;c数据包含我们想要的预测5.预测模型和描述模型的区别 数据挖掘模型按照功能分为预测模型和描述模型.在预测模型中,用来预测的称为独立变量,要预测的称为相关变量或目标变量.预测模型包括分类模型,回归模型和时间序列模型;描述模型包括聚类模型,关联模型和序列模型.前者有时又称为有监督学习,可直接用来检测模型的准确性,一般在建立这些模型时,使用一部分数据作为样本,用另一部分数据来检验,校正模型;后者又称为无监督学习,因为在模型建立前结果是未知的,模型的产生不受任何监督 第四章一.填空1关联分析就是用于发现隐
8、藏在大型数据集中的令人感兴趣的联系,所发现的联系可以利用关联规则或者频繁项集的形式表示2.关联规则算法通常采用的策略是把关联规则挖掘任务分解为两步:找出所有频繁的项集;由频繁项集产生强关联规则3.Apriori算法的两大缺点:可能产生大量的候选集,可能需要重复扫描数据库4.Apriori算法优化的四种思路:减少DB描述的次数,对挖掘的数据集中进行扫描,利用修剪技术来减少候选集Ck的大小,并行数据挖掘5.同层关联规则可以采用的两种支持策略:统一的最小支持度,递减的最小支持度第五章 聚类分析一,填空.1.大多数聚类算法采用的两种具有代表性的数据结构:数据矩阵,相异度矩阵.2.基于划分的聚类分析方法
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 数据 挖掘
限制150内