聚类分析基因芯片精选PPT.ppt

资源ID：42765927 资源大小：3.51MB 全文页数：47页
资源格式： PPT 下载积分：18金币

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要18金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

聚类分析基因芯片精选PPT.ppt

聚类分析基因芯片第1页，此课件共47页哦6.1 引言v判别分析和聚类分析是两种不同目的的分类方法，它们所起的作用是不同的。判别分析方法假定组（或类）已事先分好，判别新样品应归属哪一组，对组的事先划分有时也可以通过聚类分析得到。聚类分析方法是按样品（或变量）的数据特征，把相似的样品（或变量）倾向于分在同一类中，把不相似的样品（或变量）倾向于分在不同类中。v聚类分析根据分类对象不同分为Q型和R型聚类分析。第2页，此课件共47页哦6.2 距离和相似系数v相似性度量：距离和相似系数。v距离常用来度量样品之间的相似性，相似系数常用来度量变量之间的相似性。v样品之间的距离和相似系数有着各种不同的定义，而这些定义与变量的类型有着非常密切的关系。第3页，此课件共47页哦变量的测量尺度v通常变量按测量尺度的不同可以分为间隔、有序和名义尺度变量三类。v间隔尺度变量：变量用连续的量来表示，如长度、重量、速度、温度等。v有序尺度变量：变量度量时不用明确的数量表示，而是用等级来表示，如某产品分为一等品、二等品、三等品等有次序关系。v名义尺度变量：变量用一些类表示，这些类之间既无等级关系也无数量关系，如性别、职业、产品的型号等。v本章主要讨论具有间隔尺度变量的样品聚类分析方法。第4页，此课件共47页哦第5页，此课件共47页哦v距离有多种定义方法，在聚类分析中最常用的是欧氏距离，即有v当各变量的单位不同或测量值范围相差很大时，应先对各变量的数据作标准化处理。最常用的标准化处理是，令其中和分别为第个变量的样本均值和样本方差。第6页，此课件共47页哦二、相似系数v聚类分析方法不仅用来对样品进行分类，而且可用来对变量进行分类，在对变量进行分类时，常常采用相似系数来度量变量之间的相似性。v变量之间的这种相似性度量，在一些应用中要看相似系数的大小，而在另一些应用中要看相似系数绝对值的大小。v相似系数(或其绝对值)越大，认为变量之间的相似性程度就越高；反之，则越低。v聚类时，比较相似的变量倾向于归为一类，不太相似的变量归属不同的类。第7页，此课件共47页哦相似系数一般需满足的条件v（1），当且仅当和是常数；（2），对一切；（3），对一切。第8页，此课件共47页哦最常用的两个相似系数第9页，此课件共47页哦第10页，此课件共47页哦v相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性，同样，距离有时也用来度量变量之间的相似性。v由距离来构造相似系数总是可能的，如令这里为第个样品与第个样品的距离，显然满足定义相似系数的三个条件，故可作为相似系数。v距离必须满足定义距离的四个条件，所以不是总能由相似系数构造。高尔（Gower）证明，当相似系数矩阵为非负定时，如令则满足距离定义的四个条件。第11页，此课件共47页哦6.3 系统聚类法v系统聚类法是聚类分析诸方法中用得最多的一种。v基本思想是：开始将个样品各自作为一类，并规定样品之间的距离和类与类之间的距离，然后将距离最近的两类合并成一个新类，计算新类与其他类的距离；重复进行两个最近类的合并，每次减少一类，直至所有的样品合并为一类。第12页，此课件共47页哦常用的系统聚类方法v一、最短距离法 v二、最长距离法v三、中间距离法v四、类平均法v五、重心法v六、离差平方和法(Ward方法)第13页，此课件共47页哦一、最短距离法v定义类与类之间的距离为两类最近样品间的距离，即第14页，此课件共47页哦最短距离法的聚类步骤v(1)规定样品之间的距离，计算个样品的距离矩阵，它是一个对称矩阵。v(2)选择中的最小元素，设为，则将和合并成一个新类，记为，即v(3)计算新类与任一类之间距离的递推公式为第15页，此课件共47页哦最短距离法的聚类步骤v在中，和所在的行和列合并成一个新行新列，对应，该行列上的新距离值由（6.3.2）式求得，其余行列上的距离值不变，这样就得到新的距离矩阵，记作。v(4)对重复上述对的两步得，如此下去直至所有元素合并成一类为止。v如果某一步中最小的元素不止一个，则称此现象为结(tie)，对应这些最小元素的类可以任选一对合并或同时合并。第16页，此课件共47页哦第17页，此课件共47页哦第18页，此课件共47页哦第19页，此课件共47页哦二、最长距离法v类与类之间的距离定义为两类最远样品间的距离，即第20页，此课件共47页哦v最长距离法与最短距离法的并类步骤完全相同，只是类间距离的递推公式有所不同。v递推公式：v最长距离法容易被异常值严重地扭曲，一个有效的方法是将这些异常值单独拿出来后再进行聚类。第21页，此课件共47页哦第22页，此课件共47页哦三、中间距离法v类与类之间的距离既不取两类最近样品间的距离，也不取两类最远样品间的距离，而是取介于两者中间的距离。第23页，此课件共47页哦第24页，此课件共47页哦第25页，此课件共47页哦第26页，此课件共47页哦第27页，此课件共47页哦第28页，此课件共47页哦第29页，此课件共47页哦第30页，此课件共47页哦第31页，此课件共47页哦第32页，此课件共47页哦第33页，此课件共47页哦v以上我们对例6.3.1采用了多种系统聚类法进行聚类，其结果都是相同的，原因是该例只有很少几个样品，此时聚类的过程不易有什么变化。一般来说，只要聚类的样品数目不是太少，各种聚类方法所产生的聚类结果一般是不同的，甚至会有大的差异。从下面例子中可以看到这一点。第34页，此课件共47页哦第35页，此课件共47页哦第36页，此课件共47页哦第37页，此课件共47页哦第38页，此课件共47页哦v从这三个树形图来看，只有Ward方法较好地符合了我们的实际聚类要求，它将31个地区分为以下三类：v第类：北京、浙江、上海和广东。这些都是我国经济最发达、城镇居民消费水平最高的沿海地区。第类：天津、江苏、云南、重庆、河北、新疆、山东、湖北、四川、湖南、福建、广西、海南和西藏。这些地区在我国基本上属于经济发展水平和城镇居民消费水平中等的地区。第类：山西、甘肃、内蒙古、辽宁、黑龙江、吉林、青海、宁夏、安徽、贵州、河南、陕西和江西。这些地区在我国基本上属于经济较落后地区，城镇居民的消费水平也是较低的。v如果分为五类，则广东和西藏将各自为一类。第39页，此课件共47页哦单调性v令是系统聚类法中第次并类时的距离，如果一种系统聚类法能满足，则称它具有单调性。这种单调性符合系统聚类法的思想，先合并较相似的类，后合并较疏远的类。v最短距离法、最长距离法、可变法、类平均法、可变类平均法和离差平方和法都具有单调性，但中间距离法和重心法不具有单调性。第40页，此课件共47页哦类的个数v如果能够分成若干个很分开的类，则类的个数就比较容易确定；反之，如果无论怎样分都很难分成明显分开的若干类，则类个数的确定就比较困难了。v确定类个数的常用方法有：1.给定一个阈值T。2.观测样品的散点图。3.使用统计量。包括：统计量，半偏统计量，伪统计量和伪统计量。第41页，此课件共47页哦6.4 动态聚类法v动态聚类法的基本思想是，选择一批凝聚点或给出一个初始的分类，让样品按某种原则向凝聚点凝聚，对凝聚点进行不断的修改或迭代，直至分类比较合理或迭代稳定为止。类的个数k可以事先指定，也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。v动态聚类法有许多种方法，本节中，只讨论一种比较流行的动态聚类法k均值法。k均值法是由麦奎因(MacQueen,1967)提出并命名的一种算法。第42页，此课件共47页哦k均值法的基本步骤v(1)选择k个样品作为初始凝聚点，或者将所有样品分成k个初始类，然后将这k个类的重心(均值)作为初始凝聚点。v(2)对除凝聚点之外的所有样品逐个归类，将每个样品归入凝聚点离它最近的那个类（通常采用欧氏距离），该类的凝聚点更新为这一类目前的均值，直至所有样品都归了类。v(3)重复步骤(2)，直至所有的样品都不能再分配为止。第43页，此课件共47页哦v最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明，聚类过程中的绝大多数重要变化均发生在第一次再分配中。第44页，此课件共47页哦第45页，此课件共47页哦第46页，此课件共47页哦例6.4.2v对例6.3.3使用k均值法进行聚类，聚类前对各变量作标准化变换，聚类结果如下：第类：北京、上海和浙江。第类：广东。第类：天津、江苏、福建、山东、湖南、广西、重庆、四川和云南。第类：河北、山西、内蒙古、辽宁、吉林、黑龙江、安徽、江西、河南、湖北、海南、贵州、陕西、甘肃、青海、宁夏和新疆。第类：西藏。第47页，此课件共47页哦

注意事项

本文（聚类分析基因芯片精选PPT.ppt）为本站会员（石***）主动上传，淘文阁 - 分享文档赚钱的网站仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知淘文阁 - 分享文档赚钱的网站（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。