数学建模培训市公开课一等奖百校联赛特等奖课件.pptx
《数学建模培训市公开课一等奖百校联赛特等奖课件.pptx》由会员分享,可在线阅读,更多相关《数学建模培训市公开课一等奖百校联赛特等奖课件.pptx(46页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、数数 学学 建建 模模 培培 训训第第 十十 章章多元统计分析多元统计分析 第第 十十 章章多元统计分析多元统计分析 主主 讲:孙讲:孙 中中 奎奎第1页1问题引入问题引入2思绪点拨思绪点拨3判别分析方法判别分析方法4DNA序列分类问题求解序列分类问题求解5.参考文件参考文件目目 录录第2页 首先,我们来考虑一下“网易杯”全国大学生数学建模竞赛A题是关于“DNA序列分类”问题 1问题引入问题引入第3页 人类基因组中人类基因组中DNA全序列是由全序列是由4个碱基个碱基A,T,C,G按一定次序排成长约按一定次序排成长约30亿序列,亿序列,毫无疑问,这是一本统计着人类本身生老毫无疑问,这是一本统计着
2、人类本身生老病死及遗传进化全部信息病死及遗传进化全部信息“天书天书”。不过,。不过,除了这四种碱基外,人们对它所包含内容除了这四种碱基外,人们对它所包含内容知之甚少,怎样破译这部知之甚少,怎样破译这部“天书天书”是二十是二十一世纪最主要任务之一。在这个目标中,一世纪最主要任务之一。在这个目标中,研究研究DNA全序列含有什么结构,由这全序列含有什么结构,由这4个字个字符排成看似随机序列中隐藏着什么规律,符排成看似随机序列中隐藏着什么规律,又是解读这部天书基础,是生物信息学又是解读这部天书基础,是生物信息学(Bioinformatics)最主要课题之一。)最主要课题之一。第4页即使人类对这部即使人
3、类对这部“天书天书”知之甚少,但也知之甚少,但也发觉了发觉了DNA序列中一些规律性和结构。比如,序列中一些规律性和结构。比如,在全序列中有一些是用于编码蛋白质序列在全序列中有一些是用于编码蛋白质序列片段,即由这片段,即由这4个字符组成个字符组成64种不一样种不一样3字字符串,其中大多数用于编码组成蛋白质符串,其中大多数用于编码组成蛋白质20种氨基酸。又比如,在不用于编码蛋白质种氨基酸。又比如,在不用于编码蛋白质序列片段中,序列片段中,A和和T含量尤其多些,于是以含量尤其多些,于是以一些碱基尤其丰富作为特征去研究一些碱基尤其丰富作为特征去研究DNA序列序列结构也取得了一些结果。另外,利用统计结构
4、也取得了一些结果。另外,利用统计方法还发觉序列一些片段之间含有相关性,方法还发觉序列一些片段之间含有相关性,等等。这些发觉让人们相信,等等。这些发觉让人们相信,DNA序列中存序列中存在着局部和全局性结构,充分发掘序列结在着局部和全局性结构,充分发掘序列结构对了解构对了解DNA全序列是十分有意义。全序列是十分有意义。第5页作为研究作为研究DNA序列结构尝试,试对以下序列进行序列结构尝试,试对以下序列进行分类:分类:问题一:下面有问题一:下面有20个已知类别人工制造序列(见个已知类别人工制造序列(见附件附件1),其中序列标号),其中序列标号110 为为A类,类,11-20为为B类。请从中提取特征,
5、结构分类方法,并用这些类。请从中提取特征,结构分类方法,并用这些已知类别序列,衡量你方法是否足够好。然后用已知类别序列,衡量你方法是否足够好。然后用你认为满意方法,对另外你认为满意方法,对另外20个未标明类别人工序个未标明类别人工序列(标号列(标号2140)进行分类,把结果用序号(按)进行分类,把结果用序号(按从小到大次序)标明它们类别(无法分类不写入):从小到大次序)标明它们类别(无法分类不写入):A类类 ;B类类 。第6页问题二:请对问题二:请对 182个自然个自然DNA序序列列(http:/ 问题本问题本 质质对另外对另外20个未标明类别个未标明类别DNA序列进行分类序列进行分类 依据依
6、据所给所给20个个已知已知类别类别DNA序列序列所提所提供信供信息息 对对182个自然个自然DNA序列进行分类序列进行分类 第8页 假如将每一个假如将每一个DNADNA序列都看作样本,那序列都看作样本,那么该问题就深入提炼成一个纯粹数学问题:么该问题就深入提炼成一个纯粹数学问题:设有两个总体(类)设有两个总体(类)和和 ,其分其分布特征(来自各个总体样本)已知,对给布特征(来自各个总体样本)已知,对给定新品定新品 ,我们需要判断其属于哪个,我们需要判断其属于哪个总体(类)。总体(类)。对于上面数学问题,能够用很多成熟方对于上面数学问题,能够用很多成熟方法来处理,比如:法来处理,比如:(1 1)
7、BPBP神经网络;神经网络;(2 2)聚类分析;)聚类分析;(3 3)判别分析;等等。)判别分析;等等。第9页 怎样选取方法是建模过程中需要处理另外一个问怎样选取方法是建模过程中需要处理另外一个问题:题:BPBP神经网络是人工神经网络一个,它经过对训练神经网络是人工神经网络一个,它经过对训练样本学习,提取样本隐含信息,进而对新样本类别进样本学习,提取样本隐含信息,进而对新样本类别进行预测。行预测。BPBP神经网络能够用以处理上面神经网络能够用以处理上面DNADNA序列分类问序列分类问题,不过,怎样提取特征、怎样提升网络训练效率、题,不过,怎样提取特征、怎样提升网络训练效率、怎样提升网络容错能力
8、、怎样建立网络结构是能否成怎样提升网络容错能力、怎样建立网络结构是能否成功处理功处理DNADNA序列分类问题关键所在;聚类分析和判别分序列分类问题关键所在;聚类分析和判别分析都是多元统计分析中经典方法,都能够用来将对象析都是多元统计分析中经典方法,都能够用来将对象(或观察值)分成不一样集合或类别,不过,聚类分(或观察值)分成不一样集合或类别,不过,聚类分析更侧重于析更侧重于“探索探索”对象(或观察值)自然分组方式,对象(或观察值)自然分组方式,而判别分析则侧重于将未知类别对象(或观察值)而判别分析则侧重于将未知类别对象(或观察值)“归结归结”(或者说,分配)到已知类别中。显然,判别(或者说,分
9、配)到已知类别中。显然,判别分析更适适用来处理上面分析更适适用来处理上面DNADNA序列分类问题。序列分类问题。第10页3判别分析方法判别分析方法 判别分析是用于判别样品所属类别一个多判别分析是用于判别样品所属类别一个多元统计分析方法。判别分析问题都能够这么描元统计分析方法。判别分析问题都能够这么描述:设有述:设有 个个 维总体维总体 ,其分布特征,其分布特征已知(如已知分布函数分别为已知(如已知分布函数分别为 或者或者已知来自各个总体样本),对给定一个新样品已知来自各个总体样本),对给定一个新样品 ,我们需要判断其属于哪个总体。普通来说,我们需要判断其属于哪个总体。普通来说,依据判别规则不一
10、样,能够得到不一样判别方依据判别规则不一样,能够得到不一样判别方法法,比如,距离判别、贝叶斯(,比如,距离判别、贝叶斯(Bayes)判别、)判别、费希尔(费希尔(Fisher)判别、逐步判别、序贯判别等。)判别、逐步判别、序贯判别等。这里,我们简单介绍三个惯用判别方法:距离这里,我们简单介绍三个惯用判别方法:距离判别、贝叶斯(判别、贝叶斯(Bayes)判别和费希尔)判别和费希尔(Fisher)判别。)判别。第11页判判 别别 分分 析析 方方 法法1.距离判别距离判别2.贝叶斯(贝叶斯(Bayes)判别)判别3.费希尔(费希尔(Fisher)判别)判别4.判别分析模型判别分析模型 显著性检验显
11、著性检验 第12页3.1 距离判距离判别别 距离判别基本思想:样品距离判别基本思想:样品 X X离离哪个总体距离最近,就判断哪个总体距离最近,就判断 X X 属于哪个总体。属于哪个总体。这里这里“距离距离”是通常意义下距离是通常意义下距离(欧几里得距离:在(欧几里得距离:在 m m 维欧几里得空维欧几里得空间间 R R 中,两点中,两点 与与 欧几里得距离,也就是欧几里得距离,也就是通常我们所说距离为通常我们所说距离为 )吗?)吗?带着这个疑问,我们来考虑这么带着这个疑问,我们来考虑这么一个问题一个问题:第13页 设有两个正态总体设有两个正态总体 ,和和 ,现在有一个新样品位于现在有一个新样品
12、位于 A A 处(参见图处(参见图1 1)从图中不难看出:从图中不难看出:,是否,是否 A A 处处样品属于总体样品属于总体 呢?呢?图图 1第14页 显然不是,因为从概率角度来看,总显然不是,因为从概率角度来看,总体体 样本比较分散,而总体样本比较分散,而总体 样本则非样本则非常集中,所以常集中,所以 处样品属于总体处样品属于总体 概率概率显著大于属于总体显著大于属于总体 概率,也就是说,概率,也就是说,处样品属于总体处样品属于总体 “可能性可能性”显著大于显著大于属于总体属于总体 “可能性可能性”!这也说明了用!这也说明了用欧几里得距离来度量样品到总体距离不欧几里得距离来度量样品到总体距离
13、不足。所以,需要引入新距离概念足。所以,需要引入新距离概念这这就是下面给出马氏距离。就是下面给出马氏距离。第15页定义定义1 1(马氏距离):设总体(马氏距离):设总体 G 为为 m 维总体维总体 (m m 个原因或指标),其均个原因或指标),其均值向量为值向量为 (这里(这里 T T 表示表示转置),协方差阵为转置),协方差阵为 ,则样品,则样品 到总体到总体 G G 马马氏距离定义为氏距离定义为第16页3.1.1 3.1.1 两总体距离判别两总体距离判别 先考虑两个总体(先考虑两个总体()情况。设有)情况。设有两个总体两个总体 和和 ,和和 分别是分别是 和和 协方差协方差阵,阵,和和 分
14、别是分别是 和和 均值。对于新样品均值。对于新样品 ,需要判断它来自那个总体。,需要判断它来自那个总体。设来自设来自 ()训练样本为)训练样本为其中其中 表示来自哪个总体,表示来自哪个总体,表示来自总体表示来自总体 样本量。样本量。第17页要判断新样品要判断新样品 来自哪个总体,普通想法是分别来自哪个总体,普通想法是分别计算新样品到两个总体马氏距离计算新样品到两个总体马氏距离 和和 :假如假如 则判定则判定 ;反之,假如反之,假如 则判定则判定 :即即 (1 1)A.A.时判别方法时判别方法第18页其中其中 ,记记 为了得到更简单判别规则,我们下面计为了得到更简单判别规则,我们下面计算新样品到
15、两个总体马氏距离算新样品到两个总体马氏距离 和和 差差第19页显然,判别规则(显然,判别规则(1 1)式等价于)式等价于 (2 2)通常,称通常,称 为判别系数向量称为判别系数向量称 为线性判别函数。为线性判别函数。注意判别准则(注意判别准则(1 1)式或者()式或者(2 2)式将)式将 维空间维空间 划分成两部分:划分成两部分:和和 也即也即 。距离判别实质就是:给出空。距离判别实质就是:给出空间间 一个划分一个划分 和和 ,假如样品,假如样品 落入落入 之中,则判之中,则判定定 ;假如样品;假如样品 落入落入 之中,则判定之中,则判定 。第20页 当当 时,依据判别准则(时,依据判别准则(
16、1 1)式,我们一)式,我们一样给出判别函数样给出判别函数 为为对应判别规则为对应判别规则为 (3 3)B.B.时判别方法时判别方法第21页 在实际应用中,总体均值和协方差阵普通是在实际应用中,总体均值和协方差阵普通是未知,我们所知道仅仅是一组样本或者观察值,未知,我们所知道仅仅是一组样本或者观察值,在这种情况下,就需要利用数理统计知识,对在这种情况下,就需要利用数理统计知识,对 进行预计。进行预计。利用已知样本,易得利用已知样本,易得 无偏预无偏预计分别为计分别为C.C.预计预计 第22页 对于多个总体情况,能够类似于两个总体处理对于多个总体情况,能够类似于两个总体处理过程,我们给出以下步骤
17、:过程,我们给出以下步骤:第一步:计算样品第一步:计算样品 到每个总体马氏距离到每个总体马氏距离 ;第二步:比较第二步:比较 大小,将样品大小,将样品 判为距离最小那个总体。判为距离最小那个总体。假如均值为:假如均值为:和协方差:和协方差:未知,能够类似两个总体情形利用训练样原来进行未知,能够类似两个总体情形利用训练样原来进行预计。这里不再赘述。预计。这里不再赘述。3.1.2 多总体距离判别多总体距离判别第23页3.1.3 3.1.3 距离判别不足距离判别不足 距离判别方法简单实用,轻易实现,而且距离判别方法简单实用,轻易实现,而且结论意义明确。不过,距离判别没有考虑:结论意义明确。不过,距离
18、判别没有考虑:(1 1)各总体本身出现可能性在距离判别中没)各总体本身出现可能性在距离判别中没有考虑;有考虑;(2 2)错判造成损失在距离判别中也没有考虑。)错判造成损失在距离判别中也没有考虑。在很多情况下,不考虑上面两种原因是不在很多情况下,不考虑上面两种原因是不合理。贝叶斯(合理。贝叶斯(BayesBayes)判别方法克服了距离判)判别方法克服了距离判别不足。别不足。第24页与前面距离判别方法不一样是:所谓贝与前面距离判别方法不一样是:所谓贝叶斯(叶斯(BayesBayes)判别,就是在考虑各总体)判别,就是在考虑各总体先验概率和错判损失情况下,给出空间先验概率和错判损失情况下,给出空间
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 培训 公开 一等奖 联赛 特等奖 课件
限制150内