代谢组学-许国旺.ppt
代谢组学代谢组学-方法与应用方法与应用 授课教师授课教师:吴敬:吴敬 教授教授 授课时间:授课时间:2009年年11月月1江南大学 “基因组学反映了什么是可以发生的,转录基因组学反映了什么是可以发生的,转录组学反映的是将要发生的,蛋白质组学指出了组学反映的是将要发生的,蛋白质组学指出了赖以发生的,只有代谢组学才真正反映业已发赖以发生的,只有代谢组学才真正反映业已发生的。生的。”许国旺许国旺2江南大学第一章第一章 代谢组学的简介代谢组学的简介 第二章第二章 代谢组学的研究方法代谢组学的研究方法第四章第四章 代谢组学的应用代谢组学的应用第五章第五章 代谢组学的发展前景代谢组学的发展前景 3江南大学组学时代组学时代4 4种最重要的组学种最重要的组学4江南大学代谢组学代谢组学(Metabonomics/Metabolomics Metabonomics/Metabolomics)是通过考察生)是通过考察生物体系(细胞、组织物体系(细胞、组织 或生物体)受刺激或扰动后(如将某或生物体)受刺激或扰动后(如将某个特定的基因变异或环境变化后),其代谢产物的变化或其个特定的基因变异或环境变化后),其代谢产物的变化或其随时间的变化,来研究生物体系的一门科学。随时间的变化,来研究生物体系的一门科学。代谢组代谢组(metabolomemetabolome)是基因组的下游产物也是最终产物,)是基因组的下游产物也是最终产物,是一些参与生物体新陈代谢、维持生物体正常生长功能是一些参与生物体新陈代谢、维持生物体正常生长功能 和和生长发育的小分子化合物的集合,主要是相对分子量小于生长发育的小分子化合物的集合,主要是相对分子量小于10001000的内源性小分子。的内源性小分子。代谢物数量因物种不同而差异较大:代谢物数量因物种不同而差异较大:植物(植物(200 000200 000种)、动物(种)、动物(25002500种)、微生物(种)、微生物(15001500种)种)5江南大学 代谢组学是继代谢组学是继基因组学基因组学和和蛋白质组学蛋白质组学之后新近发展之后新近发展起来的一门起来的一门学科学科,是,是系统生物学系统生物学的重要组成部分。的重要组成部分。基因组学和蛋白质组学分别从基因组学和蛋白质组学分别从基因基因和和蛋白质蛋白质层面探层面探寻寻生命生命的活动,而实际上的活动,而实际上细胞细胞内许多生命活动是发生在内许多生命活动是发生在代谢物层面的,如细胞信号释放(代谢物层面的,如细胞信号释放(cell signalingcell signaling),),能量传递,细胞间通信等都是受代谢物调控的。代谢组能量传递,细胞间通信等都是受代谢物调控的。代谢组学正是研究代谢组(学正是研究代谢组(metabolomemetabolome)在某一时刻细胞在某一时刻细胞内所有代谢物的集合内所有代谢物的集合的一门学科。基因与蛋白质的的一门学科。基因与蛋白质的表达紧密相连,而代谢物则更多地反映了细胞所处的环表达紧密相连,而代谢物则更多地反映了细胞所处的环境,这又与细胞的营养状态,药物和环境污染物的作用,境,这又与细胞的营养状态,药物和环境污染物的作用,以及其它外界因素的影响密切相关。以及其它外界因素的影响密切相关。因此有人认为,因此有人认为,“基因组学和蛋白质组学告诉你什基因组学和蛋白质组学告诉你什么可能会发生,而代谢组学则告诉你什么确实发生了。么可能会发生,而代谢组学则告诉你什么确实发生了。”(Bill Lasley,UC DavisBill Lasley,UC Davis)6江南大学198219821983198319841984198919891999199920002000200120012002200220042004Van De GreefVan De Greef:publication of MS for urine profilingSadler,Buckingham and Sadler,Buckingham and Nicholson:Nicholson:First publication on 1H-NMR of blood and plasmaNicholson,et al.:Nicholson,et al.:Multi-component analysis of spectra data from rat urineNicholson and Wilson:NMR spectroscopy of biofluidsNicholson:Nicholson:Definition of MetabonomicsHaselden,et al.:Haselden,et al.:First independent Pharma publication of MetabonomicsNicholson,Lindon,and Nicholson,Lindon,and Holmes:Holmes:Publication in Nature on MetabonomicsHolmes and Antti Holmes and Antti Explanation of statistics in MetabonomicsIncreasing#of Increasing#of publicationspublications第一章第一章 代谢组学简介代谢组学简介代谢组学的发展代谢组学的发展7江南大学代谢组学的特点:代谢组学的特点:1.1.关注内源化合物关注内源化合物2.2.对生物体系的小分子化合物进行定量定性研究对生物体系的小分子化合物进行定量定性研究3.3.上述化合物的上调和下调指示了与疾病、毒性、基因上述化合物的上调和下调指示了与疾病、毒性、基因修饰或环境因子的影响修饰或环境因子的影响4.4.上述内源性化合物的知识可以被用于疾病的诊断和药上述内源性化合物的知识可以被用于疾病的诊断和药物筛选物筛选与转录组学和蛋白组学相比,代谢组学有以下优点:与转录组学和蛋白组学相比,代谢组学有以下优点:1.1.基因与蛋白质表达的微小变化会在代谢物上得到放大,基因与蛋白质表达的微小变化会在代谢物上得到放大,从而使检测更容易从而使检测更容易2.2.代谢组学的研究不需要建立全基因测序及大量序列标代谢组学的研究不需要建立全基因测序及大量序列标签(签(ESTEST)的数据库)的数据库3.3.代谢物的研究种类远小于蛋白质的数目代谢物的研究种类远小于蛋白质的数目4.4.研究中采用的技术更通用研究中采用的技术更通用8江南大学 Genomics and Proteomics are not sufficient to describe reasons for toxicity or disease state 基因组学和蛋白组学对于毒性或疾病状态的描述是不足的基因组学和蛋白组学对于毒性或疾病状态的描述是不足的 Neither Genomics nor Proteomics can produce time course information which is important for animal to animal comparison 基因组学和蛋白组学都不能提供动态信息,但这些信息对于动物间的比较是重要的基因组学和蛋白组学都不能提供动态信息,但这些信息对于动物间的比较是重要的 Metabolite profiling produces information on the biochemical pathways effected 代谢物分析能提供生化途径结果的信息代谢物分析能提供生化途径结果的信息 Monitoring metabolites allows concurrent or sequential affects to be monitored,e.g.blocking of a metabolic pathway in the liver can lead to toxicity in the brain(hydrazine)代谢监控可监控即时或相继的结果,例如:阻断肝脏中代谢途径会在脑中产生毒性肼代谢监控可监控即时或相继的结果,例如:阻断肝脏中代谢途径会在脑中产生毒性肼 Metabonomics,unlike the other“omics”is non-invasive 不像别的组学研究,代谢组学是无创的不像别的组学研究,代谢组学是无创的The Need for Metabonomic Information9江南大学代谢组学研究现状代谢组学研究现状 代谢组学属于代谢组学属于全局系统生物学(全局系统生物学(Global systems Global systems biologybiology)研究方法,便于对复杂体系的整体进行认识研究方法,便于对复杂体系的整体进行认识譬如,一个正常工作的人体包括譬如,一个正常工作的人体包括“人体人体”本身和与本身和与之共同进化而来且共生的消化道微生物群体(或称菌之共同进化而来且共生的消化道微生物群体(或称菌群),孤立地研究群),孤立地研究“人体人体”本身的基因,转录子以及本身的基因,转录子以及蛋白质当然可以为人们认识人体生物学提供重要信息,蛋白质当然可以为人们认识人体生物学提供重要信息,但无法提供使人体正常工作不可缺少的菌群的信息但无法提供使人体正常工作不可缺少的菌群的信息人体血液和尿液的代谢组却携带着包括菌群在内的每人体血液和尿液的代谢组却携带着包括菌群在内的每一个细胞的信息,因此代谢组学方法对研究如人体这一个细胞的信息,因此代谢组学方法对研究如人体这样复杂的进化杂合体十分有效样复杂的进化杂合体十分有效10江南大学不同器官不同器官组织具有不同的代具有不同的代谢轮廓,广廓,广谱全采集全采集11江南大学 代谢组学已经广泛地应用到了包括药物研发代谢组学已经广泛地应用到了包括药物研发,分子生理学分子生理学,分子病理分子病理学学,基因功能组学基因功能组学,营养学营养学,环境科学等重要环境科学等重要领域领域.在代谢组学诞生后的在代谢组学诞生后的6 6年里年里,有关代谢组学的研究论文和专利以指数的形式逐年增长有关代谢组学的研究论文和专利以指数的形式逐年增长.12江南大学 代谢组学与系统生物学代谢组学与系统生物学 系统生物学概念的诞生系统生物学概念的诞生标志标志着研究哲学由着研究哲学由 还原论还原论 向向 整体论整体论 的变化的变化.系统生物学的中心任务就是要针对生物系系统生物学的中心任务就是要针对生物系统整体统整体(无论它是生物细胞无论它是生物细胞,多细胞组织多细胞组织,器官还是生物整体器官还是生物整体),),建立定量建立定量,普适普适,整体和可预测整体和可预测(QUIP)(QUIP)的认知的认知.具体而言具体而言,系统生物学研究就是要将给定生物系统的基系统生物学研究就是要将给定生物系统的基因因,转录转录,蛋白质和代谢水平所发生的事件蛋白质和代谢水平所发生的事件,相关性及其对所相关性及其对所涉及生物过程的意义进行整体性认识,从而出现了许多的涉及生物过程的意义进行整体性认识,从而出现了许多的 组组 和和 组学组学 的新概念的新概念.13江南大学 现已提出的一百多个现已提出的一百多个 组组 和和 组学组学,可以大体归纳为可以大体归纳为 基因组基因组/基因组学基因组学,转录组转录组/转录组学转录组学,蛋白质组蛋白质组/蛋白质组学蛋白质组学 和和 代谢组代谢组/代谢组学代谢组学 四四个方面个方面.显而易见显而易见,DNA,mRNA,DNA,mRNA以及蛋白质的存在为生物过程的发生提供了物质基以及蛋白质的存在为生物过程的发生提供了物质基础础(但这个过程有可能不发生但这个过程有可能不发生!),!),而代谢物质所反映的是已经发生了的生物学事而代谢物质所反映的是已经发生了的生物学事件件.因此代谢组学是对一个生物系统进行全面认识的不可缺少的一部分因此代谢组学是对一个生物系统进行全面认识的不可缺少的一部分,是全局是全局系统生物学系统生物学(global systems biology)(global systems biology)的重要基础的重要基础14江南大学第二章第二章 微生物代谢组学的研究方法微生物代谢组学的研究方法Challenges of MetabonomicsSample Complexity and Data HandlingEach sample has.,Each sample has.,a wide range of compound classes a wide variation in metabolite concentrations a large number of potential componentsEach group of samples has,Each group of samples has,many sample analyses are required for statistical relevancea complex raw dataset that needs to be processeddifferences between sample groups which need to be highlighted15江南大学 代谢组学代谢组学(metabonomics(metabonomicsmetabolomics)metabolomics)是效仿是效仿基因组学和蛋白质组学的基因组学和蛋白质组学的研究思想研究思想,对生物体内所有,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。的相对关系的研究方式,是系统生物学的组成部分。其其研究对象研究对象大都是相对分子质量大都是相对分子质量10001000以内的小分以内的小分子物质。先进分析检测技术结合模式识别和专家系统子物质。先进分析检测技术结合模式识别和专家系统等计算分析方法是代谢组学研究的等计算分析方法是代谢组学研究的基本方法基本方法。16江南大学 代谢组学代谢组学利用利用高通量、高灵敏度与高精确度的现代高通量、高灵敏度与高精确度的现代分析技术,分析技术,动态跟踪动态跟踪细胞、有机体分泌出来的体液中的细胞、有机体分泌出来的体液中的代谢物的整体组成,代谢物的整体组成,借助借助多变量统计方法,来多变量统计方法,来辩识和解辩识和解析析被研究对象的生理、病理状态及其与环境因子、基因被研究对象的生理、病理状态及其与环境因子、基因组成等的关系。组成等的关系。“代谢组学代谢组学”是一种整体性的是一种整体性的研究策略研究策略,其研究策,其研究策略有点类似于通过分析发动机的尾气成分,来研究发动略有点类似于通过分析发动机的尾气成分,来研究发动机的运行规律和故障诊断等的机的运行规律和故障诊断等的“反向工程学反向工程学”的技术思的技术思路。由于代谢组学着眼于把研究对象作为一个整体来观路。由于代谢组学着眼于把研究对象作为一个整体来观察和分析,也被称为察和分析,也被称为“整体的系统生物学整体的系统生物学”。17江南大学研究方法和步骤研究方法和步骤1.1.样品制备:足量的代表性样品(样品制备:足量的代表性样品(-80-80保存)保存)2.2.2.2.数据采集和标志物识别:常用色谱数据采集和标志物识别:常用色谱-质谱联用质谱联用 、NMRNMR3.3.3.3.数据分析:数据分析:PCAPCA、PLSPLS、ANNANN4.4.4.4.代谢途径分析:代谢轮廓分析和代谢组学分析代谢途径分析:代谢轮廓分析和代谢组学分析18江南大学The strategy for large scale metabonomics research19江南大学样品制备样品制备 微生物代谢物样品的制备一般分为微生物培养、淬灭和微生物代谢物样品的制备一般分为微生物培养、淬灭和代谢产物的提取。根据研究对象、目的和采用的分析技术不代谢产物的提取。根据研究对象、目的和采用的分析技术不同同,所需的样品提取和预处理方法各异,不存在一种普适性所需的样品提取和预处理方法各异,不存在一种普适性的标准化方法。的标准化方法。微生物代谢组学研究要求微生物的生长条件是可以控制微生物代谢组学研究要求微生物的生长条件是可以控制和重复的。在一个生物反应器中,需要严格控制温度、和重复的。在一个生物反应器中,需要严格控制温度、pHpH、培养基组成、溶解氧和二氧化碳等以明确界定生长条件,建培养基组成、溶解氧和二氧化碳等以明确界定生长条件,建立标准的和可重复的参考培养条件。微生物的培养可以以分立标准的和可重复的参考培养条件。微生物的培养可以以分批、补料或者连续培养模式进行。由于连续培养的菌体生理批、补料或者连续培养模式进行。由于连续培养的菌体生理稳定,易于控制且重现性较好,所以,大多数研究者倾向于稳定,易于控制且重现性较好,所以,大多数研究者倾向于应用生物反应器连续培养操作模式。应用生物反应器连续培养操作模式。20江南大学在样品淬灭和代谢物的提取过程中,应遵循的原则是:在样品淬灭和代谢物的提取过程中,应遵循的原则是:(1 1)淬灭工艺最好可以立即冻结细胞代谢)淬灭工艺最好可以立即冻结细胞代谢(2 2)在淬灭过程中要求细胞膜无明显损伤,以免胞内代)在淬灭过程中要求细胞膜无明显损伤,以免胞内代谢物外泄。谢物外泄。(3 3)提取过程中应该尽可能多的提取胞内代谢物。)提取过程中应该尽可能多的提取胞内代谢物。(4 4)代谢产物不应该遇到任何物理或化学修饰。)代谢产物不应该遇到任何物理或化学修饰。(5 5)得到的样品基质应与所选择的分析方法相容。)得到的样品基质应与所选择的分析方法相容。冷甲醇、液氮和热乙醇是最常用的淬灭方法,而在冷甲醇、液氮和热乙醇是最常用的淬灭方法,而在提取方面由于特定的提取条件往往仅适合某些类化合物提取方面由于特定的提取条件往往仅适合某些类化合物目前尚无一种能够适合所有代谢产物的提取方法应该根目前尚无一种能够适合所有代谢产物的提取方法应该根据不同的化合物选择不同的提取方法,并对提取条件进据不同的化合物选择不同的提取方法,并对提取条件进行优化。行优化。21江南大学 对获得的样品中所有代谢物进行分析鉴定是代谢组学对获得的样品中所有代谢物进行分析鉴定是代谢组学研究的关键步骤,也是最困难和多变的步骤。研究的关键步骤,也是最困难和多变的步骤。与原有的各种组学技术只分析特定类型的物质不同,与原有的各种组学技术只分析特定类型的物质不同,代谢组学分析对象的大小、数量、官能团、挥发性、带电代谢组学分析对象的大小、数量、官能团、挥发性、带电性、电迁移率、极性以及其他物理化学参数差异很大,要性、电迁移率、极性以及其他物理化学参数差异很大,要对它们进行无偏向的全面分析,单一的分离分析手段往往对它们进行无偏向的全面分析,单一的分离分析手段往往难以保证。难以保证。色谱、质谱、核磁共振、红外光谱、库仑分析、紫外色谱、质谱、核磁共振、红外光谱、库仑分析、紫外吸收、荧光散射、发射性检测和光散射等分离分析手段及吸收、荧光散射、发射性检测和光散射等分离分析手段及其组合都被应用于代谢组学的研究。其组合都被应用于代谢组学的研究。22江南大学23江南大学 一般来说一般来说,选择代谢物组学分析方法时选择代谢物组学分析方法时,其原则是要其原则是要同时考虑仪器和技术的检测速度、选择性和灵敏度同时考虑仪器和技术的检测速度、选择性和灵敏度,找找到一种最适合目标化合物的方法。到一种最适合目标化合物的方法。化学分析技术中最常用的是化学分析技术中最常用的是1 1H H核磁共振核磁共振(1 1HNMR)HNMR)以及以及色谱质谱联用色谱质谱联用(X-MS)(X-MS),如气相色谱耦联质谱,如气相色谱耦联质谱(GC/MS)(GC/MS)、液相色谱耦联质谱液相色谱耦联质谱(LC/MS)(LC/MS)和毛细管电泳耦联质谱联用和毛细管电泳耦联质谱联用技术技术 (CE/MS)(CE/MS)来分析研究代谢物并为其绘制图谱。这些来分析研究代谢物并为其绘制图谱。这些技术的耦联可以提高对样品的分辨率、敏感性及选择度技术的耦联可以提高对样品的分辨率、敏感性及选择度,有利于对更多的生物体系内的代谢物绘制图谱。有利于对更多的生物体系内的代谢物绘制图谱。24江南大学 GC/MS GC/MS、LC/MSLC/MS和和CE/MS CE/MS 可以同时检测出数百种化可以同时检测出数百种化合物,包括糖类、有机酸、氨基酸、脂肪酸和大量不同合物,包括糖类、有机酸、氨基酸、脂肪酸和大量不同的次生代谢物的次生代谢物 。GC/MSGC/MS有很好的分离效率且相对较为经济,但需要有很好的分离效率且相对较为经济,但需要对样品进行衍生化预处理,这一步骤会耗费额外的时间,对样品进行衍生化预处理,这一步骤会耗费额外的时间,甚至引起样品的变化。受此限制,甚至引起样品的变化。受此限制,GC/MS GC/MS 无法分析膜脂无法分析膜脂等热不稳定性的物质和分子量较大的代谢产物。等热不稳定性的物质和分子量较大的代谢产物。近来,多维分离技术如二级气相色谱飞行时间质谱近来,多维分离技术如二级气相色谱飞行时间质谱(GC-GC-TOF-MSGC-GC-TOF-MS),检测范围更广,但由于实际应用困),检测范围更广,但由于实际应用困难和花费较高等问题使其并未普遍使用。难和花费较高等问题使其并未普遍使用。25江南大学 HPLC HPLC 与与 GC GC 原理相似,但在进样前不需进行衍生原理相似,但在进样前不需进行衍生化处理,适合那些不稳定、不易衍生化、不易挥发和分化处理,适合那些不稳定、不易衍生化、不易挥发和分子量较大的化合物。子量较大的化合物。HPLC/MS HPLC/MS 选择性和灵敏度都较好,选择性和灵敏度都较好,但分析的时间相对较长,且需依赖纯的参照物。但分析的时间相对较长,且需依赖纯的参照物。CE-MSCE-MS分离样品效率比普通的色谱质谱联用要高得分离样品效率比普通的色谱质谱联用要高得多,仅需要极少的进液量多,仅需要极少的进液量nLnL),而且其测试时间短,试),而且其测试时间短,试剂成本低。剂成本低。CE-MSCE-MS在微生物代谢组领域发挥着越来越重在微生物代谢组领域发挥着越来越重要的作用。要的作用。色谱质谱连用技术具有分离效率高、灵敏度好及经色谱质谱连用技术具有分离效率高、灵敏度好及经济实用等优点。但需要解决的主要问题是:大量色谱峰济实用等优点。但需要解决的主要问题是:大量色谱峰的识别问题以及方法的重现性问题。的识别问题以及方法的重现性问题。26江南大学NMRNMR是当前代谢组学研究中的主要技术是当前代谢组学研究中的主要技术 首先,不同于质谱具有离子化程度和基质干扰等问题,首先,不同于质谱具有离子化程度和基质干扰等问题,NMR NMR 没有偏向性,对所有化合物的灵敏度是一样的;其次,没有偏向性,对所有化合物的灵敏度是一样的;其次,NMR NMR 无损伤性,不破坏样品的结构和性质,可在接近生理条无损伤性,不破坏样品的结构和性质,可在接近生理条件下进行实验,可在一定的温度和缓冲液范围内选择实验条件下进行实验,可在一定的温度和缓冲液范围内选择实验条件,可以进行实时和动态的检测;此外,件,可以进行实时和动态的检测;此外,NMR NMR 氢谱的谱峰与氢谱的谱峰与样品中各化合物的氢原子是一一对应的,所测样品中的每一样品中各化合物的氢原子是一一对应的,所测样品中的每一个氢原子在图谱中都有其相关的谱峰,图谱中信号的相对强个氢原子在图谱中都有其相关的谱峰,图谱中信号的相对强弱反映样品中各组分的相对含量,更为直观弱反映样品中各组分的相对含量,更为直观 。因此,。因此,NMR NMR 方法很适合研究代谢产物中的复杂成分。方法很适合研究代谢产物中的复杂成分。与与 GC/MS GC/MS 和和 LC/MS LC/MS 相比,相比,NMR NMR 的缺点是灵敏度低,的缺点是灵敏度低,有可能形成信号重叠,且其对样品制备的要求很高。同时因有可能形成信号重叠,且其对样品制备的要求很高。同时因为动态范围有限,很难同时测定生物体系中共存的浓度相差为动态范围有限,很难同时测定生物体系中共存的浓度相差较大的代谢产物。较大的代谢产物。27江南大学数据分析平台数据分析平台 在代谢组学研究中,大多数是从检测到的代谢产物信在代谢组学研究中,大多数是从检测到的代谢产物信息中进行两类息中进行两类(如基因突变前后的响应如基因突变前后的响应)或多类或多类(如不同表型如不同表型间代谢产物间代谢产物)的判别分类以及生物标记物的发现。由于生物的判别分类以及生物标记物的发现。由于生物样品的组成复杂,在得到分析对象的原始谱图后,首先需样品的组成复杂,在得到分析对象的原始谱图后,首先需要对数据进行预处理要对数据进行预处理(归一化和滤噪归一化和滤噪),消除干扰因素,保,消除干扰因素,保留有用信息。留有用信息。数据的解析可分为如下数据的解析可分为如下3个基本步骤:个基本步骤:(1)提取出色谱分离后未能有效分开的代谢物峰并得出其相提取出色谱分离后未能有效分开的代谢物峰并得出其相应浓度;应浓度;(2)根据其保留时间及质谱图等信息鉴别有效峰所代表的化根据其保留时间及质谱图等信息鉴别有效峰所代表的化合物;合物;(3)根据代谢数据建立代谢网络模型。根据代谢数据建立代谢网络模型。28江南大学 代谢组学分析得到的是信息含量丰富的多维数据,应用代谢组学分析得到的是信息含量丰富的多维数据,应用模式识别和多维统计分析等方法能从这些大量的数据中充分模式识别和多维统计分析等方法能从这些大量的数据中充分挖掘出其中的信息,这些方法能够为数据降维,使它们更易挖掘出其中的信息,这些方法能够为数据降维,使它们更易于可视化和分类。于可视化和分类。目前数据分析常用的两类算法是基于寻找模式的非监督目前数据分析常用的两类算法是基于寻找模式的非监督方法方法 (unsupervised method)(unsupervised method)和有监督方法和有监督方法 (supervised(supervised method)method)。非监督方法非监督方法 是用来探索完全未知的数据特征的方法,对原是用来探索完全未知的数据特征的方法,对原始数据信息依据样本特性进行归类,把具有相似特征的目标始数据信息依据样本特性进行归类,把具有相似特征的目标数据归在同源的类里,并采用相应的可视化技术直观地表达数据归在同源的类里,并采用相应的可视化技术直观地表达出来。应用在此领域的常见方法有聚类分析出来。应用在此领域的常见方法有聚类分析 (cluster(cluster analysis)analysis)和主成分分析和主成分分析 (principal components(principal components analysisanalysis,PCA)PCA)等。等。29江南大学 聚类分析聚类分析依据物以类聚的原理分析具有相似性的事依据物以类聚的原理分析具有相似性的事物,将分类对象置于一个多维空间中,根据事物彼此不同物,将分类对象置于一个多维空间中,根据事物彼此不同的属性进行辨认,将性质相近的归入一类,这样归在同一的属性进行辨认,将性质相近的归入一类,这样归在同一类的事物具有高度的相似性;聚类分析就是把事物按其相类的事物具有高度的相似性;聚类分析就是把事物按其相似程度进行分类,并找出每一类事物共同特征的分析工具。似程度进行分类,并找出每一类事物共同特征的分析工具。具体到代谢组学中,被归入一类的物质有相同的特征,具体到代谢组学中,被归入一类的物质有相同的特征,可能有相同的功能作用,这样通过同一类事物中一个研究可能有相同的功能作用,这样通过同一类事物中一个研究较为清晰的物质可以推断该类中其他物质的功能作用。聚较为清晰的物质可以推断该类中其他物质的功能作用。聚类分析过程通常可分为以下步骤:数据收集并且收集相应类分析过程通常可分为以下步骤:数据收集并且收集相应的变量;产生一个相似矩阵;决定把目标总体细分为几类,的变量;产生一个相似矩阵;决定把目标总体细分为几类,及其对每一种类别相应的定义;实施聚类分析,产生结果。及其对每一种类别相应的定义;实施聚类分析,产生结果。30江南大学 主成分分析主成分分析是目前应用最为广泛的多维分析方法之一。是目前应用最为广泛的多维分析方法之一。PCA PCA 的特点是将分散在一组变量上的信息集中到某几个综的特点是将分散在一组变量上的信息集中到某几个综合指标,即主成分合指标,即主成分 (principal component(principal component,PC)PC)上,利上,利用这些主成分来描述数据集内部结构,实际上也起着数据用这些主成分来描述数据集内部结构,实际上也起着数据降维的作用。降维的作用。主成分是由原始变量按一定的权重经线性组合而成的主成分是由原始变量按一定的权重经线性组合而成的新变量。这些变量具有以下性质:新变量。这些变量具有以下性质:1)1)每一个每一个 PC PC 之间都是之间都是正交的;正交的;2)2)第第1 1个个 PC PC 包含了数据集的绝大部分方差,第包含了数据集的绝大部分方差,第2 2个次之,依此类推。这样,由头个次之,依此类推。这样,由头2 2个或个或3 3个个 PC PC 作图,就能作图,就能够很好地代表数据集所包含的生物化学变化够很好地代表数据集所包含的生物化学变化 31江南大学有监督方法有监督方法如果存在一些有关数据的先验消息和假设,如果存在一些有关数据的先验消息和假设,有监督方法比非监督方法更适合且更有效。有监督方法有监督方法比非监督方法更适合且更有效。有监督方法在已有知识的基础上建立信息组在已有知识的基础上建立信息组 (class information)(class information),并利用所建立的组对未知数据进行辨识、归类和预测。,并利用所建立的组对未知数据进行辨识、归类和预测。在这类方法中,由于建立模型时有可供学习利用的在这类方法中,由于建立模型时有可供学习利用的训练样本,所以称为有监督学习。应用于该领域的常见训练样本,所以称为有监督学习。应用于该领域的常见方法有线性判别分析方法有线性判别分析 (linear discrimination(linear discrimination analysis)analysis)、偏最小二乘法、偏最小二乘法-显著性分析显著性分析 (PLS-(PLS-discrimination analysis)discrimination analysis)和人工神经元网络和人工神经元网络 (artificial neural networks(artificial neural networks,ANN)ANN)32江南大学网上数据库网上数据库在信息时代,代谢组学的分析离不开各种代谢途径和在信息时代,代谢组学的分析离不开各种代谢途径和升华数据库,利用网络资源进行研究是必不可少的,与基因组学和升华数据库,利用网络资源进行研究是必不可少的,与基因组学和蛋白组学已有较完善的数据库供搜索使用相比,目前代谢组学研究蛋白组学已有较完善的数据库供搜索使用相比,目前代谢组学研究尚无类似的功能完备数据库。尚无类似的功能完备数据库。DOME(DOME(http:/medicago.vbi.vt.edu/dome.htmlhttp:/medicago.vbi.vt.edu/dome.html)有许多关于代谢有许多关于代谢物的原始数据和分析结果,分析结果用多维统计软件处理后可用于物的原始数据和分析结果,分析结果用多维统计软件处理后可用于 OMEs OMEs 的浏览器的浏览器 (BROME)(BROME)浏览。浏览。MetaCyc(MetaCyc(http:/metacyc.orghttp:/metacyc.org)是一个关于代谢物的数据库,阐述是一个关于代谢物的数据库,阐述了超过了超过150150种生物体中的代谢途径,包含了从大量的文献和网上资源种生物体中的代谢途径,包含了从大量的文献和网上资源中得到的代谢途径、反应、酶和底物的资料。中得到的代谢途径、反应、酶和底物的资料。MMP(MMP(http:/www.chem.qmul.ac.uk/iubmb/enzymehttp:/www.chem.qmul.ac.uk/iubmb/enzyme)对主要代谢途对主要代谢途径及涉及的关键酶进行了详尽的描述。径及涉及的关键酶进行了详尽的描述。ArMet(ArMet(http:/www.armet.orghttp:/www.armet.org)是一个涵盖大部分植物代谢组学研是一个涵盖大部分植物代谢组学研究工作的网站,包含了这些工作开展的时间,甚至还有详细的实验究工作的网站,包含了这些工作开展的时间,甚至还有详细的实验步骤,并将代谢物信息标准化,以便于研究者交流。步骤,并将代谢物信息标准化,以便于研究者交流。33江南大学第三章第三章 代谢组学的应用代谢组学的应用代谢组学在微生物领域的应用代谢组学在微生物领域的应用 (一一)微生物分类微生物分类,突变体筛选以及功能基因研究突变体筛选以及功能基因研究经典的微生物分类方法多根据微生物形态学以及对经典的微生物分类方法多根据微生物形态学以及对不同底物的代谢情况进行表型分类。最近不同底物的代谢情况进行表型分类。最近,随着分子生随着分子生物学的突飞猛进物学的突飞猛进,基因型分类方法如基因型分类方法如16SrDNA16SrDNA测序测序,DNA,DNA杂杂交以及交以及PCRPCR指纹图谱等方法得到了广泛应用。然而指纹图谱等方法得到了广泛应用。然而,某些某些菌株按照基因型与表型两类方法分类会得出不同的结果。菌株按照基因型与表型两类方法分类会得出不同的结果。因此因此,根据不同的分类目的联合应用这两类方法已成为根据不同的分类目的联合应用这两类方法已成为一种趋势。一种趋势。BIOLOGBIOLOG等方法在表型分类中应用较为广泛等方法在表型分类中应用较为广泛,但是但是,代谢谱分析方法代谢谱分析方法(metabolic p rofiling)(metabolic p rofiling)异军突异军突起起,逐渐成为一种快速、高通量逐渐成为一种快速、高通量,全面的表型分类方法。全面的表型分类方法。34江南大学 采用代谢组分类时采用代谢组分类时,可以通过检测胞外代谢物来加可以通过检测胞外代谢物来加以鉴别。常用的胞外代谢物检测方法为样品衍生化后以鉴别。常用的胞外代谢物检测方法为样品衍生化后进行进行GC2MSGC2MS分析、薄层层析或分析、薄层层析或HPLC2MSHPLC2MS分析分析,最后通过特最后通过特征峰比对进行分类。征峰比对进行分类。BundyBundy等采用等采用NMRNMR分析代谢谱成功分析代谢谱成功地区分开地区分开临床临床病理来源以及实验室来源的不同杆菌病理来源以及实验室来源的不同杆菌(bacillus cereus)(bacillus cereus)。除了表型分类外除了表型分类外,代谢组学数据可以应用于突变体代谢组学数据可以应用于突变体的筛选。在传统研究中的沉默突变体的筛选。在传统研究中的沉默突变体(即未发生明显的即未发生明显的表型变化的突变体表型变化的突变体)内内,突变基因可能导致了某些代谢突变基因可能导致了某些代谢途径发生变化途径发生变化,通过代谢快照通过代谢快照(metabolic snap shot)(metabolic snap shot)可以发现该突变体并研究相应基因的功能。可以发现该突变体并研究相应基因的功能。35江南大学(二二)发酵工艺的监控和优化发酵工艺的监控和优化 发酵工艺的监控和优化需要检测大量的参数发酵工艺的监控和优化需要检测大量的参数,利用代谢组利用代谢组学研究工具可以减少实验数量学研究工具可以减少实验数量,提高检测通量提高检测通量,并有助于揭示发并有助于揭示发酵过程的生化网络机制酵过程的生化网络机制,从而有利于理性优化工艺过程。从而有利于理性优化工艺过程。BuchholzBuchholz等采用连续采样的方法研究了大肠杆菌在发酵过等采用连续采样的方法研究了大肠杆菌在发酵过程