生物信息学研究方法概述.ppt
《生物信息学研究方法概述.ppt》由会员分享,可在线阅读,更多相关《生物信息学研究方法概述.ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第二章第二章 生物信息学研究方法概述生物信息学研究方法概述马飞马飞南京师范大学南京师范大学比较基因组学与生物信息学实验室比较基因组学与生物信息学实验室一、生物信息学研究方法概述一、生物信息学研究方法概述1 生物信息学研究的三个层面生物信息学研究的三个层面初级层面初级层面中级层面中级层面高级层面高级层面初级层面初级层面 基于现有的生物信息数据库和资源,利用成熟的生物信息学工具基于现有的生物信息数据库和资源,利用成熟的生物信息学工具(专业网站、软件)解决生物信息学问题(专业网站、软件)解决生物信息学问题生物信息数据库(生物信息数据库(NCBI、EBI等)等)基因组序列分析、序列比对软件(基因组序列
2、分析、序列比对软件(GCG、BLAST、CLUSTAL等)等)系统发育树构造软件(系统发育树构造软件(PHYLIP、PALM、MEGA等)等)分子动力学模拟软件(分子动力学模拟软件(GROMACS、NAMD等)等)搜集、整理有特色的生物信息学数据集搜集、整理有特色的生物信息学数据集中级层面中级层面 利用数值计算方法、数理统计方法和相关的工具,研究生物利用数值计算方法、数理统计方法和相关的工具,研究生物信息学问题信息学问题概率、数理统计基础概率、数理统计基础科学计算基础科学计算基础现有的数理统计和科学计算工具(现有的数理统计和科学计算工具(EXCEL、SPSS、SAS、MATLAB等)等)建立有
3、特色的生物信息学数据库建立有特色的生物信息学数据库高级层面高级层面 提出有重要意义的生物信息学问题;自主创新,发展新型方法,提出有重要意义的生物信息学问题;自主创新,发展新型方法,开发新型工具,引领生物信息学领域研究方向。开发新型工具,引领生物信息学领域研究方向。面向生物学领域,解决生物学问题面向生物学领域,解决生物学问题数学、物理、化学、计算科学等思想和方法数学、物理、化学、计算科学等思想和方法建立模型,发展算法建立模型,发展算法自行编程,开发软件,建立网页(自行编程,开发软件,建立网页(Linux系统、系统、C/C+、PERL、数据库技术)数据库技术)从事生物信息学研究应具备多方面的科学基
4、础从事生物信息学研究应具备多方面的科学基础从事生物信息学研究应具备多方面的科学基础从事生物信息学研究应具备多方面的科学基础(1)、一定的计算能力,包括相应的软、硬设备。要有各种数据库或者能)、一定的计算能力,包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络系统;系统;(2)、强有力的创新算法和软件。没有算法创新,生物信息学就无法获得)、强有力的创新算法和软件。没有算法创新,生物信息学就无法获得持续的发展;持续的发展;(3)、与实验科学,特别是与自动化的大规模高通量的生物学研
5、究方法与)、与实验科学,特别是与自动化的大规模高通量的生物学研究方法与平台技术建立广泛、紧密的联系。这些技术,既是产生生物信息数据的主平台技术建立广泛、紧密的联系。这些技术,既是产生生物信息数据的主要方法,又是验证生物信息学研究结果的关键手段。要方法,又是验证生物信息学研究结果的关键手段。从事生物信息学研究的人员必须具备多学科交叉的知识。从事生物信息学研究的人员必须具备多学科交叉的知识。2 生物信息学的生物信息学的“降龙十八掌降龙十八掌”第一式第一式第一式第一式 见龙在田见龙在田见龙在田见龙在田 (1 1)掌握生物信息数据库及其查掌握生物信息数据库及其查掌握生物信息数据库及其查掌握生物信息数据
6、库及其查询搜索方法询搜索方法询搜索方法询搜索方法(Database&searching)(Database&searching)对分子生物信息数据库的种类以及某些具体数据库的掌握对分子生物信息数据库的种类以及某些具体数据库的掌握和了解和了解从现有数据库中熟练获得需要的数据信息(尤其是二级数从现有数据库中熟练获得需要的数据信息(尤其是二级数据库)据库)能熟练地进行数据库查询和数据库搜索(数据库查询系统能熟练地进行数据库查询和数据库搜索(数据库查询系统Entrez、SRS;搜索工具;搜索工具BLAST等)等)数据库技术、互联网技术数据库技术、互联网技术第二式第二式第二式第二式 飞龙在天飞龙在天飞龙
7、在天飞龙在天(2 2)学会生物信息学软件和工学会生物信息学软件和工学会生物信息学软件和工学会生物信息学软件和工具的应用具的应用具的应用具的应用(Software&application)(Software&application)利用成熟的生物信息学工具(专业网站、软件)解决生物信息学问题利用成熟的生物信息学工具(专业网站、软件)解决生物信息学问题基因组序列分析、序列比对软件(基因组序列分析、序列比对软件(GCG、BLAST、CLUSTAL等)等)系统发育树构造软件(系统发育树构造软件(PHYLIP、PALM等等)基因芯片检测分析软件(商业软件基因芯片检测分析软件(商业软件ScanArray、
8、Array-Pro等等)分子动力学模拟软件(分子动力学模拟软件(GROMACS、NAMD等等)第三式第三式第三式第三式 鸿渐于陆鸿渐于陆鸿渐于陆鸿渐于陆(3 3)掌握概率论基础掌握概率论基础掌握概率论基础掌握概率论基础(Probability theory)(Probability theory)随机事件、概率随机事件、概率随机变量、概率分布随机变量、概率分布大数定律、中心极限定理大数定律、中心极限定理几乎用于生物信息学的各个方面几乎用于生物信息学的各个方面“Most of the problems in computational sequence analysis are essentia
9、lly statistical.”“Biological sequence analysis”第四式第四式第四式第四式 或跃在渊或跃在渊或跃在渊或跃在渊(4 4)掌握数理统计基础掌握数理统计基础掌握数理统计基础掌握数理统计基础(Statistical methods)(Statistical methods)样本和统计量(方差、均值样本和统计量(方差、均值)参数估计、假设检验参数估计、假设检验基本的统计分析(方差分析、协方差分析、回归分析)基本的统计分析(方差分析、协方差分析、回归分析)常用统计软件的运用(常用统计软件的运用(SPSS、SAS)几乎用于生物信息学的各个方面几乎用于生物信息学的各
10、个方面第五式第五式第五式第五式 羚羊触藩羚羊触藩羚羊触藩羚羊触藩 (5 5)熟悉基于频率的组分分析熟悉基于频率的组分分析熟悉基于频率的组分分析熟悉基于频率的组分分析方法和权重矩阵方法方法和权重矩阵方法方法和权重矩阵方法方法和权重矩阵方法(Composition analysis&(Composition analysis&weight matrix method)weight matrix method)符号(如碱基)频率反映具有生物学意义的序列特征,符号(如碱基)频率反映具有生物学意义的序列特征,如内含子剪接位点的发现,如内含子剪接位点的发现,KOZAK规则的发现等规则的发现等核酸组分、氨基
11、酸组分、密码子使用频率核酸组分、氨基酸组分、密码子使用频率k-tuples/k-mers频率分析频率分析权重矩阵权重矩阵(weight matrix)(weight matrix)分析分析主要用于具有特定生物学意义的序列特征的分析主要用于具有特定生物学意义的序列特征的分析权重矩阵分析方法举例权重矩阵分析方法举例权重矩阵分析方法举例权重矩阵分析方法举例例:人类基因例:人类基因例:人类基因例:人类基因内含子内含子内含子内含子/外显外显外显外显子剪接位点的子剪接位点的子剪接位点的子剪接位点的序列特征分析序列特征分析序列特征分析序列特征分析R=A or GR=A or GY=C or UY=C or
12、UN=A,G,C or UN=A,G,C or U供体位点供体位点供体位点供体位点受体位点受体位点受体位点受体位点BayesianBayesian打分函数用于剪接位点预测的公式打分函数用于剪接位点预测的公式打分函数用于剪接位点预测的公式打分函数用于剪接位点预测的公式The likelihood that a property value v(of a new structure)is drawn from the splicing site is:Score for the overall likelihood of the query sequence being a site is:Say
13、 we have a sequence S=S1S2Sn.Then one need to calculateSo to look for a donor site in the sequence,we might calculate 第六式第六式第六式第六式 潜龙勿用潜龙勿用潜龙勿用潜龙勿用 (6 6)信息论方法信息论方法信息论方法信息论方法(Information method)(Information method)信息熵信息熵信息的度量:是信息的度量:是信息符号信息符号出现何种出现何种状态状态的一种不确定性程度,信息的的一种不确定性程度,信息的获得要对不确定性进行否定。获得要对不确定性
14、进行否定。生物信息的符号如生物信息的符号如ACGT四种符号,状态空间即其所有可能的排列四种符号,状态空间即其所有可能的排列用于结构预测用于结构预测信息熵信息熵H刻画了由刻画了由pi表示的随机试验结果的先验不确定性,或观察表示的随机试验结果的先验不确定性,或观察到输出时所获得的信息量。到输出时所获得的信息量。第七式第七式第七式第七式 利涉大川利涉大川利涉大川利涉大川 (7 7)期望最大化(期望最大化(期望最大化(期望最大化(EMEM)方法)方法)方法)方法(Expectation Maximization)(Expectation Maximization)适用于具有隐变量的模型和问题,如神经网
15、络模型中的隐节点和适用于具有隐变量的模型和问题,如神经网络模型中的隐节点和HMM模型中的隐状态等模型中的隐状态等用于结构的识别,用于结构的识别,如如Motif识别的识别的MEME方法、方法、HMM中的中的Baum-Welch算法算法第八式第八式第八式第八式 神龙摆尾神龙摆尾神龙摆尾神龙摆尾 (8 8)动态规划方法动态规划方法动态规划方法动态规划方法(Dynamic Programming)(Dynamic Programming)第九式第九式第九式第九式 密云不雨密云不雨密云不雨密云不雨(9 9)迭代方法迭代方法迭代方法迭代方法(Iteration)(Iteration)迭代的目的通常是在状态
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物 信息学 研究 方法 概述
限制150内