生物信息学04 核酸和蛋白质序列为基础的数据库检索..ppt
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《生物信息学04 核酸和蛋白质序列为基础的数据库检索..ppt》由会员分享,可在线阅读,更多相关《生物信息学04 核酸和蛋白质序列为基础的数据库检索..ppt(35页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、第四章第四章核苷酸和蛋白核苷酸和蛋白质序列序列为根底的数据根底的数据库检索索(Sequence-baseddatabase(Sequence-baseddatabasesearching)searching)本章主要内容:本章主要内容:根本概念根本概念BLASTBLAST检索分析方法索分析方法本章重点本章重点难点:点:核酸和氨基酸序列功能分析的根本方法和核酸和氨基酸序列功能分析的根本方法和原理。原理。u序列序列对位排列位排列sequence alignment u将两条或多条序列将两条或多条序列对位排列,突出相似的位排列,突出相似的结构构区域区域 序列序列1序列序列2两条两条DNA序列序列对位
2、位排列排列分析分析 两条蛋白两条蛋白质序列序列对位位排列排列分析分析 v分析功能分析功能 v分析物种分析物种进化化 v检测突突变、插入或缺失、插入或缺失遗传疾病的疾病的检测 v序列延序列延长(电子子PCR)PCR)v序列定位序列定位(STS)(STS)v基因表达基因表达谱分析分析(EST)(EST)u用途用途u序列序列对位排列分析的种位排列分析的种类 v序列序列对库对位排列分析位排列分析 从数据从数据库中中寻找同源序列找同源序列 主要涉及核苷酸数据主要涉及核苷酸数据库和蛋白和蛋白质数据数据库 v两序列两序列对位排列分析位排列分析 v多序列多序列对位排列分析位排列分析一序列一序列对位排列分析的根
3、本原理位排列分析的根本原理1、记分矩分矩阵scoring matrix u记分矩分矩阵中含有两条序列中含有两条序列对位排列位排列时具体使用具体使用的分的分值 u分数越高,两条序列匹配越好分数越高,两条序列匹配越好DNA序列序列对位位记分矩分矩阵序列序列1 A C G T T A G C 序列序列2 A C T T T G G C 记分分 0.9 0.9 -0.1 0.9 0.9 -0.1 0.9 0.9 5.2u蛋白蛋白质序列序列对位排列分析位排列分析记分复分复杂 u一致氨基酸的一致氨基酸的记分不同分不同 v稀有氨基酸稀有氨基酸C,分,分值高高 v普通氨基酸普通氨基酸S,分,分值低低u相似氨基
4、酸也相似氨基酸也记分,如分,如D-E序列序列1 1:TTYGAPPWCSTTYGAPPWCS序列序列2 2:TGYAPPPWSTGYAPPPWS*序列序列1 1:TTYGAPPWCSTTYGAPPWCS序列序列2 2:TGYAPPPWSTGYAPPPWS*u多种多种记分矩分矩阵 v80年代建立的年代建立的PAM矩矩阵如如PAM30、PAM70 v近年建立的近年建立的BLOSUM矩矩阵如如BLOSUM62、BLOSUM80、BLOSUM45基于更敏感的基于更敏感的对位排列分析位排列分析蛋白蛋白质序列序列对位位记分分序列序列1 V D S C Y 序列序列2 V E S C Y 记分分 4 2 4
5、 9 72、空位、空位间隔隔罚分分gap penalty u基因基因进化化过程中程中产生突生突变u序列序列对位位排列排列分析分析时允允许插入空位插入空位v插入插入 v缺失缺失v空位开放空位开放gap opening v空位延伸空位延伸gap extension蛋白蛋白质序列序列对位位记分分序列序列1 V D S -C Y 序列序列2 V E S L C Y 记分分 4 2 4 -11 9 7acgtatgcatgtacgagctac acgtatgcagtacgagctacu空位空位罚分涉及两个参数分涉及两个参数acgtatgcatgtacgagctac acgtatgca-gtacgagct
6、acv BLAST v FASTA v Blitz二序列二序列对库对位排列分析位排列分析u主要主要检索体系索体系u用待分析序列用待分析序列对数据数据库进行相似性分析行相似性分析 u重复重复许屡次的两两序列屡次的两两序列对位排列分析位排列分析 u从数据从数据库中找出所有同源序列中找出所有同源序列1、根本概念、根本概念 1Sequence identity 和和 sequence similarityIdentity:两条序列在同一位点上的核苷酸或两条序列在同一位点上的核苷酸或 氨基酸残基完全相同氨基酸残基完全相同 Similarity(positive):两条序列在同一位点上的两条序列在同一位点
7、上的 氨基酸残基的化学性氨基酸残基的化学性质相似相似 Query:1 IGQAQCSTFRGRIYNETNIDSAFATQRQANCP 32 IGQAQC TF+RIYNET +AFAT +ANCP Sbjet:2 IGQAQCGTFKDRIYNET-TAFATSLRANCP 29 2Global alignment 和和 local alignmentQuery Subject Query Subject Query Subject Global alignment:两条完整的序列相比两条完整的序列相比较 Local alignment:两条序列中相似程度最高的局部两条序列中相似程度最高的局
8、部 相比相比较 3Gapped alignment 和和 ungapped alignmentQuery Subject Query Subject Query Subject Query Subject Gapped alignment:为到达最正确为到达最正确 alignment,序列中参,序列中参加空位加空位 Ungapped alignment:相比较序列的核苷酸或氨基酸:相比较序列的核苷酸或氨基酸 序列连续序列连续 4Alignment score 和和 E(expect)value 衡量两条相比衡量两条相比较序列相似程度的序列相似程度的标准准raw score:原始分,分原始分,分
9、值越大,两个比越大,两个比较序列相似程度越大序列相似程度越大 bit score:采用采用统计学方法以原始分学方法以原始分为根底根底计算的算的 E value:期望得到的、完全由期望得到的、完全由时机机错误造成的、相当于或造成的、相当于或 大于目前分大于目前分值的的alignment 次数次数 v E=10,5e-46=5 10-46,E 值越小越好值越小越好 v 取决与取决与 alignment 分值、相比较序列的长短和分值、相比较序列的长短和 v数据库中数据的数量数据库中数据的数量 5Low-complexity region(低复低复杂性区域,性区域,LCR)核苷酸和蛋白核苷酸和蛋白质序
10、列中短的重复序列或由少数序列中短的重复序列或由少数几种核苷酸或氨基酸残基几种核苷酸或氨基酸残基组成的序列如成的序列如 Poly-A u 数据库中半数以上的序列至少带有一个数据库中半数以上的序列至少带有一个 LCR u Sequence alignment 时应防止时应防止 LCR 相互配对得分相互配对得分 u BLAST 用用“Filter 功能防止比较功能防止比较 LCR v用用 小写字母代表小写字母代表 LCR 中的每个氨基酸残中的每个氨基酸残基或基或核苷酸核苷酸 2.BLAST(Basic Local Alignment Search Tool)检索索 BLAST 分析工具分析工具 uN
11、ucleotide BLAST(blastn等等)uProtein BLAST(blastp,PSI-BLAST,PHI-BLAST)uTranslated BLAST Searches(blastx,tblastn,tblastx等等)uSpecialized BLAST(BLAST 2 Sequences(bl2seq),conserved domain,VecScreen等等)经常常问的的问题 FAQsBLAST programblastn 用核苷酸序列用核苷酸序列检索核苷酸数据索核苷酸数据库 blastp 用氨基酸序列用氨基酸序列检索蛋白索蛋白质数据数据库 blastx 将核苷酸序列通
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生物信息学04 核酸和蛋白质序列为基础的数据库检索. 生物 信息学 04 核酸 蛋白质 序列 基础 数据库 检索
![提示](https://www.taowenge.com/images/bang_tan.gif)
限制150内