欢迎来到淘文阁 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
淘文阁 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    生物信息学序列分析ppt课件.ppt

    • 资源ID:19381731       资源大小:2.11MB        全文页数:81页
    • 资源格式: PPT        下载积分:20金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要20金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    生物信息学序列分析ppt课件.ppt

    第第7章章 序列分析序列分析2碱基组成碱基组成 DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。 表1包含了9个完整DNA分子序列的资料,表2的数据来自两个胎儿球蛋白基因(Gr和Ar),每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”,基因间区域是指两个基因间的其余序列。 表1 九种完整DNA序列的碱基组成 表2 人类胎儿球蛋白基因不同区段的碱基组成 78序列组成分析9A/G/C/T的组成,尤其是G+C含量的预测(进化?探针设计?)1011序列组成分析12序列组成分析13蛋白分子量和等电点14蛋白分子量和等电点15蛋白分子量和等电点16蛋白质分子量/等电点预测 online Compute pI/MWhttp:/us.expasy.org/tools/pi_tool.html17 只要进行基因工程利用必须用到各种限制性内切酶如 GGATCC BamHI18进行酶切位点分析的时候,对于构建载体,我们需要知进行酶切位点分析的时候,对于构建载体,我们需要知道的信息是你的序列中有道的信息是你的序列中有/没有某个酶的位点?没有某个酶的位点?为什么?为什么?如果答案是如果答案是“有有”,是什么情况?,是什么情况?“没有没有”又是什么情又是什么情况?况?Plasmid vectorSac IXbaIHind IIIHind IIIXba ICloning siteSacI1920二碱基相邻频率二碱基相邻频率 分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积例:例:鸡血红蛋白鸡血红蛋白链的链的mRNA编码区的编码区的438个碱基个碱基图1 鸡球蛋白基因编码区的DNA序列 (GenBank:CHKHBBM,记录号J00860) 表3 图1鸡球蛋白基因序列的相邻碱基分布 在编码区,存在某种约束来限制DNA序列编码氨基酸。在密码子水平上,这一约束与碱基相邻频率有关。 表4列出了遗传密码和图1序列中各密码子数量。尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。 表4还清楚地表明,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第 2位碱基小得多。 表4 64种可能的碱基三联体密码子及相应的氨基酸数(据图1序列) 相邻碱基之间的关联将导致更远碱基相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计之间的关联,这些关联延伸距离的估计可以从马尔科夫链可以从马尔科夫链(Markov chain)理论理论得到得到(Javare和和Giddings,1989)27什么是HMM?Hidden Markov Models (HMMs, 隐马尔可夫模型) 最早是在上个世纪60年代末70年代初提出来的一种概率论模型。进入80年代以后,逐渐被利用在各个领域。主要的应用领域:语音识别系统。生物学中的DNA/protein序列的分析。机器人的控制。文本文件的信息提取。28什么是HMM?对于给定的核苷酸序列,我们在位置p处出现的概率依赖于其后的核苷酸序列。即任何一个核苷酸的出现并不是完全独立的。大家只要知道大家只要知道HMM是目前生物信息学中应用非常广泛的概率是目前生物信息学中应用非常广泛的概率论模型,广泛应用于基因识别,其基本原理基于任何一个序论模型,广泛应用于基因识别,其基本原理基于任何一个序列的出现都不是独立的。列的出现都不是独立的。 密码子是核酸携带信息和蛋白质携带信息间对应的基本原则, 是生物体内信息传递的基本环节。在生物的遗传密码中, 除色氨酸和甲硫氨酸只有一个密码子外, 其余氨基酸都有一个以上的简并密码子。对同一物种, 不同蛋白编码密码子在基因中出现的频率不同; 就同一种氨基酸而言, 编码该氨基酸的不同密码子的比率在不同的蛋白中也有差异, 因此生物体基因对简并密码子的选择具有一定的偏爱性。 同义密码子(Synonymous Codons):编码同一氨基酸的密码子。 在蛋白质编码过程中, 某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子, 这种现象称为同义密码子的使用偏性(Synony mous Codon Usage Bias) 研究密码子使用偏性的意义: (一)作为预测真核生物核糖体在细胞内定位的一种手段 ,通过比较核基因编码的核糖体蛋白和线粒体基因编码的核糖体蛋白上密码子使用模式的差异来预测未知蛋白的基因所在基因组位置。 (二)通过密码子使用偏好性的研究,可以判定一些最优密码子,针对这些密码子设计基因工程表达载体可以提高目的基因的表达量 。 (三)利用密码子使用偏好性和某种功能的关联程度对某些未知功能基因进行预测,利用已知的密码子偏好知识对未知表达水平的基因进行判定,初步判断该基因的表达水平高或低。 (四)利用编码区和非编码区的基因组特征差异进行全基因组扫描,发现新基因。 由于密码子偏性的研究近年来一直是一个热点,因此研究的指标也出现得很多,如可以衡量特定基因偏性大小的密码子偏爱指CBI(Morton1993)和最优密码子使用频率FOp(Lavnerand Kotlar2005) 等。多种多样的技术和方法促进了密码子偏性的研究,但是也产生了一些的研究结果之间存在了的不一致,特别是有些方法仅仅能运用于局限的物种或某些特定的基因中。因此在使用这些新开发的方法时,必须了解每一种方法背后的假设和推论,才能确保结果的正确性。 计算同义密码子相对使用度(Relative synonymous codon usage, RSCU) 在genebank中取出序列后,用codonw进行在线分析同义密码子相对使用度(Relative synonymous codon usage, RSCU):它是指对于某一特定的密码子,在编码对应氨基酸的同义密码子间的相对概率,去除了氨基酸组成对密码子使用的影响。该值的计算方法为某一密码子所使用的频率与其在无偏使用时预期频率之间的比值,如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然 。其中,n表示这个密码子所代表的氨基酸的同义密码子种类数目(1300bp)就能相当准确地预测出基因 利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法:由于内含子的进化不受约束,而外显子则受到选择压力,因此内含子的序列要比外显子更随机。这是目前各种预测程序中被广泛应用的一种方法,如GCG(Genetic Computer Group 研制,一种通用核酸、蛋白质分析软件包)的TestCode、美波士顿大学GeneID和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法 CpG岛:CpG岛(CpG island)一词是用来描述哺乳动物基因组DNA中的一部分序列,其特点是胞嘧啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%,即每10个核苷酸约出现一次双核苷酸序列CG。具有这种特点的序列仅占基因组DNA总量的10%左右。从已知的DNA序列统计发现,几乎所有的管家基因(House-Keeping gene)及约占40%的组织特异性基因的5末端含有CpG岛,其序列可能包括基因转录的启动子及第一个外显子。因此,在大规模DNA测序计划中,每发现一个CpG岛,则预示可能在此存在基因。另外,AT含量也可以作为编码区的批示指标之一616263Genomic DNAcDNA64用softberry预测基因结构 http:/www.bio-65什么是HMM?对于给定的核苷酸序列,我们在位置p处出现的概率依赖于它后核苷酸序列。即任何一个核苷酸的出现并不是完全独立的。对于基因识别而言,HMM可以分为2种:按内容搜索:即根据核苷酸和密码子在编码区内的分布规律来确定蛋白质的编码区;按信号搜索:即通过分析编码区周围的信号(启动子终止子各种cis-element等来确定蛋白质的编码区。大家只要知道HMM是目前生物信息学中应用非常广泛的概率论模型,广泛应用于基因识别,其基本原理基于任何一个序列的出现都不是独立的。66一个例子: 用softberry预测基因结构67TSSATGTATApromoter69707172737475767778方法一: 用softberry预测.79方法二: 用Fruitfly网站的promoter预测程序预测.8081回顾和讨论回顾和讨论: : 什么是什么是HMM? 如何进行基因结构的预测?如何进行基因结构的预测? Promoter的位置在哪里的位置在哪里? 什么是什么是TSS, 为什么要预测为什么要预测TSS?预测预测TSS有哪有哪些方法些方法?

    注意事项

    本文(生物信息学序列分析ppt课件.ppt)为本站会员(飞****2)主动上传,淘文阁 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知淘文阁 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于淘文阁 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号 © 2020-2023 www.taowenge.com 淘文阁 

    收起
    展开