2021年分子生物学考点整理分生期末考试.docx
2.韩斌老师基因组学本文档由孙雯整理,希望各位同学都能取得好成绩!基因组学Genomics韩斌 基因组(Genome: Gene+chromosome)细胞或生物体中一套完整的单倍体遗传物 ,质 基因组学(Genomics)最早Thomas Roderick在1986年提出,包括基因组作图、测 序和分析。可分为结构基因组学和功能基因组学。、结构基因组学基因组、基因、转录组、蛋白质组抗病基因处性雌点遗传图RFLPSTS SNP SSR行版IIII序列及序列组装基因组序列基因结构转录谱蛋白质组基因表达芯片联分析,罔hi七dJ鉴定軸、強分化相关基因、二 1RNA-seqGATCGTCAGATCAGCAT CAGCATCAGCGACT CAGCATCATATCATCAGCAC GATCACGACGACTACTA CGACTACAG(基因预测!遗传图谱基于重组自交系丨轴、粮稻组群体物理图二, 二-二一质位 用 性量定 作 白子互 蛋分细功组相r-r-i-M 表达序列标签遗传图谱基于 自然群体聚类组装二匸单个基因 1 . 遗传图(Genetic Mapping Genomes) : Based on the calculation of recombination frequency by linkage analysis .通过亲本的杂交,分析后代的基因间重组率,并用重组率来表示两个 基因之间距离的线形连锁图谱每条染色体组成一个连锁群,所有染色体的连锁群组成的图谱即构成基因组遗传图。重组率代表基因位点之间的相对距离。在遗传作图中,人们把个作图单位定义为!厘摩 (cM), IcM等于1%的重组率。提高遗传作图的分辨率:选用不同的杂交群体:增加杂交群体的数目;增加分子标记的数目: 扩大分子标记的来源分子标记:绘制基因组遗传图需要的坐标点。分子标记的主要来源是染色体上存在的大量等位基因。在DNA水平上,两个基因间个碱 基的差异就足以形成等位基因。2 .物理图_ (physical map):指DNA序列上两点的实际距离,它是以DNA的限制酶片段或 克隆的大片段的基因组DNA分子为基本单位,以连续的重叠群为基本框架,通过遗传 标记将重叠群或基因组DNA分子有序排列于染色体上。物理图的绘制:Based on molecular hybridization analysis and PCR techniques 杂交法;指纹法;荧光原位杂交技术。3 . 基因组序列测定:Sequencing methods: the chain termination procedure;Map-based clone by clone strategy;Whole genome shotgun (WGS) strategy;Sequence assembly; 传统基因组测序的方法:克隆步移法(BAC-by-BAC Strategy)和全基因组鸟抢法(Whole Genome Shotgun Strategy) 基因组测序战略:基于物理图的克隆连克隆法、随机挑选BAC克隆测序、逐步步 移法(Lee Hood)、全基因组鸟枪法(Craig Venter)DNA测序技术更新DNA测序能够真实反映生物体基因组DNA上的遗传信息,因此在生 命科学结构基因组学和功能基因组学研究中具有举足轻重的地位。第一代测技术Sanger测序1975 年 准确率高读取长(lOOObp)缺点成本髙人类基因组计划 13年30亿美元L/師及冰高通量测序(NGS)2005年1一454刑字SOUD测序J$olexa 测序优点成:低 速度快 Jlfl缺点准确率低读长短(75-150bp)第三代测序技术单分子测序2009 年 I-HeliscopePacBioSMRT 技术Nanopore优点成本低读长长 速履快(3000bp)Jlfig 点错误率速发慢 通小(<100kb)4 .基因组序列解析(Annotating Genome Sequence):其目标是建立高密度的遗传图、高分 辨率的物理图和转录图,最终完成全基因组序列测定和注解,是功能基因组学的基础 基因组注解异常复杂,它是个繁杂的复合体,既包含了进化历史上原封未动的部分, 也有大量的进化史上重要历史事件的遗迹。基因组有它自身的规律,但是一些"不和谐的韵律”,如从病毒或者原核生物感染或寄生 得到的基因组片段、转座元件、假基因以及重复序列的存在,构成了理解基因组结构的四大 陷阱。.基因组序列注释的三个层次:“Where",即在基因组序列中,基因在哪里?它是 何转录我拼接的?每个外显子的具体边界在哪里?IWhat",即这个基因编码的蛋白质是什么?它有什 祥的级、二级甚至是三级结构?代谢调控过程层次“How",即这个蛋吗!如行使功能?它参与了什么 样的代谢或调控过程?心法则在真核生物中,遗传信息从基因组DNA转录成pre-rnRNA ,后者经过拼接、戴帽、加尾等加工变成成熟的mRNA, mRNA从细胞核进入细胞质中,在这里被翻译成蛋白质, 然后该蛋白质到达它的靶位点行使相应的生物学功能。核件險水平上的分析:基因预测软件以及全长cDNA和E5T数据的分析;重复序列、假基因及其他;蛋门质水水平的分析:核昔酸水平的序列分析给出了每 个基因的准确结构,随后的工作就是命名每个基因所编码 的蛋白质,并预测每种蛋白质的可能功能,最终得到一张 明确的基因组成清单。求因家族的分析:Orthologous (直向同源)基因,指共同祖先的I工接后代( 没有发生基因复制事件)之间的同源基因,具有相近甚至 相同的功能,由相似的途径调控,在不同的物种中扮演相 似甚至相同的角色;Paralogous (共生同源)基因,指两个物种的同源基因分 同祖冼基因组中由复制事件生的丕同拷贝的后基因家族的基因通常属f共生同源基因的范畴Annotating a Genome Sequence(1) . Gene prediction by software;RiDB!EMBL(Genbank)Gene fiding: Find genes and gene structures from genomic sequencesProblemsFinding the parts:收集可靠的信息,并识别信号或传感器作为整个基因的一部分。可能是 些程序的端点,例如Splice Predictor, MZEF用于找寻外显子。Puding parts together:使用适当和有效的算法将部分组合在起,产生完整的基因模型。许 多程序目前可用于全基因预测(GenScan, GeneMark.hmm, Grail, Glimmer等),这些程序 基于动态规划和基于HMM (隐马尔可夫算法),将部分组合成整体。Three types of information:Signals (signal sensors):短子序列例如剪接位点,poly A信号和其他基序。信号传感器可以 表示为模式或权重矩阵。它们可以通过序列比对,统计方法或神经网络获得。.Content statistics (content sensors):描述了编码区的非随机性质,例如密码子偏好和反密码 子偏好性。Similarity:与已知基因的相似性可有助于提高signal sensor和contenst statistics的准确性。(2) . Gene identification:expressed sequence tags (ESTs),homology analysis, mutations,直系同源物:由共同的祖先基因进化而来的不同生物的同源基因 旁系同源物:个物种中通过基因复制而演化形成的同源基因 (类似基因:非来自相同祖先的基因,但通过会聚进化而具有相似的功能特征的个实 例是糜蛋白酶和枯草杆菌蛋白酶的类似催化位点)gene duplication-TamaZVSpecies IraT14anSpecies IIal and a2 are paralogy while al in species I and alin species II are ortholoes (so are a2 in species I and s2 in species II)homologsparalogsfrog a chickOt mouseOt mousep chickB frog|3X XXa-chain genep-chain genegene duplication /early globin geneHow to measure similarityIdentity: Two proteins that have a certain number of amino-acids in common at aligned positions are said to be identical to that degree, (i.e. if they have 43 residues out of a total of 100 in common they are 43% identical).Similarity: Often a number of residues will be replaced by ones of similar physico-chemical properties. Such mutations may be termed conservative and one may define various scoring matrices to quantify how similar the two sequences are, taking into account conservative mutations. Such scores will be measures of similarity.Homology: If and on/y/f two proteins are evolutionarily related and descend from a common ancestor, they are called homologous. Similarity and homology are two different concepts and must not be confused.comparative analysis between genomes;Pair-wise sequence alignment is a foundational operation unit for much of the bioinformatics analysis(3) .Transcriptome & Proteome;Synthetic biologyBiological systems(organisms)Reductionistic approach (Experimental)Data generationData analysisSynthetic approach (In-silico bioinformatics)Analysis of molecules, interactions.and networksBuild knowledgePairs of moleculesPathwaysCellular processes BrainReconstruction of organismBuilding blocks(genes, molecules)二、功能基因组学1、定义:利用结构基因组提供的信息,在基因组或系统水平上全面分析基因的功能,使生 物学研究从对单基因或蛋白质研究转向对多个基因或蛋白质同时进行的系统研究,是在基 因组静态(碱基序列)清楚后转入对基因组动态(生物学功能)的研究。应用高通量的方法 来平行研究大量基因。2、任务:进行基因组功能注释(Genome annotation), 了解基因的功能,掌握基因的产物 及其在生命活动中的作用。从基因组的整体水平上来理解基因的功能与进化。3、功能基因组研究内容:突变体库的构建、全长cDNA克隆与测序、获得DNA芯片等基因 转录图谱、高通量测序(NGS)转录组、植物全基因组关联分析(GWAS)、高通量的遗传转化鉴定系统、生物信息技术平台与相应数据库的构建(1)突变体库的构建变异是功能分析的基础。突变体是功能基因组学研究的重要材料。植物突变可在分子、细胞、组织、器官和个体等不同的水平上表现。一般分3种方法:1 .按突变方法分自然突变、物理化学诱变、DNA插入突变:2 .按遗传背景分为普通突变体库、近等基因系突变体库和等基因系突变体库;3 .按引起突变的分子机制分功能丧失突变和功能获得性突变(2)基因克隆的一般方法植物的生长发育是在多个代谢和生理过程基础上所发生的基因在时空上表达的综合现 象,分离潜在的各种有价值的基因,对植物特别是作物品种改良具有重要意义。因此,对基因的克隆并发展与之相关的技术非常重要。(3)高通量测序转录组技术转录组测序亦称RNA-Seq (RNA Sequencing),是指利用第二代高通量测序技术进行cDNA测序,全面快速地获取某一物种特定器官或组织在某状态下的几乎所有转录本 RNA-seqI双链均能被随机测序以致不能确定转录本方向1ST J ATOLCBaTOWMCTOOW3THTBCOMOCAO JCAiUMZMAS4HBA7<UUkACATTAAAGTCAAACAATA7UAAssRNA-seq:通过消除双链中的反向链来特异识别转录本方向Y-adaotor ligationSecond - strand eyntt-iosis w«tti dTTR 亠 dUTR »rwt strand “ norm a IP*reampttf«cation and ,oqo»Ur»g from *Ad 1ssRNA-seq:通过给5末端脱磷酸>3末端加adapter->5,复磷酸>5'加adapter来识别 转录本方向RNANGS在转录组学研究中应用:转录组学:在整体水平上研究细胞中基因转录的情况及转录调 控规律的学科,研究已知基因的SNP、Indel等,研究体内蛋白质与DNA相互作用的有力 具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与第二代测序技 术相结合的ChlP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作 的DNA区段。测量基因表达水平,检测部分转录本的表达水平,发现新的基因和转录本, 检测发生在外显子部分的基因突变,发现基因融合等。综合mRNA-IncRNA共表达分析以及 microRNA靶基因分析,可以有效的解析!ncRNA参与生物过程的分子机制方法:功能克隆法,同源序列法,转座子或T-DNA标签法,表达序列标签法(EST)或全长 CDNA文库构建法,差异表达基因分离技术以及最新的高通量测序转录组(4)基因的图位克隆图位克隆(map-based cloning):又称定位克隆(positional cloning), 1986年由剑桥大学的 Alan Coulcon 提出。该方法分离基因是根据目的基因在染色体上的位置进行基因克隆的种方法。在利用分子标 记技术对目的基因进行精确定位的基础上,使用与目的基因紧密连锁的分子标记筛选DNA 文库,从而构建目的基因区域的物理图谱,再利用此物理图谱通过染色体步行逼近目的基因 最终找到包含该目的基因的克隆,最后通过遗传转化和功能互补验证最终确定目的基因的碱 基序列。图位克隆的特点:无需预先知道基因的DNA序列,也无需预先知道其表达产物的有关信息。但应有以下两方面的基本情况:1 .有一个根据目的基因的有无建立起来的遗传分离群体,如F2、DH等。2 .开展以下几项工作:找到与目的基因紧密连锁的分子标记:遗传作图和物理作图将目标基因定位在染色体;构建含有大插入片断的基因组文库:特定连锁探针筛选基因组文库;用获得阳性克隆构建目的基因区域的重叠群:通过染色体步行、登陆或跳跃获得带有目标基因的大片段克隆;亚克隆小片段克隆:通过遗传转化和功能互补验证目的基因的碱基序列。(5)植物遗传转化技术的发展定义;应用DNA重组技术,将外源基因通过生物、物理或化学手段导入植物基因组,以获 得外源基因稳定遗传和表达的植物遗传改良体。技术方法;基因枪轰击法;农杆菌介导法;PEG转化法;电激法(目前很少应用);低能离子束介导法(该技术不成熟)。4、在植物功能基因组研究中发挥重要作用的技术;植物转化(Plant Transformation)增强子捕获(Enhancertrapping)插入突变(Transposon/T-DNA Insertion)基因敲除(Gene Knockout)基因沉默(GeneSilencing)异位表达 (Ectopic Expression)5、水稻基因组学目标1:鉴定水稻基因组结构、变异和群体遗传学分析目标2:基因组变异与表型变异关联(开发基因组学研究的新方法,系统鉴定和挖掘水稻品 种的遗传多样性,开展高效的水稻功能基因组研究)目标3:阐明水稻的驯化和遗传育种改良史具体研究工作;1、水稻4号染色体精细测序、水稻高通量转录组分析和高通量基因型鉴定2、建立水稻重要农艺性状的全基因组关联分析研究体系和分析方法3、运用基因组学研究手段开展水稻驯化起源和相关性状基因的克隆和功能研究4、其它植物基因组相关研究水稻全基因组关联分析分析框架推导候选基因区I验证候选基因栽培品痔,地方品种寻找单核口多态性(SKIP)值点.构建单倍体型图谶寻找表率与单因库之间的相关忖选拄育度相关位点.传传化打DZA突変体最后一张ppt老师留的思考题:1,什么叫基因组学?基因组学最早由Thomas Roderick在1986年提出,是研究生物基因组和如何利用基因的 门学问,包括基因组作图、测序和分析。可分为结构基因组学和功能基因组学,该学科提供 基因组信息以及相关数据系统利用,试图解决生物,医学,和业领域的重大问题。2、基因组的研究内容?基因组研究应该包括两方面的内容:以全基因组测序为目标的结构基因组学(structural genomics)和以基因功能鉴定为目标的功能基因组学(functional genomics),又被称为后基 因组(postgenome)研究,成为系统生物学的重要方法。功能基因组学的研究内容:人类基因组DNA序列变异性研究、基因组表达调控的研究、模 式生物体的研究和生物信息学的研究等。结构基因组学:其目标是建立高密度的遗传图、高分辨率的物理图和转录图,最终完成全基 因组序列测定和注解,是功能基因组学的基础。3、基因组学有哪些研究手段和方法?通过建立高密度的遗传图、高分辨率的物理图和转录图,最终完成全基因组序列测定和注解 (包括DNA层次、蛋白质层次和代谢调控过程层次)。测序技术有:全基因组鸟抢法、基于 物理图的克隆连克隆法、生物芯片技术、第二代测序技术(454高通量测序、川uminaSolexa 测序技术、Solid测序技术)、第三代测序技术(单分子测序)4、水稻基因组学研究的主要进展?开发基于测序的基因分型技术及对重组群体的遗传分析建立水稻重要农艺性状的全基因组关联分析研究体系和分析方法水稻单倍体图谱构建&品质、产量和抗性等复杂性状关联分析水稻开花期等重要农艺性状的关联分析及候选基因的精确定位水稻基因鉴定和功能研究文献概括:目标1:鉴定水稻基因组结构、变异和群体遗传学分析目标2:基因组变异与表型变异关联(开发基因组学研究的新方法,系统鉴定和挖掘水稻品 种的遗传多样性,开展高效的水稻功能基因组研究)目标3:阐明水稻的驯化和遗传育种改良史具体研究工作:水稻4号染色体精细物理图的构建及水稻基因组精确测序;通过比较基因组和功能基因组,发现了一系列在水稻抗热,抗旱和抗盐生理过程中起重要 作用的基因;以第二代测序仪为基础的高通量功能基因组研究平台为大规模发现和利用水稻遗传资源 开辟了有效的新途径;利用基因组学和群体遗传学的方法来揭示水稻驯化过程和栽培稻的起源。3 .周金秋 chromosome> chromatin and telomeres本文档由周远扬和吴文湧整理,希望各位同学都能取得好成绩!I. Chromosome and Chromatin染色体和染色质的功能:1 .储存基因信息2 .把复制的DNA精确复制到两个后代染色体中3 .转录,复制,重组和修复的平台 如何从染色体中获得遗传信息?染色质的两种形式:常染色质&异染色质染色质活性态/沉默态结构域形成与维持,几乎涉及所有组成分子:1. DNA序列:异染色质区含大量重复序列板块;常染色质顺式元件对相邻异染 色质沉默高度敏感2. 组蛋白和非组蛋白:组蛋白变体;组蛋白尾区各种修饰位点;非组蛋白3. RNA: ncRNA常染色质:易脆;活跃;在核内异染色质:染色深;折叠致密;基因不活跃;在核边缘Constitutive异染色质:固定的不可逆的异染色质(例如着丝粒和端粒) 兼性异染色质:能够变成常染色质(例如不活跃的X染色体) 染色体组成:DNA、组蛋白、非组蛋白、RNA和脂质染色质的基本重复单位nucleosome核小体定位(nucleosome positioning) 核心组蛋白/DNA特异序列经相互识 别与诱导契合,确定八聚体在DNA超螺旋中的结合部位以及两者空间结构关系。 核小体定位影响因素:1.偏好:基因上游启动子区;2.DNA构象;3.聚体碱性 氨基酸正电荷侧链与DNA负电荷磷酸基静电引力;4.非组蛋白,核酸酶,转录 调节因子的影响;5.八聚体各亚基间和组蛋白/DNA间界面中,水分子和离子的 影响。核小体由5种组蛋白构成:H2A,H2B,H3, H4作为核心组蛋白,H1起连接作用; 核小体提供了核内最低等级的DNA压缩方式;核小体通常伴随转录Nucleosome: a nucleosome core particle+ linker DNA (180-200 bp) + a linker histoneNucleosome core particle:histone octa mer(2x hza. H2B, H3, H4)染色质的高级结构染色质组装DNA(2nM)核小体(10nm)螺旋管solenoid(30nm)染色质样纤维chromonema fiber(60-100nm)loop玫瑰花结 rosette染色质有丝分裂时压缩为染色体20A I00AJOOA10-nm fiber*InterphaseM phase注:1 .组蛋白尾区和接头Hl,是压缩阵列形成与稳定的必需要素2 .染色体结构维持蛋白(SMC proteins)是组高度保守的染色体ATPases,在 染色体组装及动态变化中发挥着基本作用: SMC1 and SMC3 act as the core of the cohesin complexes that mediate sister chromatid cohesion. SMC2 and SMC4 function as the core of the condensin complexes that are essential for chromosome assembly and segregation. SMC5 and SMC6 is implicated in DNA repair and checkpointresponses.Cell cycle regulation of condensins I and II Condensm I is cytoplasniK m nterphase, associates with chromosomes only at the onset of prometaphase, and rs needed for normal timing of prometaphase and metaphase progression Condense II is nuclear throughout interphase and rmtotic prophase and is required for chromosome condensation n earty prophaseAction Models of Cohesin and Condensinform chromosome loops for high order structure三种核酸内切酶敏感位点指示染色质高转录活性DNase I, DNase II ,微球菌核酸酶Epigenetic?Greek, epi = above, upon; Epigeneticsabove geneticsThe study of heritable changes in gene function that occur without a change in the DNA sequence.GenotypeEpigenetic regulationCell fateDevelopmenDisease表观遗传标志:核定位,DNA甲基化,组蛋白修饰,非编码RNA各表观遗传机制共同调节基因的表达或沉默:1.DNA 甲基化:DNA mcthyltransferase去甲基化:两种途径:Tet酶or BER pathwayN”、0 NHDNA甲基匕DNA去甲基化CpG Island: a cluster of CpG residues often found near gene promoters; 60% of all genes are associated with CpG islands; Most CpG islands are unmethylated in normal cells; Its methylation is associated with cancer (在基因启动子附近经常发现组 CpG 残留物;60%的基因与CpG岛有关;大多数CpG岛在正常细胞中没有甲基化;它的 甲基化与癌症有关)CpG Islands CpG island: a cluster of CpG residues often found near gene promoters (at least 200 bp and with a GC percentage that is greater than 50% and with an observed/expected CpG ratio that is greater than 0.6). *29,000 CpG islands in human genome (*60% of all genes are associated with CpG islands) Most CpG islands are unmethylated in normal cells.Progressive Alterations in DNAMethylation in CancerGlobal . Region - Specific Hypomethylation Hypermethylation K.NormalCancerAccumulation 叫 Epigenetic Abnormohties 2 .组蛋白尾修饰Chromatin modificationsMarkranscriptionally relevant sitesBiological RoleMethylated cytosine (m«C)CpG islandsFranscriptional RepressionAeetylated lysine (3H3 (9,14,18.56), H4 (5,8,13,16), M24, M2BTranscriptional ActivationPhosphorylated sarin«/thr«onin< (S/Tph)MS (3,10,28), H2A, M2BTranscriptional ActivationMathylated arina (Rma)H3 (17,23), M4 (3)Transcriptional ActivationM«thylatd lysina (Km«)M3 (4,36,79) H3 (9,27), H4 (20)Tr«nscription«l Activation Transcription«l RepressionUbiquitylatad lysine 心)H2B (123/120)M2A (119)Transcriptional Activation Franscriptional Repression5umoylat«d lysin« (匕u)H2B (6/7), M2A (126)Transcriptional Raprassion3 .沉默染色质个和异染色质类似的概念 基因 沉默:gene silencing acts in a regional manner (rather than promoter- or sequence-specific)to generate large domains or DNA that are usually inaccessible to DNA binding proteins (RNA polymerase, cellular recombination machinary, exogenous enzymes (dam methyltransfcrasc and restriction endonuclease)(基因 沉 默行为在个地区的方式(而不是启动子或sequence-specific)生成大域或DNA 通常无法进入DNA结合蛋白(RNA聚合酶、细胞重组机械,外源性酶(大坝甲 基转移酶和限制性内切核酸酶) Silent chromatin domain: It is persistent through mitotic and mciotic cell divisions such that a particular chromatin structure (DNA and its associated proteins) is replicated during the process of chromosome duplication. This mode of inheritance, commonly referred to as epigenetic inheritance, is believed to underlie cellular memory mechanisms that maintain cell identity and stable patterns of gene expression in eukaryotes.(沉默染色质域:在染色体复制过程中,通过有丝分裂 和减数分裂的细胞分裂,使种特殊的染色质结构(DNA及其相关蛋白)复制。 这种遗传模式,通常被称为表观遗传,被认为是细胞记忆机制的基础,这种 机制在真核生物中维持细胞的身份和稳定的基因表达模式。) 序列特征:重复DNA序列以及可能于稳定这样的结构有关。 沉默染色质/异染色质的生化特征:H3K9甲基化的普遍性;赖氨酸残基的低 乙酰化;DNA胞喀唸甲基化 常染色质和异染色质的比较(染色、形态特征,序列,基因密度,减数分裂 重组频率,复制时期,HS site,核小体分布,核酸酶可接进性,活性状态, 特征性修饰)FeatureEuchromatlnConstitutive HeterochromatinStaining/packaging In InterphaseDispersedAppears condensed, heteropycnoticDNA sequencePredominantly uniquePredominantly repetitive (satellites; derivatives of viruses, transposons, etc.)Presence of genesHlgh/variable densityLow densityMeiotic (reciprocal) recombinationNormal frequencyLow frequencyReplication timingThroughout S phaseLate S phaseChromatin structureHS sites. Irregular nucleosomes;Loss of HS sites, regular nucleosome array:Activity stateaccessible to nucleasesless accessible to nucleasesEuchromatic genesGenes inducibleGenes silenced (variegated)Heterochromatic genesGenes silenced (variegated)Genes inducibleCharacteristic modificationsHistone hyperacetyiationHistone hypoacetytatk>nHistone H3>mLys4 presentHistone H3>mLys9 presentCytosine