一、基于贝叶斯网络的DNA序列剪接位点预测(论文文献综述)
陈静[1](2021)在《基于全基因组重测序的鲂属鱼类群体遗传学研究》文中研究表明鲂属(Megalobrama)隶属于鲤形目(Cypriniformes),鲤科(Cyprinidae),鲌亚科(Culterinae),包含团头鲂(M.amblycephala)、三角鲂(M.skolkovii)、广东鲂(M.hoffmanni)和厚颌鲂(M.pellegrini)4个物种,是我国分布较广泛的淡水经济鱼类。近年来受自然环境以及人为因素的影响,鲂属鱼类野生资源严重衰退,而有关鲂属鱼类种质资源保护和群体遗传学的研究甚少。随着高通量测序技术的发展,联合基因组学和群体遗传学不仅可获得物种群体遗传信息,同时有助于揭示物种多样性的形成及环境适应性机制。本研究利用X光透射照相法检测了鲂属鱼类的可量比例性状和可数性状,并对鲂属鱼类的形态学参数进行了比较和分析;扩增了鲂属鱼类的线粒体细胞色素b(Cytochrome b)和控制区(Control region)序列,分析了鲂属鱼类不同地理群体的多样性和遗传差异;以前期获得的团头鲂全基因组为参考,采用全基因组重测序方法建立鲂属鱼类群体基因组变异数据库,通过可信度较高的SNP信息探究了鲂属鱼类的群体结构、进化关系及种群演变历史,并利用选择清除分析发掘与鲂属鱼类食性差异相关的候选基因,进而揭示其环境适应性形成的机制。研究将阐明鲂属鱼类形态差异、遗传变异、群体结构及种群历史动态演变,揭示鲂属鱼类群体进化过程及对环境的适应性分子机制,为我国鲂属鱼类的种质资源保护提供科学依据。主要研究内容和结果如下:1.基于X光透射照相法的鲂属鱼类形态差异分析利用X光透射照相法共对鲂属4个物种的34项可量比例性状和12项可数性状进行了检测和分析。结果表明头长/体长、尾柄长/体长、2-4/体长、2-5/体长、4-5/体长和6-9/体长等可量比例性状在鲂属种间具有显着性差异(P<0.05)。主成分分析结果表明在主成分1中起关键作用的是与鱼体背腹轴相关的性状,主成分2中起关键作用的是与鱼体头尾轴相关的性状,而主成分3中起关键作用的是与鱼体游动相关的性状。多元统计分析结果揭示了广东鲂与其他三种鲂的亲缘关系最远,而三角鲂和厚颌鲂的亲缘关系最近。研究通过将传统人工测量方法和X光透射照相法的测量结果进行比较分析,发现鲂属可量性状指标的平均值在两种方法中的差异均较小,而T检验结果显示,共有17项可量比例性状在两种方法间有显着性差异,其中11项性状指标是传统手工检测明显大于X光照相法检测结果,研究推测这可能与鱼体表面具有一定的曲度有关。2.基于线粒体序列的鲂属鱼类群体遗传多样性和遗传分化通过对鲂属鱼类线粒体Cytb和CR序列进行扩增,研究发现鲂属鱼类不同群体共定义到了47个单倍型,广东鲂和三角鲂群体的单倍型多样性(Hd)和核苷酸多样性(Pi)均较高。单倍型网络图结果表明团头鲂和广东鲂各形成一个单系群,三角鲂和厚颌鲂则聚为一枝。另外鲂属鱼类不同地理群体间均有较高水平的遗传分化,尤其是在不同物种间表现最为明显。而广东鲂与鲂属其他物种群体间的遗传差异度最大。单倍型Hap1和Hap25为团头鲂和三角鲂的共享单倍型,研究推测在这两个物种间可能存在基因渗入。通过对鲂属鱼类不同群体间的基因流(Nm)进行统计,结果发现团头鲂的梁子湖群体和三角鲂的金沙河群体间存在较高水平的基因交流。而错配分析结果揭示了大多数鲂属群体积累了很多低等频率的等位基因,而少数群体中则积累了较多中等频率的等位基因。3.基于全基因组重测序的鲂属鱼类群体遗传变异及遗传结构分析通过与团头鲂全基因组比对,统计出鲂属样本的变异位点,结果发现团头鲂、广东鲂、厚颌鲂和三角鲂的单核苷酸多态性(SNP)变异位点数目分别为16,235,392个、16,133,317个、6,825,670个、17,179,046个,这些位点的分布类型主要包括基因间区、内含子区、3’端非翻译区、5’端非翻译区、非同义突变和同义突变。插入缺失位点(In Del)的分布分别为:团头鲂3,737,686个、广东鲂4,097,403个、三角鲂1,649,876个、厚颌鲂4,006,423个。结构变异位点(SV)的分布分别为:团头鲂108,169个、广东鲂95,589个、厚颌鲂59,356个、三角鲂102,721个。而拷贝数变异位点(CNV)在鲂属四个物种中的分布依次为团头鲂39,777个、广东鲂27,854个、厚颌鲂20,665个、三角鲂35,930个。进化树结果显示三角鲂和厚颌鲂首先聚为一枝,接着与团头鲂聚,最后再与广东鲂聚。群体遗传结构分析表明鲂属鱼类可分为六个亚群,即团头鲂和厚颌鲂群体各为一个亚群,广东鲂群体分为海南和珠江流域两个亚群,三角鲂群体分为抚远和其他流域两个亚群。群体间的分化指数(Fst)显示广东鲂与鲂属其余三个物种之间均有较大程度的遗传分化,而三角鲂和厚颌鲂之间仅有中等程度的遗传分化。另外研究发现三角鲂和广东鲂的核苷酸多样性(π)要高于团头鲂和厚颌鲂,而三角鲂的LD衰减速度大于团头鲂和厚颌鲂。Treemix结果显示基因流方向由团头鲂指向了三角鲂。因此,研究推测团头鲂对三角鲂的基因渗入增加了三角鲂核苷酸多样性水平,并进一步提高了三角鲂LD衰减速度。4.鲂属鱼类群体历史及食性研究结合分化时间和祖先地理分布的结果,研究推断鲂属鱼类原始分布于珠江流域,冰川时期一部分扩散至海南岛,而其余大部分是向中国北部扩散,包括长江、黑龙江和乌苏里江流域。冰川时期海平面的下降,在南中国海形成了宽广的大陆架和陆桥,广东鲂通过广阔的大陆架实现种群的迁移。长江流域的团头鲂、三角鲂和厚颌鲂在第四纪冰期有效种群数量整体呈现下降趋势,直到第四纪冰川末期气候变暖才开始有所增加。通过选择清除分析,团头鲂主要是以高纤维、低能量的水生维管束植物为食,研究发现团头鲂主要通过脂肪酸的氧化和脂质代谢的适应性变化增强能量代谢。而广东鲂是一种杂食性鱼类,其食物组成以淡水壳菜和浮游动物为主,其代谢方式是利用胆固醇代谢来促进肠道对胆固醇、脂肪和亲脂性维生素的吸收。
王兵[2](2020)在《基于癌症差异可变剪接基因的预测与分析》文中指出可变剪接是一种广泛存在于生物体中造成蛋白质多样性的重要机制,它对细胞的增殖、分化、发育、凋亡等一系列重要的生物过程的精细调控具有非常重要的作用。近年来,人们发现可变剪接与多种复杂疾病的发生、发展存在密切的联系,包括肿瘤在内的多种疾病的产生往往伴随着可变剪接的紊乱发生。现有的癌症分析主要是基于单个基因或单个剪接异构体出发,缺少考虑由于可变剪接紊乱造成剪接异构体在整体分布上的差异。考虑现有方法的不足,首先本文提出了一种基于中值的JS散度可变剪接差异分析方法。基本思想是通过癌症和正常样本的表达中值构建基因异构体的代表表达向量,然后根据代表向量中各异构体的百分比计算二种状态的JS散度。接着本文提出了基于JS散度的乳腺癌亚型预测方法,主要使用JS散度来找寻亚型之间的可变剪接差异较大的基因,并构建BP神经网络模型对乳腺癌亚型进行分类。结果表明,本文的方法能够发现大量在剪接异构体整体分布上具有显着差异的基因。这些基因不仅富集在一些癌症密切相关的通路,而且也富集在一些基于可变剪接调控的信号通路、细胞分裂过程和蛋白质功能等通路。与基因层次的差异分析相比,可变剪接显着差异的基因在生存分析方面也具有更好的性能。在乳腺癌亚型分类方面也有较好的识别结果,其F1值达到0.89,且能为患者提供个性化乳腺癌亚型药物推荐。总之,本文方法通过构建基因异构体的代表表达向量,解决了非配对样本的计算问题,发现了癌症剪接异构体在整体分布上特有差异基因,为进一步揭示可变剪接在癌症中的机制奠定基础。
孙毅[3](2019)在《甲基化芯片数据精准扩展算法的研究及预测平台的实现》文中认为DNA甲基化在调控基因的表达方面具有重要作用,是表观遗传学中的重要课题。实验检测DNA甲基化水平的手段一般包括测序技术与芯片检测技术,测序技术可以获取人类全基因组CpG位点的甲基化水平,但成本高昂,手段复杂;芯片检测技术价格相对低廉,且能够得到全基因组尺度的DNA甲基化水平,是目前检测DNA甲基化水平的主要方法。主流的450K甲基化芯片的不足在于,其仅仅覆盖了人类全基因组CpG位点总数的2%。因此,采用计算方法对450K甲基化芯片数据进行扩展以获取更多CpG位点的甲基化水平成为了一大研究热点。目前的450K甲基化芯片数据扩展方法均属于开发通用化的扩展模型,无法对特定位点的预测效果进行量化评估。为此,本文设计了一种可以精准扩展450K甲基化芯片数据的方法,对单个CpG位点建立扩展模型并开发了在线扩展平台。此外,本文还将该扩展模型应用于环状RNA的甲基化水平研究,分析了环状RNA的甲基化与癌症之间的关联。本文的具体工作如下:1、提出了一种基于位点之间甲基化水平相似性以及DNA序列组成相似性度量的450K甲基化芯片数据精准扩展算法,对单个CpG位点建立扩展模型,并通过WGBS检测数据训练和测试模型以获取模型的参数、误差和预测准确率,最终得到面向单个位点甲基化水平的精准扩展模型,其预测结果和WGBS检测结果的相关系数达到了0.93,且各项性能指标优良。与现有甲基化水平扩展模型相比,本模型可以对特定位点的预测效果进行量化评估。2、由于环状RNA覆盖的CpG位点中,仅有少量位点的甲基化水平得以检测,因此现阶段还无法系统性地分析环状RNA中的甲基化模式,本文将DNA甲基化精准扩展模型应用于环状RNA,基于扩展得到的环状RNA甲基化数据系统地分析环状RNA的甲基化概貌,并结合多组学分析方法,识别出了一些与癌症有密切关联的环状RNA,为生物学家从海量数据中挑选实验对象提供了依据。3、设计并开发了基于Django框架的DNA甲基化在线预测平台,平台具有高响应速度、高稳定性和高并发性的特点,且访问方便、使用简单,为国内外的相关科研工作者提供了一个能够在线预测特定CpG位点甲基化水平的科学工具,丰富了DNA甲基化水平的获取手段,节省了甲基化检测实验的开销。
肖玉贵[4](2019)在《基于CLIP数据的RBPs靶向位点与motif识别算法研究》文中认为RNA结合蛋白(RBPs)在生物的基因表达过程中起着非常重要的作用,RBPs通过结合RNA的位点影响成熟mRNA的形成,从而影响生物蛋白质的合成。随着分子生物学和相关技术的发展,人们逐渐认识到RBPs与RNA的结合具有特异性,也就是说特定的RBPs对某些RNA位点具有更高的亲和性。目前确定RBPs靶向位点的技术包括体外选择和RNA共免疫共沉淀,如交联免疫沉淀反应技术(CLIP),不幸的是,这些实验是冗长而困难的,都需要大量的时间和人力投入。另外,传统的统计学方法在这个领域的应用存在预测性能一般且模型的可解释性弱的特点,无法为人们提供有效指导。所幸近年来以深度学习为代表的计算机技术迅速发展和CLIP技术的成熟,为研究RBPs靶向位点识别展现新的机遇。本研究是以17种人类RBPs对应的CLIP数据为基础,利用深度学习的方法构建预测RBPs靶向位点的模型,并且对RBPs结合的motif也作出预测。本文具体的工作如下:1)数据的获取及预处理。本研究使用的数据来自iCount和DoRiNA数据库,在获取时,我们使用峰值采样获取显着的CLIP数据以尽量排除假阳性数据。然后基于序列数据的基础上,我们使用了RNA折叠等技术获取序列的其他维度数据,例如Structure二级结构数据、CrossBindinng和RegionType数据。2)仅仅在序列数据的基础上提出了 SOCN模型,SOCN模型以序列的one-hot编码为输入,利用卷积神经网络自动对序列信息进行特征抽象,避免人为的干预和选择,再经过全连接层和Softmax层,对输入信息做出分类。SOCN模型在基准数据集的平均AUC值达到0.823,性能较优于其他的模型。3)通过对SOCN的结果分析发现对于某种特定的RBPs,其分类效果欠佳。经过分析发现是因为这种RBPs倾向结合具有结构化的序列,因此在SOCN的基础上有提出多数据源的混合模型(MSM),该模型以多种数据为输入,其中除了序列信息外,还包括CrossBinding、二级结构数据和RegionType数据。最终,MSM模型在同样的数据集上克服了SOCN模型的缺陷,以平均AUC值0.90成为最佳模型,相较于SOCN、iONMF和Oli模型分别提高了 10.9%、12%、和13.9%的性能。4)鉴于MSM模型出色的性能,我们深入研究了模型参数。MSM中卷积核类似于一个motif扫描器,能识别出显着序列特征,然后将该卷积核识别的显着序列特征集转换为一个motif,并用WebLogo工具可视化。最后使用Tomtom算法将预测的motif与数据库进行比较,结果表明,78%的预测motif能以高置信度匹配数据库。
姚雨[5](2019)在《基于深度学习网络的剪接位点及蛋白质相互作用预测方法研究》文中认为生物学中心法则包括DNA转录、RNA翻译和蛋白质表达。选择性剪接是转录后期的关键步骤,剪接过程的正确执行很大程度在于剪接位点的正确识别,它使得一种编码蛋白质的基因可以产生多种转录变体。因此,错误的剪接位点经常会导致各种疾病的发生。选择性剪接通过产生不同的剪接变体翻译成不同特定生物功能的蛋白产物,而蛋白质的变异或者某些蛋白质发生异常相互作用也同样会导致疾病甚至癌症的发生。鉴于剪接位点及蛋白质相互作用预测在生物领域的重要性,本论文着重基于深度学习技术来研究剪接位点和蛋白质相互作用这两个问题的预测方法,主要内容包括:1.剪接位点及剪接模式的探索对于理解基因转录过程非常重要。现有的计算方法在剪接位点预测问题上取得了较大成功,但是不可避免存在特征提取、模型可解释性差等缺点,由此本文提出基于深度卷积神经网络来预测剪接位点,该网络主要由剪接位点预测模块和揭示剪接位点序列模式的模型解释模块组成。和传统机器学习方法相比,剪接位点预测模块在六个不同公共供体/受体剪接位点数据源上取得了更精确的分类性能。此外,为了解释深度学习的识别过程,模型解释模块对卷积特征进行了可视化,展现了特征映射从底层到高层的抽象过程,相关下游分析主要包括:(1)motif识别;(2)卷积核分析;(3)剪接模式的探索。2.RNA经过选择性剪接事件后会产生不同的mRNA,这些mRNA将会被翻译成对应的蛋白质。我们知道,生物体内各种生命活动的执行主要依赖于蛋白质及其相互作用的正确执行。因此,蛋白质相互作用的研究不仅有助于探索生物体内各个生命过程的调节机制,更有助于促进相关药物的研发及疾病的控制。当前大量的蛋白质相互作用预测方法主要流程是依据蛋白质序列和结构信息提取特征、结合相关机器学习方法建立模型进行预测。然而,人为抽取的特征通常有许多缺陷,例如需要有非常专业的领域知识。更麻烦的是,所提取的特征在很多情况下并不能全面反映蛋白质本身所具有的性质,由此接下来依赖于手工提取特征的机器学习模型对蛋白质相互作用预测的准确性也不高。自然语言处理中的Word2vec能够对文档中的词语结合上下文进行描述,由此我们结合Word2vec模型以数据驱动的方式进行训练、自动获取高质量特征表示的优势和深度信念网络处理高维、大规模数据时自动提取特征的特点,设计基于Word2vec和深度信念网络的蛋白质相互作用预测方法。方法在酿酒酵母核心数据集、人类蛋白数据集以及五个独立数据集上的测试表明了使用Word2vec方法表示蛋白质残基、深度学习技术作用于蛋白质相互作用分类问题上的可行性。简言之,在剪接位点分类研究中,方法侧重利用卷积神经网络自动进行深度特征提取的能力,摒弃手动提取特征的弊端,结合深度卷积网络探讨了模型背后的剪接位点识别机制,弥补了机器学习中模型解释相对薄弱的缺陷。而在蛋白质相互作用预测研究中,则是在Swiss-prot数据库上训练Word2vec模型来捕获蛋白质序列中的内在关系,展示了一种新型的将残基表示成低维稠密向量的表示方法,并结合深度信念网络用于蛋白质相互作用预测。
瞿锡垚[6](2019)在《高通量全长转录组测序数据的表达水平计算研究》文中认为转录组表达水平测量计算是基因功能研究的重要手段,而真核生物选择性剪切的存在给准确计算基因异构体表达水平带来了困难。近几年诞生的第三代测序技术是转录组研究的一种新的实验方法,其显着特点是可以获得超长读段,弥补了第二代测序技术中的读段过短,异构体检测较为困难的缺点。PacBio公司针对转录组提出的ISO-seq测序技术,给转录组研究尤其是检测新型异构体领域带来了新机遇。但目前对于ISO-seq数据在转录组研究的应用中极少有工作涉及异构体表达水平的计算,一部分研究工作通过结合RNA-seq技术数据,使用ISO-seq与RNA-seq混合数据进行表达水平的计算。而这些研究工作大多只用到小部分的全长读段数据,丢失了大部分非全长读段数据中较多有用信息,因而数据没有得到充分利用,造成数据通量低。另外,使用ISO-seq和RNA-seq混合数据的方法虽同时兼顾了两种测序技术的优点,但其计算复杂程度高,且获取同一样本下两种测序技术数据的成本高。本文针对这些问题,在保留非全长读段的基础上,提出了仅使用ISO-seq单一数据同时预测异构体结构和计算其表达比例的两个模型DSIDP和MCIDP。具体完成的工作如下:1)鉴于现有的预处理框架并不能满足本文保留非全长读段的需求,本文首先提出了一套保留全长和非全长读段的数据预处理方法。从ISO-seq原始数据出发,经过下机数据处理、读段纠错、读段比对和外显子序列整理四个步骤,最终获得模型的输入数据。2)针对具有全长读段的异构体表达水平计算问题,提出了DSIDP模型,从全长读段中建立异构体预测集,同时采用全长读段和非全长读段计算异构体表达比例。DSIDP将所有读段比对至异构体预测集,并使用Dirichlet采样解决多源映射问题。模型在模拟数据和真实数据上得到了有效验证。3)针对没有全长读段的超长异构体检测问题,提出了MCIDP模型,采用马尔科夫链模拟基因外显子之间的选择性剪接,该模型除了从全长读段中建立异构体预测集外,还能预测出数据中没有全长读段的超长异构体,这对新型异构体的发现具有重要意义。模型在模拟数据和真实数据上得到了有效验证。
王洋[7](2018)在《复杂疾病中选择性剪接对转录调控介导作用的研究》文中提出转录水平的调控发生在基因表达的最初阶段,是基因表达过程中最重要的一步,而真核基因的转录伴随着RNA的剪接调控,因此,异常的剪接调控往往会对基因的转录过程产生干扰。近些年,随着共转录现象的发现,RNA选择性剪接的研究焦点逐渐由剪接事件的识别转向剪接机制的研究,并取得了一定的进展。但以往的研究主要是从序列层面和核小体定位、组蛋白修饰、DNA甲基化及非编码RNA等表观遗传层面阐述RNA选择性剪接的调控机制,对于选择性剪接在转录过程中介导作用的机制尚不清楚。随着下一代测序技术的普及与发展,海量数据的产生为全转录组范围研究选择性剪接调控机制带来了希望。本文总结了该领域目前所遇到的主要难点和瓶颈,基于高通量生物数据,建立数学模型,并围绕这些难点,以人类复杂疾病为研究对象,对转录调控过程中选择性剪接的介导调控机制以及选择性剪接的发生机制进行了研究,主要包括以下几个方面:(1)基于广义线性回归原理构建了选择性剪接介导转录调控模型,利用TCGA肾癌转录组测序数据,定量分析了不同剪接水平下转录因子活性变化,发现了选择性剪接对于转录因子与靶基因调控关系的介导作用。为深入研究选择性剪接在转录调控中的作用奠定了理论基础;该研究弥补了仅通过基因表达水平等单一因素来研究转录调控机制上的这一空缺,从而提高了选择性剪接在靶向治疗上应用的潜在可能。(2)基于逻辑回归原理构建选择性剪接介导转录调控模型,利用TCGA脑胶质瘤转录组测序数据,分析选择性剪接在转录过程中对转录因子与靶基因的影响。由于基因调控的复杂性,某些转录因子与靶基因间的调控关系可能呈非线性相关。因此,在研究选择性剪接介导的转录调控过程中,“转录因子-靶基因-辅调节因子选择性剪接产物”所构成的三元调控关系会随着不同的因子变化而不同。为解决此困难,本部分基于逻辑回归分析方法构建数学模型,用以分析以选择性剪接为中心的三元调控关系,最后应用开源数据脑胶质瘤转录组测序数据对模型进行验证。预测结果显示,当转录辅调节因子在选择性剪接水平上发生改变时,会介导影响转录因子与靶基因间的调控关系。说明选择性剪接在转录调控中的介导作用是存在的,并且不依附于转录因子与靶基因间的实际调控关系。(3)应用乳腺癌转录组测序数据,对选择性剪接所介导的转录调控过程进行研究。MYC是一种经典的肿瘤发生激活因子,涉及多种人类癌症的发病机制,可以激活或抑制大量的靶点,MYC的异常调控将促进癌症的发生和发展,并通常会与不良预后结果密切相关。本部分以经典转录因子MYC为研究对象,有针对性挖掘乳腺癌中调控MYC转录活性的选择性剪接事件,对其所参与的信号通路与转录调控进行关联分析。研究结果显示,乳腺癌中FN1、MEN1的选择性剪接异构体的比例对MYC转录活性产生影响,改变细胞内FN1、MEN1的选择性剪接类型会对其蛋白结构的空间构象或核定位产生影响,最终介导影响乳腺癌细胞中MYC的转录过程。(4)应用阿尔兹海默症的转录组测序数据,对比分析了不同表达水平下、不同分子类型的辅调节因子对SRSF1靶RNA选择性剪接结果的影响。研究发现了 SNHG7和VASN的差异表达会影响SRSF1对靶RNA的剪接调控结果,对研究复杂疾病中选择性剪接的调控作用提供参考。研究结果显示,差异表达的介导调节因子SNHG7及VASN会影响SRSF1对靶RNA的剪接调控作用,SRSF1在细胞内的定位以及在蛋白水平上的相互作用也会受到影响,最终干扰SRSF1基因的调控过程。
王鹏[8](2018)在《深度学习框架下DNA位点的预测研究》文中指出随着高通量检测技术的涌现,分子生物数据库几乎以几何倍数进行扩容,这促使了生物学家使用机器学习方法去解决分子生物信息学领域的一系列研究问题。本文主要基于深度稀疏自动编码算法研究剪切位点与启动子及其强弱类型的识别问题,工作包括以下几个方面:1)介绍了几种常用的特征提取方法,概述了近年来机器学习方法在DNA位点预测的研究进展,归纳了几种常用的传统机器学习方法,如支持向量机、随机森林、libD3C及现今比较流行的深度稀疏自编码器,并对分类算法的评价指标进行了系统分析。2)DNA剪切位点的分析和预测。基因剪切是真核生物基因表达中最重要的生物学过程之一。因此,DNA/RNA序列剪切位点的识别对于生物医学研究和新型药物发现具有重要意义。为了快速而准确识别剪切供体与受体位点,本文结合十二种DNA的二联核苷酸的物理化学属性通过一系列的自协方差与互协方差转换去表示给定的序列样本,基于最小化误差法构建了一个具有两个隐含层的深度稀疏自动编码模型,称之为iSS-PC。本研究中,基于同一基准数据集上的五折交叉验证结果显示新的预测器明显优于现有预测方法。为使广大生物学者研究方便,本文建立了一个易操作的网络预测器去识别剪切供体与受体位点,可通过网址http://www.jci-bioinfo.cn/iSS-PC免费访问。3)启动子及其强弱类型的预测研究。根据转录激活和表达水平,启动子可划分成两类:强启动子和弱启动子。通常,强启动子控制转录调节或蛋白代谢的相关功能,进而能增加转录频率和增强外源基因的表达水平。因此,预测已识别的启动子属于其强度类型的哪一种是非常有必要的。本文首先利用三联核苷酸的7种物理化学属性,采用混合特征(移动平均法、伪三联核苷酸成分法及核苷酸密度)对序列进行特征提取,然后,基于不同的分类算法如支持向量机、随机森林和深度稀疏自动编码器构建了几个预测模型。其次,利用核苷酸的理化性质和密度分布提取特征,采用支持向量机构建预测模型。通过将两种方案所得的5折交叉验证结果进行比较,发现第二种方案的结果明显优于第一种方案的所有结果。4)对本文的研究工作进行总结,并对今后的研究工作进行了展望,包括其他深度学习模型的使用、DNA其他修饰位点的进一步分析与探讨、DNA的结构信息的提取、本文研究方法在RNA位点预测研究领域的推广应用等。
胡智强[9](2016)在《可变剪接和泛基因组:真核生物基因组复杂性的两个方面》文中研究指明真核生物的基因组复杂性远远高于原核生物,其复杂性难以用基因组的大小、蛋白质编码基因的数量等来评估,但是,一个物种的基因组可以编码的不同种类的蛋白质的数量可能是一个较好的评估标准。越来越多的研究表明可变剪接是利用有限数量的基因产生大量不同的蛋白质的有效机制,是基因组复杂性的重要体现。本文以人类基因组为例,提出了研究可变剪接及其规模的新方法。首先,我们开发了可变剪接转录本预测软件(ALTSCAN),该软件仅利用DNA序列,尽可能完整地预测DNA序列上所有可能存在的蛋白质编码结构。然后,基于ALTSCAN预测结果,使用大量来自不同组织和细胞系的转录组测序数据检测到了约30,000个目前公共数据库中未包括的蛋白质编码转录本。大规模实时定量PCR验证结果表明这些转录本的预测准确率高达84.1%。基于这些转录本,我们通过乳腺蛋白质组学数据鉴定了36个新的蛋白质的存在性。通过和现有数据库比较,我们估计人类的蛋白质编码转录本的数量至少在20万以上。基因组复杂性的另一方面是同一物种内不同个体间的基因组差异。单独一个个体不能准确地反映出它所属物种所能产生的不同种类蛋白质的数量,我们需要进一步考虑不同个体基因组之间的差异。个体间的差异主要包括单核苷酸变异、结构变异以及本文主要关注的基因有无变异。基因有无变异指某些基因仅存在于该物种的部分个体中,可以通过泛基因组方法进行研究。基因有无变异广泛地存在于细菌中,在真核生物中的研究刚刚起步。真核生物基因组较大,其个体基因组测序成本较高,限制了泛基因组研究中的个体数量,导致无法准确地进行基因有无变异的检测。本文首先描述了一种真核生物泛基因组研究的新方法(EUPAN)。该方法通过将个体基因组的测序数据比对到泛基因组序列上计算基因有无变异。由于目前人类个人基因组高深度测序数据较少,本文将EUPAN方法应用于亚洲栽培稻个体基因组测序数据。首先,本文发现了12,465个不存在于粳稻参考基因组(IRGSP-1.0)中的新基因。其次,本文发现亚洲栽培稻物种中37.7%以上的基因家族存在有无变异,对于一个个体而言,其基因组中有20%以上是“非必需”基因家族。此外,本文的结果表明基因有无变异可以准确地反映个体间的进化关系。最后,本文证明基因有无变异可以有效地解释个体间表型的差异。该研究揭示了亚洲栽培稻个体基因组间广泛存在的基因有无变异,同时表明基因有无变异在目前真核生物的研究中被大大低估了。泛基因组是基因组复杂性的重要组成部分。综上所述,本文从个体基因组和群体基因组的角度研究了真核生物基因组复杂性的两个重要维度,即可变剪接和泛基因组,为进一步理解真核生物基因组的复杂性奠定了基础。
赵婧,魏彬,陈明淑,张晓娟[10](2016)在《基于神经网络预测的SNP信息的剪接点识别算法研究》文中研究指明随着基因组计划的完成,人们需要尽快从这些海量数据中了解基因组的结构,揭示生命的奥秘,剪接位点识别是其中的一个重要环节,然而到目前为止该问题仍未能得到很好的解决。在分析此问题时引入了第三代遗传标记单核苷酸多态性(SNP),以期探索变异对剪接机制的影响;其次,对DNA序列的数字化进行了探讨。通过实验表明,单核苷酸多态性的引入对于剪接位点识别算法的性能有着一定的影响,此外文中提出的编码方法对预测精度的提升亦有正面作用,整体效果比目前常用方法有了大幅提升。
二、基于贝叶斯网络的DNA序列剪接位点预测(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于贝叶斯网络的DNA序列剪接位点预测(论文提纲范文)
(1)基于全基因组重测序的鲂属鱼类群体遗传学研究(论文提纲范文)
摘要 |
Abstract |
缩略语表 |
第一章 文献综述 |
1 鲂属鱼类的研究概况 |
1.1 鲂属鱼类的分类及命名 |
1.2 鲂属鱼类的分子遗传研究概述 |
2.鱼类形态学检测方法 |
2.1 传统形态检测的特点 |
2.2 X光透射照相法的应用 |
3 线粒体遗传标记研究进展 |
3.1 线粒体DNA概述 |
3.2 线粒体控制区 |
3.3 线粒体细胞色素b |
4 全基因组重测序研究进展 |
4.1 基因组重测序概述 |
4.2 基因组重测序在脊椎动物中的应用 |
4.3 基因组重测序在鱼类中的应用 |
5 群体遗传学 |
5.1 遗传多样性 |
5.2 群体遗传结构 |
5.3 基因流 |
5.4 连锁不平衡 |
6 鱼类食性和代谢机理 |
6.1 碳水化合物代谢 |
6.2 脂肪代谢 |
6.3 氨基酸代谢 |
7 本研究目的及意义 |
第二章 基于X光透射照相法的鲂属鱼类形态差异分析 |
1 前言 |
2 材料与方法 |
2.1 样本采集 |
2.2 检测系统的参数 |
2.3 可量性状的检测 |
2.4 可数性状的检测 |
2.5 数据分析 |
3 结果与分析 |
3.1 可数性状 |
3.2 可量性状 |
3.3 主成分分析 |
3.4 聚类分析 |
3.5 判别分析 |
3.6 两种测量方式的比较 |
4 讨论 |
第三章 基于mtDNA的鲂属鱼类群体遗传学分析 |
1 前言 |
2 材料与方法 |
2.1 样本采集 |
2.2 主要仪器设备 |
2.3 主要试剂及耗材 |
2.4 主要溶液的配制 |
2.5 样本基因组DNA的提取及检测 |
2.6 线粒体基因序列扩增与测序 |
2.7 群体遗传多样性分析 |
2.8 群体历史分析 |
3 结果与分析 |
3.1 鲂属样本基因组DNA检测结果 |
3.2 鲂属鱼类mt DNA序列特征 |
3.3 线粒体单倍型网络图分析 |
3.4 基于mt DNA的鲂属鱼类群体遗传多样性 |
3.5 鲂属鱼类群体间遗传距离 |
3.6 鲂属鱼类群体遗传分化 |
3.7 分子变异分析(AMOVA) |
3.8 鲂属鱼类群体间的基因流分析 |
3.9 群体历史动态 |
4 讨论 |
4.1 鲂属鱼类不同群体的遗传多样性和遗传分化 |
4.2 鲂属鱼类群体间的基因流和群体历史 |
第四章 基于全基因组重测序的鲂属鱼类群体遗传变异及遗传结构分析 |
1 前言 |
2 材料与方法 |
2.1 样本采集 |
2.2 样本基因组DNA的提取及检测 |
2.3 建库流程 |
2.4 测序流程 |
2.5 原始数据过滤 |
2.6 序列比对 |
2.7 变异检测 |
2.8 群体分层 |
2.9 连锁不平衡分析 |
2.10 多态性分析 |
2.11 基因流分析 |
3 结果与分析 |
3.1 重测序数据统计 |
3.2 SNP变异位点的检测 |
3.3 InDel变异位点的检测 |
3.4 CNV变异位点的检测 |
3.5 SV变异位点的检测 |
3.6 鲂属四个物种的变异位点信息统计 |
3.7 鲂属鱼类系统进化树分析 |
3.8 群体结构分析 |
3.9 主成分分析 |
3.10 鲂属鱼类多态性分析 |
3.11 基因流分析 |
3.12 连锁不平衡LD |
4 讨论 |
4.1 鲂属鱼类遗传变异数据库的构建 |
4.2 鲂属鱼类群体遗传结构 |
4.3 基因流、LD衰减以及核苷酸多态性 |
第五章 鲂属鱼类群体历史演变及食性研究 |
1 前言 |
2 材料与方法 |
2.1 样本采集 |
2.2 样本基因组DNA的提取及检测 |
2.3 建库流程 |
2.4 测序流程 |
2.5 原始数据过滤 |
2.6 序列比对 |
2.7 群体历史分析 |
2.8 群体分化时间 |
2.9 鲂属鱼类祖先地理分布 |
2.10 群体分化指数Fst |
2.11 核苷酸多态性Pi R |
2.12 群体间扩展单倍型纯合度XP-EHH |
2.13 选择信号检测 |
2.14 GO和KEGG富集分析 |
3 结果与分析 |
3.1 群体分化时间 |
3.2 鲂属群体历史动态 |
3.3 鲂属鱼类祖先地理分布 |
3.4 鲂属鱼类不同群体受选择区域和基因的鉴定 |
3.5 团头鲂受选择基因的富集分析 |
3.6 广东鲂受选择基因的富集分析 |
3.7 鲂属鱼类食性相关的代谢通路 |
4 讨论 |
4.1 鲂属鱼类的群体历史动态演变 |
4.2 鲂属鱼类食性相关的代谢方式 |
本论文主要研究结果及创新点 |
主要研究结果 |
论文的创新点 |
参考文献 |
附录 |
附录A 重测序样本的比对信息 |
附录B 基因组重测序样本数据信息 |
附录C 基于固定系数Fst的团头鲂和广东鲂食性相关的受选择基因 |
附录D 研究生阶段发表论文 |
致谢 |
(2)基于癌症差异可变剪接基因的预测与分析(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1 课题研究背景及意义 |
1.1 生物信息学 |
1.2 可变剪接 |
1.3 乳腺癌亚型 |
2 研究现状 |
2.1 可变剪接的研究现状 |
2.2 癌症亚型分型的研究现状 |
3 本文的研究内容 |
4 本文的工作与组织 |
第二章 数据库及算法介绍 |
1 数据库介绍 |
1.1 TCGA数据库 |
1.2 TCGA Splice Seq数据库 |
1.3 KEGG数据库 |
1.4 STRING数据库 |
2 算法介绍 |
2.1 BP神经网络 |
2.2 随机森林 |
2.3 支持向量机 |
2.4 K近邻 |
3 本章小结 |
第三章 基于中值的JS散度可变剪接差异分析研究 |
1 实验数据及预处理 |
2 研究方法 |
2.1 JS散度 |
2.2 基于中值的JS散度可变剪接差异分析方法 |
2.3 模型构建 |
3 实验结果及分析 |
3.1 差异基因分析 |
3.2 KEGG通路分析 |
3.3 驱动基因分析 |
3.4 癌症分类 |
3.5 生存分析 |
4 本章小结 |
第四章 基于JS散度的乳腺癌亚型预测分析 |
1 实验数据及预处理 |
2 研究方法 |
2.1 基于JS散度的乳腺癌亚型异差异分析方法 |
2.2 基于JS散度的乳腺癌亚型分类模型 |
2.3 性能评估方法 |
3 对比模型 |
3.1 NMF方法 |
3.2 IS方法 |
4 实验结果及分析 |
4.1 JS散度分布 |
4.2 乳腺癌亚型聚类 |
4.3 乳腺癌亚型分类 |
4.4 基于乳腺癌亚型的药物推荐 |
5 本章小结 |
第五章 总结与展望 |
1 本文工作总结 |
2 工作展望 |
参考文献 |
致谢 |
攻读硕士学位期间发表的论文 |
(3)甲基化芯片数据精准扩展算法的研究及预测平台的实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.1.1 研究背景 |
1.1.2 课题意义 |
1.2 国内外研究历史与现状 |
1.2.1 甲基化芯片检测技术的研究历史与现状 |
1.2.2 DNA甲基化预测方法的研究历史与现状 |
1.3 本文的主要研究内容与创新 |
1.4 本论文的结构安排 |
第二章 甲基化芯片数据精准扩展算法的研究 |
2.1 研究概述 |
2.2 实验数据的获取与处理 |
2.2.1 实验数据的获取 |
2.2.2 实验数据的处理 |
2.3 基于两种相似性度量的特征位点选取 |
2.3.1 两种向量的建立 |
2.3.2 Pearson相关系数 |
2.3.3 特征位点的选取 |
2.4 预测模型的构建和分析 |
2.4.1 预测模型的构建 |
2.4.2 预测模型的交叉验证 |
2.4.3 预测模型的性能分析 |
2.5 本章小结 |
第三章 基于扩展数据的环状RNA差异甲基化与多组学分析 |
3.1 研究概述 |
3.2 基于扩展数据的环状RNA差异甲基化分析 |
3.2.1 实验数据的获取 |
3.2.2 甲基化精准扩展 |
3.2.3 差异甲基化分析 |
3.3 多组学分析 |
3.3.1 宿主基因差异表达分析 |
3.3.2 功能富集分析 |
3.4 分析结果总述 |
3.5 本章小结 |
第四章 DNA甲基化在线预测平台的设计与实现 |
4.1 在线预测平台的相关技术 |
4.1.1 Django框架 |
4.1.2 Bootstrap模板 |
4.2 在线预测平台的总体设计 |
4.3 在线预测平台的具体实施 |
4.3.1 平台的架构搭建 |
4.3.2 平台的前端开发 |
4.3.3 平台的后台开发 |
4.4 在线预测平台的性能测评 |
4.5 本章小结 |
第五章 全文总结与展望 |
5.1 全文总结 |
5.2 后续工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(4)基于CLIP数据的RBPs靶向位点与motif识别算法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 选题背景 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 研究现状 |
1.3 本文的工作和组织架构 |
第二章 相关的理论基础 |
2.1 基因表达 |
2.1.1 转录过程 |
2.1.2 后转录过程 |
2.2 RNA结合蛋白及作用原理 |
2.2.1 RBPs的结构 |
2.2.2 RBPs的结构域 |
2.3 CLIP相关技术 |
2.3.1 CLIP的发展历程 |
2.3.2 UV-CLIP的机理及其特异性 |
2.3.3 CLIP处理过程 |
2.4 本章小结 |
第三章 深度学习 |
3.1 人工神经网络 |
3.1.1 神经元感知器 |
3.1.2 激活函数 |
3.1.3 损失函数 |
3.2 深度前馈网络 |
3.3 反向传播与梯度下降算法 |
3.4 卷积神经网络 |
3.4.1 卷积层 |
3.4.2 池化层 |
3.4.3 全连接层 |
3.5 正则化约束 |
3.5.1 L_1和L_2范数正则化 |
3.5.2 Dropout机制 |
3.5.3 Early stopping |
3.6 本章小结 |
第四章 交联位点及其motif识别的算法研究 |
4.1 CLIP数据的获取及预处理 |
4.1.1 数据的获取及介绍 |
4.1.2 交联位点的采样 |
4.2 仅基于序列的卷积网络SOCN模型 |
4.2.1 SOCN网络模型结构 |
4.2.2 分类性能评估方法 |
4.2.3 实验结果与分析 |
4.3 基于多数据源的CNN和DFN的混合模型MSM |
4.3.1 多数据源的获取 |
4.3.2 MSM模型结构 |
4.3.3 MSM模型的实验结果与分析 |
4.3.4 MSM与多种模型对比 |
4.4 基于MSM模型的motif识别 |
4.4.1 RNA结合蛋白的motif |
4.4.2 motif识别模型 |
4.4.3 motif识别实验结果 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 全文工作总结 |
5.2 未来工作展望 |
参考文献 |
致谢 |
攻读硕士学位期间发表的学术论文及参与的科研项目 |
(5)基于深度学习网络的剪接位点及蛋白质相互作用预测方法研究(论文提纲范文)
摘要 |
Abatract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文主要研究内容 |
1.4 论文安排 |
第二章 相关工作的基础知识 |
2.1 剪接位点 |
2.2 蛋白质相互作用 |
2.3 相关算法 |
2.3.1 深度信念网络 |
2.3.2 卷积神经网络 |
2.4 Word2vec简介 |
2.5 本章小结 |
第三章 基于深度卷积神经网络的剪接位点预测 |
3.1 数据集 |
3.2 DeepSS框架 |
3.3 One-hot编码 |
3.4 评价指标 |
3.5 实验结果及分析 |
3.5.1 模型深度分析 |
3.5.2 DeepSS-C实验结果 |
3.5.3 与现有方法的比较 |
3.5.4 不同样本长度的预测结果 |
3.5.5 DeepSS-M模型解释 |
3.6 本章小结 |
第四章 基于Word2vec与深度信念网络的蛋白质相互作用预测 |
4.1 数据集 |
4.2 DeepFE-PPI框架 |
4.3 实验结果及分析 |
4.3.1 超参数选择 |
4.3.2 实验结果分析 |
4.3.3 残基表示与可视化 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
附录A 图索引 |
Appendix A Figure Index |
附录B 表格索引 |
Appendix B Table Index |
致谢 |
攻读学位期间发表的学术论文及参与科研项目 |
(6)高通量全长转录组测序数据的表达水平计算研究(论文提纲范文)
摘要 |
ABSTRACT |
注释表 |
缩略词 |
第一章 绪论 |
1.1 生物信息学 |
1.2 转录组学研究 |
1.3 基于测序技术的转录组学研究现状 |
1.4 本文的主要研究工作 |
1.5 本文的内容安排 |
第二章 背景介绍 |
2.1 生物学背景介绍 |
2.1.1 生物遗传信息传递 |
2.1.2 选择性剪接 |
2.2 第三代测序技术介绍 |
2.2.1 测序技术的发展历史 |
2.2.2 第三代测序技术原理 |
2.2.3 原始数据 |
2.3 本文方法背景介绍 |
2.3.1 统计学基础知识 |
2.3.2 狄利克雷分布 |
2.3.3 随机过程 |
2.3.4 马尔科夫链 |
2.4 Kmeans聚类 |
2.4.1 基本的Kmeans聚类 |
2.4.2 改进的Kmeans聚类 |
2.5 本章小结 |
第三章 数据预处理 |
3.1 数据预处理流程 |
3.2 下机数据处理 |
3.2.1 h5文件格式 |
3.2.2 sra文件格式 |
3.2.3 提取全长和非全长读段 |
3.3 读段数据纠错 |
3.3.1 纠错算法介绍 |
3.3.2 Lo RDEC |
3.4 读段数据比对 |
3.4.1 比对算法介绍 |
3.4.2 BWA-MEM |
3.5 外显子序列整理 |
3.5.1 sam文件和gtf文件格式介绍 |
3.5.2 analyse Annotation设计原理 |
3.6 本章小结 |
第四章 异构体表达水平估计及结构预测 |
4.1 研究动机 |
4.2 基于Dirichlet采样的DSIDP模型 |
4.2.1 模型思想 |
4.2.2 模型实现 |
4.3 基于马尔科夫链的MCIDP模型 |
4.3.1 模型思想 |
4.3.2 模型实现 |
4.4 实验结果与分析 |
4.4.1 实验数据 |
4.4.2 非全长读段有效性验证 |
4.4.3 MCIDP预测异构体验证 |
4.4.4 真实数据集实验结果 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 本文工作总结 |
5.2 未来工作展望 |
参考文献 |
致谢 |
在学期间的研究成果及发表的学术论文 |
(7)复杂疾病中选择性剪接对转录调控介导作用的研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题的研究背景和意义 |
1.1.1 研究背景 |
1.1.2 研究的目的与意义 |
1.2 课题相关背景知识介绍 |
1.2.1 基因表达 |
1.2.2 选择性剪接 |
1.2.3 高通量测序 |
1.3 国内外研究现状 |
1.3.1 选择性剪接机制的研究现状 |
1.3.2 选择性剪接生物信息学研究现状 |
1.3.3 选择性剪接与人类复杂疾病相关性研究现状 |
1.3.4 基因调控网络方法研究现状 |
1.4 论文主要研究内容与组织结构 |
1.4.1 主要研究内容和写作安排 |
1.4.2 论文组织结构 |
第2章 基于广义线性回归算法分析选择性剪接调控作用 |
2.1 引言 |
2.2 选择性剪接事件数据分析与处理方法 |
2.2.1 应用MISO (Mixture of Isoforms)识别选择性剪接事件 |
2.2.2 UCSC Genome Browser数据库 |
2.2.3 选择性剪接事件数据分析与模型设计 |
2.3 选择性剪接介导调节的转录调控网络 |
2.3.1 介导调控关系的介绍 |
2.3.2 选择性剪接介导调控模型的构建 |
2.3.3 数据分析流程 |
2.4 数据的处理与获取 |
2.4.1 TCGA-KIRC RNA-seq数据的获取与处理 |
2.4.2 实验证实的转录因子-靶基因关系的获取 |
2.4.3 TCGA-KIRC组成型选择性剪接谱的计算 |
2.4.4 预测选择性剪接介导的转录调控关系 |
2.4.5 数据库及相关软件 |
2.5 结果分析 |
2.5.1 全局范围上分析转录活性与选择性剪接的相关性 |
2.5.2 GR转录因子活性受夺冠蛋白的选择性剪接的影响 |
2.5.3 MDM2的选择性剪接介导GR转录活性 |
2.5.4 TP53的选择性剪接介导GR转录活性 |
2.6 讨论 |
2.7 本章小结 |
第3章 基于逻辑回归方法研究选择性剪接的调控作用 |
3.1 引言 |
3.2 方法及原理 |
3.2.1 逻辑回归原理 |
3.2.2 逻辑回归的主要用途 |
3.2.3 模型的构建 |
3.2.4 数据的离散化 |
3.2.5 显着性调控关系的选择性 |
3.2.6 调控功能分类 |
3.3 数据的获取与处理 |
3.3.1 数据来源及背景 |
3.3.2 数据处理流程 |
3.3.3 数据处理及分析 |
3.3.4 数据库及相关软件的使用 |
3.4 实验结果与分析 |
3.4.1 全局分析三元调控关系 |
3.4.2 基于模型识别影响ELK1转录活性的选择性剪接事件 |
3.4.3 APP与ELK1转录活性相关性分析 |
3.4.4 STK16与ELK1转录活性相关性分析 |
3.5 讨论 |
3.6 本章小结 |
第4章 乳腺癌中选择性剪接介导MYC转录调控过程 |
4.1 引言 |
4.2 数据的处理与分析 |
4.3 结果分析与讨论 |
4.3.1 影响MYC转录活性的选择性剪接事件的识别 |
4.3.2 选择性剪接产物功能及通路分析 |
4.4 FN1选择性剪接介导MYC转录活性机理 |
4.4.1 FN1选择性剪接与MYC转录活性相关性分析 |
4.4.2 FN1选择性剪接的基因功能分析 |
4.4.3 FN1选择性剪接的氨基酸序列分析 |
4.4.4 FN1选择性剪接的蛋白结构分析 |
4.5 MEN1选择性剪接与MYC转录活性相关性分析 |
4.5.1 MEN1选择性剪接与MYC转录活性相关性分析 |
4.5.2 MEN1选择性剪接的基因功能分析 |
4.5.3 MEN1选择性剪接的氨基酸序列分析 |
4.5.4 MEN1选择性剪接的蛋白结构分析 |
4.6 本章小结 |
第5章 转录辅调节因子依赖的SRSF1对MRNA选择性剪接的调控作用 |
5.1 引言 |
5.1.1 SR蛋白家族研究背景 |
5.1.2 SRSF1的研究背景 |
5.1.3 实验数据来源 |
5.2 数据处理与分析 |
5.2.1 文库构建及测序 |
5.2.2 RNA-seq数据样本的获取 |
5.2.3 RNA-seq数据预处理 |
5.2.4 读段映射 |
5.2.5 基因表达定量分析 |
5.2.6 选择性剪接表达分析 |
5.2.7 SRSF1靶基因数据的获取 |
5.3 SRSF1调控网络的构建 |
5.3.1 调控关系的构建及分析流程 |
5.3.2 数据筛选标准 |
5.4 结果分析与讨论 |
5.4.1 SRSF1三元调控关系的识别与分类 |
5.4.2 调控网络及其功能特征分析 |
5.5 LNcRNA介导影响SRSF1的剪接调控活性 |
5.5.1 SNHG7-SRSF1介导影响RNA的剪接模式 |
5.5.2 SNHG7介导影响SRSF1剪接调控的分析 |
5.5.3 MALAT1-SRSF1介导影响RNA的剪接模式 |
5.5.4 MALAT1介导影响SRSF1剪接调控的分析 |
5.6 编码蛋白基因介导影响SRSF1的剪接调控活性 |
5.6.1 VASN介导影响RNA的剪接模式 |
5.6.2 VASN介导影响SRSF1剪接调控的分析 |
5.7 本章小结 |
结论 |
参考文献 |
攻读学位期间发表的论文和取得的科研成果 |
致谢 |
(8)深度学习框架下DNA位点的预测研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 剪切位点与启动子的概念 |
1.2 剪切位点研究背景及研究意义 |
1.3 启动子研究背景及研究意义 |
1.4 论文的工作内容及结构安排 |
2 常用DNA序列特征提取方法 |
2.1 核苷酸成份法 |
2.2 伪K联核苷酸成份法(PseKNC) |
2.3 基于核苷酸理化性质及密度分布的融合特征 |
2.4 基于多窗口的伪K联伪核苷酸成分法 |
2.5 自-互相关函数法(DACC) |
2.6 移动平均法(Moving average method或 MA) |
2.7 本章小结 |
3 机器学习分类算法及评价 |
3.1 传统机器学习分类算法 |
3.2 深度学习 |
3.3 分类算法评价 |
3.4 本章小结 |
4 剪切位点的预测研究 |
4.1 数据集的构建 |
4.2 特征提取 |
4.3 深度稀疏自动编码器(DSAE) |
4.4 分类方法及评价标准 |
4.5 结果与讨论 |
4.6 在线系统的构建 |
4.7 本章小结 |
5 启动子及其强弱类别的预测研究 |
5.1 数据集的构建 |
5.2 方案一 |
5.3 方案二 |
5.4 方案一与方案二结果的比较 |
5.5 在线系统的构建 |
5.6 本章小结 |
总结与展望 |
1 总结 |
2 展望 |
致谢 |
参考文献 |
攻读硕士学位期间参加的项目和所发表的论文 |
(9)可变剪接和泛基因组:真核生物基因组复杂性的两个方面(论文提纲范文)
摘要 |
ABSTRACT |
常用缩写中英文对照 |
第一章 综述 |
1.1 可变剪接及人类基因组的可变剪接 |
1.1.1 RNA剪接 |
1.1.2 可变剪接 |
1.1.3 人类可变剪接与转录本注释 |
1.1.4 人类基因组蛋白质编码转录本的数量 |
1.1.5 可变剪接的进化 |
1.1.6 可变剪接的调控 |
1.1.7 RNA剪接与人类疾病 |
1.1.8 转录组的高通量研究方法 |
1.1.9 蛋白质组的高通量研究方法 |
1.1.10 基因组注释 |
1.1.11 RNA-seq数据分析方法 |
1.1.12 基于知识数据库的基因功能分析 |
1.2 基因有无变异及泛基因组 |
1.2.1 泛基因组大小估计以及泛基因组的开放性 |
1.2.2 泛基因组分析软件 |
1.2.3 真核生物基因有无变异及泛基因组分析 |
1.2.4 泛基因组研究意义 |
本章小结 |
第二章 人类基因组的可变剪接研究 |
2.1 ALTSCAN算法原理 |
2.1.1 隐马尔科夫模型(HMM) |
2.1.2 隐半马尔科夫模型(HSMM) |
2.1.3 推广隐马尔科夫模型(GHMM)及ALTSCAN算法原理 |
2.2 人类蛋白质编码转录本的全面预测 |
2.2.1 ALTSCAN模型参数的训练 |
2.2.2 潜在基因区域的选取 |
2.2.3 ALTSCAN预测结果及其评估 |
2.3 基于RNA-seq数据对预测结构进行筛选 |
2.3.1 RNA-seq数据说明 |
2.3.2 基于RNA-seq数据的多尺度转录本筛选策率 |
2.3.3 基于RNA-seq数据的转录本验证结果 |
2.4 预测结果的PCR验证 |
2.5 预测结果的SMRT测序验证 |
2.6 基于预测结果鉴定未知蛋白质 |
2.7 新的蛋白质编码基因区域的探索 |
2.8 基于ALTSCAN预测探索人类基因组可变剪接情况 |
2.9 ALTSCAN转录本的功能分析 |
2.10 人类蛋白质编码转录本数量的预测 |
本章小结 |
第三章 水稻泛基因组分析 |
3.1 真核生物泛基因组分析策略(EUPAN) |
3.2 3 Krice项目介绍及3Krice数据信息 |
3.3 3 Krice泛基因组分析策略 |
3.4 亚洲栽培稻的从头拼接 |
3.4.1 拼接策略及其结果 |
3.4.2 拼接结果的评估 |
3.5 泛基因组序列构建 |
3.6 高测序深度亚洲栽培稻筛选 |
3.7 亚洲栽培稻泛基因组序列的注释及验证 |
3.7.1 新序列的基因预测 |
3.7.2 新基因数量的校正 |
3.7.3 新基因的验证 |
3.8 泛基因组的基因家族分析 |
3.9 亚洲栽培稻基因(基因家族)有无变异(PAV) |
3.9.1 基因有无变异的获得 |
3.9.2 基于EUPAN策略计算基因有无变异的准确率评估 |
3.9.3 基因家族有无变异的获得 |
3.10 亚洲栽培稻泛基因组分析 |
3.10.1 亚洲栽培稻泛基因组分析涉及的定义 |
3.10.2 亚洲栽培稻泛基因组分析 |
3.10.3 亚洲栽培稻亚种间的比较 |
3.10.4 亚洲栽培稻亚种内的比较分析 |
3.10.5 亚洲栽培稻多样性的模拟 |
3.11 亚洲栽培稻进化分析 |
3.11.1 基因/基因家族年龄分析 |
3.11.2 共有基因和散在基因的SNP分析 |
3.11.3 基于基因/基因家族有无变异的进化分析 |
3.12 基于基因有无变异的全基因组关联分析 |
3.13 真核生物泛基因组分析工具包(EUPAN toolbox) |
3.14 亚洲栽培稻泛基因组数据库(3Krice Pan-Genome Database) |
本章小结 |
第四章 讨论及展望 |
4.1 物种基因组的复杂性 |
4.2 ALTSCAN及其改进 |
4.3 ALTSCAN及可变剪接分析 |
4.4 EUPAN及泛基因组分析 |
4.5 泛基因组与物种进化 |
4.6 基于基因有无变异的表型差异分析 |
参考文献 |
附表1-9 |
致谢 |
博士期间科研成果 |
(10)基于神经网络预测的SNP信息的剪接点识别算法研究(论文提纲范文)
1 引言 |
2 基于神经网络的预测方法 |
3 数据准备 |
3.1 DNA序列数字化方法 |
3.2 SNP数据与碱基信息的整合 |
4 结果及分析 |
4.1 评价标准 |
4.2 实验结果及分析 |
5 结束语 |
四、基于贝叶斯网络的DNA序列剪接位点预测(论文参考文献)
- [1]基于全基因组重测序的鲂属鱼类群体遗传学研究[D]. 陈静. 华中农业大学, 2021(02)
- [2]基于癌症差异可变剪接基因的预测与分析[D]. 王兵. 温州大学, 2020(04)
- [3]甲基化芯片数据精准扩展算法的研究及预测平台的实现[D]. 孙毅. 电子科技大学, 2019(01)
- [4]基于CLIP数据的RBPs靶向位点与motif识别算法研究[D]. 肖玉贵. 厦门大学, 2019(07)
- [5]基于深度学习网络的剪接位点及蛋白质相互作用预测方法研究[D]. 姚雨. 安徽大学, 2019(07)
- [6]高通量全长转录组测序数据的表达水平计算研究[D]. 瞿锡垚. 南京航空航天大学, 2019(02)
- [7]复杂疾病中选择性剪接对转录调控介导作用的研究[D]. 王洋. 哈尔滨工程大学, 2018(04)
- [8]深度学习框架下DNA位点的预测研究[D]. 王鹏. 景德镇陶瓷大学, 2018(01)
- [9]可变剪接和泛基因组:真核生物基因组复杂性的两个方面[D]. 胡智强. 上海交通大学, 2016(03)
- [10]基于神经网络预测的SNP信息的剪接点识别算法研究[J]. 赵婧,魏彬,陈明淑,张晓娟. 计算机工程与科学, 2016(05)