Design based on biology

通过比较基因组学的方法,将脊椎动物基因组的数据,解决生物学各方面问题。新的调控注释(在脊椎动物的进化过程中的出现的)可以丰富物种树(比如不同功能蛋白质进化速度上的差异(因为编码蛋白质基因和早期进化基因的发现))。

Sequencing 需要以下两种策略叠加:

1.Pooled genome sequence strategies :测同一物种的不同个体,不同个体叠加。

2.representative genome assembly approaches :因为有质量好的序列片段(reasonable N50 contig),所以可适用于缺乏长序列的情况。如果assembly质量好可以作为参考序列

Domestication因为自然改变使得人改变,使得人为选择改变,人为改变部分导致的变化。

Project design:

因为生物学分析依赖于assembly数据,所以assembly需要关注细节缩小误差(confounding effects)。

Data acquisition

Flowchart:1.什么样的测序方式对应什么样的研究2.除资源导向外,比较基因组学可以帮助找到内在机制3.

statistics:fixation index

GERP:genome evolutionary rate profiling:"GERP identifies constrained elements in multiple alignments by quantifying substitution deficits. These deficits represent substitutions that would have occurred if the element were neutral DNA, but did not occur because the element has been under functional constraint. We refer to these deficits as "Rejected Substitutions". Rejected substitutions are a natural measure of constraint that reflects the strength of past purifying selection on the element."

GWAS:genome-wide association studies

The effect of genome content如果测序质量好,则可以扩大改数据的适用范围。测序质量的好坏与测序技术(以前的技术:radiation hybrids and BAC maps, BACs and fosmids现在PacBio, Dovetail and Bionano)有关。

因为可以assembly大部分基因,所以邻近物种共线保守性可以用来研究基因组结构,新技术的综合使用使得assembly质量更好(N50变长),从而解决以前因技术不足造成的问题。由于脊椎动物基因组的复杂性(因为脊柱动物基因组有自己独特的特征:1.高重复2.高CG含量3.微染色体(质量较小的染色体)),更需要这种新技术(因为新技术对于重复区域可以单独span)。

 

Standing variation, imputation and mapping:

variation:发现突变重点在于选择样本:可以选择因为选择样本和探测差异同等重要,所以综合多个个体的低覆盖率序列(具体方式是综合使用软件探测差异)是合算的。

Imputation:确认发生突变的原因:可以通过1.计算遗传距离,2.滑动窗口model确认sweep或杂交或回交。

selective sweep:选择转移:因为对某位点的选择导致该位点周围的多样性下降。

A selective sweep

Under natural selection, a new beneficial mutation will rise in frequency (prevalence) in a population. A schematic of polymorphisms along a chromosome, including the selected allele, before and after selection. Ancestral alleles are shown in gray and derived (non-ancestral) alleles are shown in blue. As a new positively selected allele (red) rises to high frequency, nearby linked alleles on the chromosome 'hitchhike' along with it to high frequency, creating a 'selective sweep.'

Hybridization:杂交:不同亲本之间杂交。

Introgression:回交:亲本和子代杂交。

Integrated haplotype homozygosity score:iHS (Integrated Haplotype Score) is a statistic that has been developed to detect evidence of recent positive selection at a locus. It is based on the differential levels of linkage disequilibrium(LD) surrounding a positively selected allele compared to the background allele at the same position.

Mapping:基因型与性状相对应:随着(1.SNP微阵列技术2.高通量测序价格下降),单倍体模型(通过足够的SNP密度数据)用于研究种群历史和基因型与性状的对应。

SNP genotyping arrays:SNP阵列是一种DNA微阵列,用于检测群体内的多态性。单核苷酸多态性是DNA中单个位点的变异,是基因组中最常见的变异类型。在人类基因组中已经鉴定了大约3.35亿个SNP,其中1500万个在全世界不同人群中以1%或更高的频率存在。

单倍型(haplotype:若干个决定同一性状的紧密连锁的基因构成的基因型

 

Complex mutation types: the good with the bad

the bad:因为技术水平所限(SRS),所以许多高区域性突变(高区域性杂合和基因组断裂)无法找到,仅有少部分例子通过精确比对,可以解剖重排。

The good:现在出现了PacBio SMRT技术可以解开结构多样性

Layering complexity: gene and transcript annotation

1.DNA Annotation>transcription annotation(方式1:比照相似物种的基因组;方式2:mapping RefSeq上的转录组)后可得到RNA序列(转录组,物种特异性的)

2.调节原件信息进行注释:调节原件导致突变(因为GWAS利用非编码区识别突变(GWAS可以map outside gene,以此达到检测疾病的目的。))

3.非编码区:GWAS基因组关联分析(genome-wide association studies, GWAS)已经被广泛用于复杂疾病的遗传位点的分析。 然而,GWAS 发现的复杂疾病相关的遗传变异,即单核苷酸多态性(SNP)位点大多位于基因的非编码区,并且同一区域中连锁的遗传变异(SNP)位点可以多达成百上千个。

4.特殊(特殊分类标准的)生物数据平台上的特殊data set进行注释

5.通过识别保守原件(来自不同物种的)进行注释

 

Vertebrate comparative genomicsNatural disease models: domestic animals

物种分为模式生物和自然生物,自然生物正是研究稳态和健康特征的优选,所以在多目标的前体下驯化动物和自然动物都可以作为模型对象。

驯化的结果是表型的一致和疾病的富集。最近发现驯养动物有类人疾病(虽然没有实验室环境,但也是人类选择的结果)。用该动物不仅可以研究人类疾病,也可以造福该物种。

物种基因组比较,有助于annotation 2.通过GWAS找到SNP3.有助于找到sweep

Intraspecies comparison: a tool to study recent phenotypic adaptations种内多个体比较可得到selective sweeps特点是聚集多基因和基因多态eg(不同季节的)鱼的单倍体基因长序列(coding区和非coding区,共同控制)控制一类及相关性状;eg不同海拔的sheep(由同一物种得到的性状different,采用不同物种作为验证。)

adaptations (microevolution)

Pooled genome sequence strategies |representative genome assembly approaches|Domestication|GERP|selective sweep|Hybridization|Introgression|iHS|SNP genotyping arrays|haplotype的更多相关文章

  1. The sequence and de novo assembly of the giant panda genome.ppt

    sequencing:使用二代测序原因:高通量,短序列 不用长序列原因: 1.算法错误率高 2.长序列测序将嵌合体基因错误积累.嵌合体基因:通过重组由来源与功能不同的基因序列剪接而形成的杂合基因 se ...

  2. (转)8 reviews about de novo genome assembly

    转自:http://dskernel.blogspot.com/2012/04/8-reviews-about-de-novo-genome-assembly.html 8 reviews about ...

  3. 短序列组装Sequence Assembly(转载)

    转载:http://blog.sina.com.cn/s/blog_4af3f0d20100fq5i.html 短序列组装(Sequence assembly)几乎是近年来next-generatio ...

  4. 使用UCSC Genome Browser下载人类所有mRNA序列

    打开UCSC Genome Browser官网.网址:http://genome.ucsc.edu/ 点击导航栏的Genome Data 在新的页面中,点击human,可快速定位至页面中人类基因组数据 ...

  5. Why you should QC your reads AND your assembly?

    鲤鱼基因组:http://www.ntv.cn/a/20140923/52953.shtml   关于鲤鱼基因组的测定,数据质量控制遭到质疑. Why you should QC your reads ...

  6. 【bioinfo】生物信息学——代码遇见生物学的地方

    注:从进入生信领域到现在,已经过去快8年了.生物信息学包含了我最喜欢的三门学科:生物学.计算机科学和数学.但是如果突然问起,什么是生物信息学,我还是无法给出一个让自己满意的答案.于是便有了这篇博客. ...

  7. GATK--使用转载

    http://blog.sciencenet.cn/blog-1469385-819498.html 文章目录 一.准备工作 二.流程概览 三.流程 首先说说GATK可以做什么.它主要用于从seque ...

  8. GWAS Catalog数据库简介

    GWAS Catalog The NHGRI-EBI Catalog of published genome-wide association studies EBI负责维护的一个收集已发表的GWAS ...

  9. GATK-BWA-MEM handle GRCh38 alternate contig mappings

    1. For the Impatient # Download bwakit (or from <http://sourceforge.net/projects/bio-bwa/files/bw ...

随机推荐

  1. BZOJ:2186: [Sdoi2008]沙拉公主的困惑

    问题:可能逆元不存在吗? 题解: Gcd(a,b)==Gcd(b,a-b); 从数据范围可以看出应该求M!的欧拉函数: 然后通过Gcd转化过去 一开始没想到 #include<iostream& ...

  2. 使用maven构建项目的注意事项

    一.如果修改了pom.xml文件,就有点类似修改了项目的结构,在再次运行项目前,应该Mvaen >>Update project一下. 二.对于依赖一个系列的的包,如spring,我们应该 ...

  3. python复习——数据输入输出

    标准输入:x=input()…… 标准输出:print()…… 格式化输出:1.字符串格式化运算符% 例:print('Values are %s,%s,%s.'%(1,2,['one','two'] ...

  4. React之Redux知识点补充

    一. reducer纯函数方便自动化测试 二.

  5. NOI2019退役记

    Day0 时光荏苒,日月如梭.人生中第二次也是最后一次全国赛开始了. 坐6h高铁+1h大巴来到gzez,热死.室友是A类的Gloid和C类的仓鼠,我寝室是为数不多(或许只有1个)的凑齐了ABC三种类别 ...

  6. js数组全等

    js 数组全等(对象) if(this.eqOrNotEq(arr)){} eqOrNotEq(arr) { return !arr.some(function(value, index) { ret ...

  7. 基于python的爬虫流程图(精简版)

    网址: https://www.processon.com/view/link/5e1148b8e4b07db4cfa9cf34 如果链接失效,请及时反馈(在评论区评论),博主会及时更新

  8. Delphi流的操作_文件合并

    unit Unit1; interface uses Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms ...

  9. 文献阅读报告 - Social LSTM:Human Trajectory Prediction in Crowded Spaces

    概览 简述 文献所提出的模型旨在解决交通中行人的轨迹预测(pedestrian trajectory prediction)问题,特别是在拥挤环境中--人与人交互(interaction)行为常有发生 ...

  10. POJ 2528 Mayor‘s poster 线段树+离散化

    给一块最大为10^8单位宽的墙面,贴poster,每个poster都会给出数据 a,b,表示该poster将从第a单位占据到b单位,新贴的poster会覆盖旧的,最多有10^4张poster,求最后贴 ...