Design based on biology

通过比较基因组学的方法,将脊椎动物基因组的数据,解决生物学各方面问题。新的调控注释(在脊椎动物的进化过程中的出现的)可以丰富物种树(比如不同功能蛋白质进化速度上的差异(因为编码蛋白质基因和早期进化基因的发现))。

Sequencing 需要以下两种策略叠加:

1.Pooled genome sequence strategies :测同一物种的不同个体,不同个体叠加。

2.representative genome assembly approaches :因为有质量好的序列片段(reasonable N50 contig),所以可适用于缺乏长序列的情况。如果assembly质量好可以作为参考序列

Domestication因为自然改变使得人改变,使得人为选择改变,人为改变部分导致的变化。

Project design:

因为生物学分析依赖于assembly数据,所以assembly需要关注细节缩小误差(confounding effects)。

Data acquisition

Flowchart:1.什么样的测序方式对应什么样的研究2.除资源导向外,比较基因组学可以帮助找到内在机制3.

statistics:fixation index

GERP:genome evolutionary rate profiling:"GERP identifies constrained elements in multiple alignments by quantifying substitution deficits. These deficits represent substitutions that would have occurred if the element were neutral DNA, but did not occur because the element has been under functional constraint. We refer to these deficits as "Rejected Substitutions". Rejected substitutions are a natural measure of constraint that reflects the strength of past purifying selection on the element."

GWAS:genome-wide association studies

The effect of genome content如果测序质量好,则可以扩大改数据的适用范围。测序质量的好坏与测序技术(以前的技术:radiation hybrids and BAC maps, BACs and fosmids现在PacBio, Dovetail and Bionano)有关。

因为可以assembly大部分基因,所以邻近物种共线保守性可以用来研究基因组结构,新技术的综合使用使得assembly质量更好(N50变长),从而解决以前因技术不足造成的问题。由于脊椎动物基因组的复杂性(因为脊柱动物基因组有自己独特的特征:1.高重复2.高CG含量3.微染色体(质量较小的染色体)),更需要这种新技术(因为新技术对于重复区域可以单独span)。

 

Standing variation, imputation and mapping:

variation:发现突变重点在于选择样本:可以选择因为选择样本和探测差异同等重要,所以综合多个个体的低覆盖率序列(具体方式是综合使用软件探测差异)是合算的。

Imputation:确认发生突变的原因:可以通过1.计算遗传距离,2.滑动窗口model确认sweep或杂交或回交。

selective sweep:选择转移:因为对某位点的选择导致该位点周围的多样性下降。

A selective sweep

Under natural selection, a new beneficial mutation will rise in frequency (prevalence) in a population. A schematic of polymorphisms along a chromosome, including the selected allele, before and after selection. Ancestral alleles are shown in gray and derived (non-ancestral) alleles are shown in blue. As a new positively selected allele (red) rises to high frequency, nearby linked alleles on the chromosome 'hitchhike' along with it to high frequency, creating a 'selective sweep.'

Hybridization:杂交:不同亲本之间杂交。

Introgression:回交:亲本和子代杂交。

Integrated haplotype homozygosity score:iHS (Integrated Haplotype Score) is a statistic that has been developed to detect evidence of recent positive selection at a locus. It is based on the differential levels of linkage disequilibrium(LD) surrounding a positively selected allele compared to the background allele at the same position.

Mapping:基因型与性状相对应:随着(1.SNP微阵列技术2.高通量测序价格下降),单倍体模型(通过足够的SNP密度数据)用于研究种群历史和基因型与性状的对应。

SNP genotyping arrays:SNP阵列是一种DNA微阵列,用于检测群体内的多态性。单核苷酸多态性是DNA中单个位点的变异,是基因组中最常见的变异类型。在人类基因组中已经鉴定了大约3.35亿个SNP,其中1500万个在全世界不同人群中以1%或更高的频率存在。

单倍型(haplotype:若干个决定同一性状的紧密连锁的基因构成的基因型

 

Complex mutation types: the good with the bad

the bad:因为技术水平所限(SRS),所以许多高区域性突变(高区域性杂合和基因组断裂)无法找到,仅有少部分例子通过精确比对,可以解剖重排。

The good:现在出现了PacBio SMRT技术可以解开结构多样性

Layering complexity: gene and transcript annotation

1.DNA Annotation>transcription annotation(方式1:比照相似物种的基因组;方式2:mapping RefSeq上的转录组)后可得到RNA序列(转录组,物种特异性的)

2.调节原件信息进行注释:调节原件导致突变(因为GWAS利用非编码区识别突变(GWAS可以map outside gene,以此达到检测疾病的目的。))

3.非编码区:GWAS基因组关联分析(genome-wide association studies, GWAS)已经被广泛用于复杂疾病的遗传位点的分析。 然而,GWAS 发现的复杂疾病相关的遗传变异,即单核苷酸多态性(SNP)位点大多位于基因的非编码区,并且同一区域中连锁的遗传变异(SNP)位点可以多达成百上千个。

4.特殊(特殊分类标准的)生物数据平台上的特殊data set进行注释

5.通过识别保守原件(来自不同物种的)进行注释

 

Vertebrate comparative genomicsNatural disease models: domestic animals

物种分为模式生物和自然生物,自然生物正是研究稳态和健康特征的优选,所以在多目标的前体下驯化动物和自然动物都可以作为模型对象。

驯化的结果是表型的一致和疾病的富集。最近发现驯养动物有类人疾病(虽然没有实验室环境,但也是人类选择的结果)。用该动物不仅可以研究人类疾病,也可以造福该物种。

物种基因组比较,有助于annotation 2.通过GWAS找到SNP3.有助于找到sweep

Intraspecies comparison: a tool to study recent phenotypic adaptations种内多个体比较可得到selective sweeps特点是聚集多基因和基因多态eg(不同季节的)鱼的单倍体基因长序列(coding区和非coding区,共同控制)控制一类及相关性状;eg不同海拔的sheep(由同一物种得到的性状different,采用不同物种作为验证。)

adaptations (microevolution)

Pooled genome sequence strategies |representative genome assembly approaches|Domestication|GERP|selective sweep|Hybridization|Introgression|iHS|SNP genotyping arrays|haplotype的更多相关文章

  1. The sequence and de novo assembly of the giant panda genome.ppt

    sequencing:使用二代测序原因:高通量,短序列 不用长序列原因: 1.算法错误率高 2.长序列测序将嵌合体基因错误积累.嵌合体基因:通过重组由来源与功能不同的基因序列剪接而形成的杂合基因 se ...

  2. (转)8 reviews about de novo genome assembly

    转自:http://dskernel.blogspot.com/2012/04/8-reviews-about-de-novo-genome-assembly.html 8 reviews about ...

  3. 短序列组装Sequence Assembly(转载)

    转载:http://blog.sina.com.cn/s/blog_4af3f0d20100fq5i.html 短序列组装(Sequence assembly)几乎是近年来next-generatio ...

  4. 使用UCSC Genome Browser下载人类所有mRNA序列

    打开UCSC Genome Browser官网.网址:http://genome.ucsc.edu/ 点击导航栏的Genome Data 在新的页面中,点击human,可快速定位至页面中人类基因组数据 ...

  5. Why you should QC your reads AND your assembly?

    鲤鱼基因组:http://www.ntv.cn/a/20140923/52953.shtml   关于鲤鱼基因组的测定,数据质量控制遭到质疑. Why you should QC your reads ...

  6. 【bioinfo】生物信息学——代码遇见生物学的地方

    注:从进入生信领域到现在,已经过去快8年了.生物信息学包含了我最喜欢的三门学科:生物学.计算机科学和数学.但是如果突然问起,什么是生物信息学,我还是无法给出一个让自己满意的答案.于是便有了这篇博客. ...

  7. GATK--使用转载

    http://blog.sciencenet.cn/blog-1469385-819498.html 文章目录 一.准备工作 二.流程概览 三.流程 首先说说GATK可以做什么.它主要用于从seque ...

  8. GWAS Catalog数据库简介

    GWAS Catalog The NHGRI-EBI Catalog of published genome-wide association studies EBI负责维护的一个收集已发表的GWAS ...

  9. GATK-BWA-MEM handle GRCh38 alternate contig mappings

    1. For the Impatient # Download bwakit (or from <http://sourceforge.net/projects/bio-bwa/files/bw ...

随机推荐

  1. GIT-Linux(CentOS7)系统安装Git

    GIT-Linux(CentOS7)系统安装Git 未成功 查看是否已安装了Git 发现Git版本已存在,说明已安装了Git [root@localhost ~]# rpm -qa|grep git ...

  2. core_cm4.h(129): error: #35: #error directive: "Compiler generates FPU instructions for a device without an FPU (check __FPU_PRESENT)"

    今天使用 systick 的时候,只使用了头文件 core_cm4.h,结果就报错了,原因是 __FPU_PRESENT 没有定义,这个定义其实在 stm32f4xx.h 里面.所以如果要解决这个错误 ...

  3. 吴裕雄--天生自然JAVA SPRING框架开发学习笔记:Spring基于XML装配Bean

    Bean 的装配可以理解为依赖关系注入,Bean 的装配方式也就是 Bean 的依赖注入方式.Spring 容器支持多种形式的 Bean 的装配方式,如基于 XML 的 Bean 装配.基于 Anno ...

  4. POJ 3126:Prime Path

    Prime Path Time Limit: 1000MS   Memory Limit: 65536KB   64bit IO Format: %I64d & %I64u Submit St ...

  5. offsetof宏与container_of宏

    offsetof宏与container_of宏1.由结构体指针进而访问各元素的原理(1)通过结构体整体变量来访问其中各个元素,本质上是通过指针方式来访问的,形式上是通过.的方式来访问的(这个时候其实是 ...

  6. Java8集合框架——基本知识点

    前言 Java的基础集合框架的内容并不复杂,List.Map.Set 中大概10个常见的集合类,建议多看几遍源码(Java8),然后回过头再来看看这些各路博客总结的知识点,会有一种豁然开朗的感觉. 本 ...

  7. c++ 排序 冒泡 插入 选择 快速

    //冒泡 #include <iostream> using namespace std; void bubbleSort(int* list,int index) { ;i--) //i ...

  8. Redis 在NETCore中的应用

    Redis 在NETCore中的应用 Redis 在netFramework中的应用  也一样 新建.NETCORE(webapi)项目 安装NuGet //查询NuGet语句 Find-Packag ...

  9. sys.path.append()加入当前目录为环境变量

    当我们导入一个模块时:import  xxx,默认情况下python解析器会搜索当前目录.已安装的内置模块和第三方模块,搜索路径存放在sys模块的path中: >>> import  ...

  10. 吴裕雄--天生自然MySQL学习笔记:MySQL 连接

    使用mysql二进制方式连接 您可以使用MySQL二进制方式进入到mysql命令提示符下来连接MySQL数据库. 实例 以下是从命令行中连接mysql服务器的简单实例: [root@host]# my ...