DNA拷贝数变异CNV检测——基础概念篇

 

一、CNV 简介

拷贝数异常(copy number variations, CNVs)是属于基因组结构变异(structural variation),根据大小可分为两个层次:显 微水平(microscopic)和亚显微水平(submicroscopic)。显微水平 的基因组结构变异主要是指显微镜下可见的染色体畸变, 包括 整倍体或非整倍体、缺失、插入、倒位、易位、脆性位点等结构变 异。亚微水平的基因组结构变异是指 DNA 片 段 长 度 在 1Kb-3Mb 的基因组结构变异, 包括缺失、插入、重复、重排、倒 位、DNA 拷贝数目变化等,这些统称为 CNV (也称为拷贝数多态性(copy number polymorphisms, CNPs)。

CNVs最初是在病人的基因组中发现, 但后来的研究表明在正常人体中也普遍存, 说明CNV 是一组具有良性、致病性或未知临床意义的基因组结构改变。有统计显示, 目前共发现CNVs约57 829个(这个数据不准确,肯定在更新,图1, 已发现的CNVs与染色体位置关系, http://projects.tcag.ca/variation/), 其中染色体倒位847; 100 bp~1 Kb的插入缺失为30 748个; 倒置断裂位点约14 478个。此外, 据Hurles[1] 研究估计, CNVs至少占到基因组的12%, 已成为基因组多态性的又一重要来源。

有关CNVs的研究将随机个体之间的基因组差异估计值提高到大于1%, 大大改变了人们先前的认识, 有学者甚至认为这一发现将改变人类对遗传学领域的认知[3,9]。与一直以来研究较多的单核苷酸多态性(SNPs)相比, CNVs发生的频率虽然较低, 但累及的序列长度却明显超过了前者, 因此对人类健康和疾病的影响更为显著。

染色体非等位同源重排、非同源突变和非βDNA 结构是 造成基因组拷贝数变异的重要原因。目前研究表明 CNV 偏向 分布于基因超保守区域外的位置, 多达 40%的 CNV 位于基因 沙漠区(gene deserts)。存在 CNV 的基因经常参与人体对外界环 境的反应的生理过程,进而在细胞连接、感观理解、化学刺激、 神经生理等过程中发挥重要作用。不存在 CNV 的基因往往是 剂量敏感性基因, 参与维持细胞的生长发育, 包括细胞信号传 导、增殖、激酶化和磷酸化等过程;同时 CNV 可导致不同程度 的基因表达差异, 对正常表型的构成及疾病的发生发展具有一 定作用。

二、CNV 历史

基因拷贝数CNV研究历史 自 1998 年 Lupski 给出了基因病的定义之后[2] ,目前已经 发现大量的基因病是由基因组结构改变引起的,而非传统的 Watson-Crick 碱基配对变化所引起,其中一些基因病是由重组 区域的基因拷贝数发生改变所致。 2000 年 6 月 26 日参加人类基因组计划 ( human genome project , HGP) 6 个国家 (包括中国) 的科学家公布完成了人类 基因组草图.随后人类基因组序列绘制成功,首次在分子层面,上为人类提供了一份生命“说明书”:HGP 从分子层面上为多 种遗传疾病、癌症及神经退化症的治疗提供了基础。

高通量阵列比较基因组杂交技术(array based comparative genomic hybridization CGH)加速了 CNV 的探究。2004 年 Iafrate 等人通过细菌人工染色体微阵列(bacterial artificial chromosome ,BAC-based array) 对 39 个非相关的健康人研究后发现 255 个变异位点,其中有 24 个位点出现的频率大于 10%,有 6 个位点出现的频率大于 20%,其平均间隔为 1Mb[3] 。同年 Sebat 及同事通过代表性单核苷酸微阵列分析 ( representational oligonucleotide microarray analysis ,ROMA) 对 20 个健康人研 究发现了 221 个 CNV,代表着 76 种 CNP,CNP 间隔平均长为 465kb[4] 。此外发现 CNP 间隔内 70 个不同基因的 CNV,包括调 节神经功能、细胞生长、新陈代谢的基因,以及几种已知疾病的 相关基因。由此可以看出在正常人群中也存在一定数目的 CNV。

伴随着研究者对 CNV 的研究越来越深入,Redon 等人通 过对 270 名具有欧洲、非洲或亚洲世系的 4 个群体研究,构建 了人类基因组第一代拷贝数变异图谱[5] 。该研究表明:拷贝数变 异非常复杂,类型多样。通过两种平台:WGTP platform、500K EA platform,及两种互补技术:单核苷酸多态性(SNP) 基因型微 阵列和基于克隆比较基因组杂交技术对这些个体 DNA 进行鉴 定,结果显示有 1447 种拷贝数变异区(copy number variation regions, CNVR),涵盖了 360 万个碱基(占人类基因组 12 %), 其 中 285 种与孟德尔遗传疾病相关;并且指出 CNV 通常不编码 发育相关的重要基因,而是编码与环境作用相关的基因,即“环 境敏感性基因”,而这些基因通常参与细胞粘附、化学刺激、感 官知觉,神经生理过程等活动。

2009 年 AnnaC 等通过分析全基因组单核甘酸变异(Single Nucleotide Polymorphisms ,SNP)和 CNV 遗传标记与精神分裂 症患者的相关性,提出不常见的致病性 CNV 区域对于精神分 裂症易感性方面发挥更重要的作用,而不支持共同变异(common variation)区域与精神分裂症的相关性[6] 。

2010 年 Christiaan 等通过对 95 个血液肿瘤细胞系的高通 量分析发现了一些共同发生的基因拷贝数变化位点,并对这些 位点进行功能分析,绘制出基因拷贝数变化 (获得或缺失)网 络,从而发现了一些中心节点,进而提出:大规模低强度的拷贝 数变化可能是肿瘤发生发展过程的重要特征[7] 。

目前已有几个数据库用来收集 CNVs 信息[8] :健康人群 CNV 可到 Genomic Variants (www.projects.tcag.ca/variation)查 询;神经发育异常的患者 CNVs 可到 DECIPHER(www.sanger. ac.uk/PostGenomic/decipher/) 查询;染色体异常的患者 CNVs 数据库 www.ukcad.org.uk/cocoon/ukcad、www.isca.genetics.emory.edu/;染色体非平衡变异的患者 CNVs 可到 www.ecaruca. net 查询。

三、CNV 形成机制

基因的结构特征决定基因是否容易发生重组,进而影响基 因拷贝数变化。重组主要发生在特定的重复序列区域,或者低 拷贝重复区(low copy repeats , LCRs)。LCR 中包含一个或多个 基因、假基因、基因片段、逆转录病毒序列、基因调控区,通常分布在端着丝粒和端粒区域,其大小、相对方向、各拷贝之间的距 离及同源程度,均将影响到 CNV 的形成[2] 。然而目前 CNV 的 确切机制仍不甚清楚,可能的机制主要包括非等位基因同源性 重组机制 (non-allelic homologous recombination, NAHR), 非同 源末端连接机制(non-homologous end joining, NHEJ )NAHR 机制一般发生在经常重组的区域,这些区域有如下 特征:(1)片段大小 >10kb,(2)序列同源程度 >97% , (3)序列方 向明确,(4) 每个 LCR 大小控制在 5Mb 以内,(5)LCR 在同一 染色体上[9];而 NHEJ 不需要重组断端之间的具有严格的 DNA 同源性,但是仍能够引发彼此毫不相干的 DNA 断端的连接,导 致包括移位(移位) 等在内的染色体之间的重排。不经常发生重 组的 LCR,或者各 LCR 区域大小不一致时,倾向于通过 NHEJ 机制引起基因拷贝数变化。尽管如此,很多遗传学家并不认可 NHEJ 机制

DNA拷贝数变异CNV检测——基础概念篇的更多相关文章

  1. 使用CNVnator分析动植物群体拷贝数变异CNV

    目录 1.安装 2.测试 3.动植物群体检测CNV 知名的拷贝数变异分析工具几乎都是为人类变异检测开发,对于动植物重测序分析有些尴尬.不过好在植物群体研究不必那么精细,用同样的工具也可做分析. 地址: ...

  2. lua学习之基础概念篇

    基础概念 程序块 (chunk) 定义 lua 中的每一个源代码文件或在交互模式(Cmd)中输入的一行代码都称之为程序块 一个程序块就是一连串语句或者命令 lua 中连续的语句不需要分隔符,但为了可读 ...

  3. (数据科学学习手札102)Python+Dash快速web应用开发——基础概念篇

    本文示例代码与数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 这是我的新系列教程Python+Dash快 ...

  4. 函数响应式编程(FRP)—基础概念篇

    原文出处:http://ios.jobbole.com/86815/. 一函数响应式编程 说到函数响应式编程,就不得不提到函数式编程,他们俩有什么关系呢?今天我们就详细的解析一下他们的关系. 现在下面 ...

  5. 【Kafka入门】Kafka入门第一篇:基础概念篇

    Kafka简介 Kafka是一个消息系统服务框架,它以提交日志的形式存储消息,并且消息的存储是分布式的,为了提供并行性和容错保障,消息的存储是分区冗余形式存在的. Kafka的架构 Kafka中包含以 ...

  6. Win32多线程编程(1) — 基础概念篇

      内核对象的基本概念 Windows系统是非开源的,它提供给我们的接口是用户模式的,即User-Mode API.当我们调用某个API时,需要从用户模式切换到内核模式的I/O System Serv ...

  7. (一)github之基础概念篇

    1.github: 一项为开发者提供git仓库的托管服务, 开发者间共享代码的场所.github上公开的软件源代码全都由git进行管理. 2.git: 开发者将源代码存入名为git仓库的资料库中,而g ...

  8. haproxy小结(一)基础概念篇

    HAProxy是法国人Willy Tarreau个人开发的一个开源软件,目标是应对客户端10000以上的同时连接,为后端应用服务器.数据库服务器提供高性能的负载均衡服务.HAproxy可以实现基于TC ...

  9. http协议之基础概念篇(1)

    内容概述: 该篇主要内容概述 a.http相关术语解析 b.http的基本原理与工作流程 c.相关工具的使用(Wireshark) 作用介绍 绝大多数的web开发,都是构建在http协议之上的. HT ...

随机推荐

  1. centos6性能监控软件

    常用软件在此下载 http://rpm.pbone.net/ http://pkgs.org/ collectl 显示cpu\disk\network的实时信息http://dl.fedoraproj ...

  2. 超全整理!Linux性能分析工具汇总合集

    转自:http://rdc.hundsun.com/portal/article/731.html?ref=myread 出于对Linux操作系统的兴趣,以及对底层知识的强烈欲望,因此整理了这篇文章. ...

  3. php 学习笔记 设计和管理

    代码管理 文件路径.数据库名.密码禁止 hard coded 避免重复代码在多个页面复制粘贴 Gang of Four eXtreme Programming 的主要原则是坚决主张测试是项目成功的关键 ...

  4. ORM介绍(字段 和 字段的参数)

    ORM介绍 ORM概念 对象关系映射(Object Relational Mapping,简称ORM)模式是一种为了解决面向对象与关系数据库存在的互不匹配的现象的技术. 简单的说,ORM是通过使用描述 ...

  5. BP神经网络的公式推导

    如果感觉自己看不懂,那就看看我博客的梯度下降法,博文最后的感知机也算最简单的BP神经网络吧,用的也是反馈(w,b):典型梯度下降法 BP网络的结构 BP网络的结构如下图所示,分为输入层(Input), ...

  6. c++官方文档-枚举-联合体-结构体-typedef-using

    #include<iostream> #include <new> #include<stdio.h> using namespace std; /** * url ...

  7. 《GPU高性能编程CUDA实战》附录二 散列表

    ▶ 使用CPU和GPU分别实现散列表 ● CPU方法 #include <stdio.h> #include <time.h> #include "cuda_runt ...

  8. 36. CentOS-6.3安装Mysql集群

    安装要求 安装环境:CentOS-6.3安装方式:源码编译安装 软件名称:mysql-cluster-gpl-7.2.6-linux2.6-x86_64.tar.gz下载地址:http://mysql ...

  9. 编写一个基于Soap DataModule的三层数据库应用

    服务器端:建立一个Web App Debugger executable类型,不需要接口,添加一个SoapData Module,放上AdoCon,AdoDataSet,DataSetProvider ...

  10. Spring Data Jpa --- 入门

    一.概述 Spring Data是Spring下的一个子项目,用于简化数据库访问,并支持云服务的开源框架.Spring Data支持NoSQL和 关系数据存储,其主要目标是使得数据库的访问变得方便快捷 ...