DNA拷贝数变异CNV检测——基础概念篇
DNA拷贝数变异CNV检测——基础概念篇
一、CNV 简介
拷贝数异常(copy number variations, CNVs)是属于基因组结构变异(structural variation),根据大小可分为两个层次:显 微水平(microscopic)和亚显微水平(submicroscopic)。显微水平 的基因组结构变异主要是指显微镜下可见的染色体畸变, 包括 整倍体或非整倍体、缺失、插入、倒位、易位、脆性位点等结构变 异。亚微水平的基因组结构变异是指 DNA 片 段 长 度 在 1Kb-3Mb 的基因组结构变异, 包括缺失、插入、重复、重排、倒 位、DNA 拷贝数目变化等,这些统称为 CNV (也称为拷贝数多态性(copy number polymorphisms, CNPs)。
CNVs最初是在病人的基因组中发现, 但后来的研究表明在正常人体中也普遍存, 说明CNV 是一组具有良性、致病性或未知临床意义的基因组结构改变。有统计显示, 目前共发现CNVs约57 829个(这个数据不准确,肯定在更新,图1, 已发现的CNVs与染色体位置关系, http://projects.tcag.ca/variation/), 其中染色体倒位847; 100 bp~1 Kb的插入缺失为30 748个; 倒置断裂位点约14 478个。此外, 据Hurles[1] 研究估计, CNVs至少占到基因组的12%, 已成为基因组多态性的又一重要来源。
有关CNVs的研究将随机个体之间的基因组差异估计值提高到大于1%, 大大改变了人们先前的认识, 有学者甚至认为这一发现将改变人类对遗传学领域的认知[3,9]。与一直以来研究较多的单核苷酸多态性(SNPs)相比, CNVs发生的频率虽然较低, 但累及的序列长度却明显超过了前者, 因此对人类健康和疾病的影响更为显著。
染色体非等位同源重排、非同源突变和非βDNA 结构是 造成基因组拷贝数变异的重要原因。目前研究表明 CNV 偏向 分布于基因超保守区域外的位置, 多达 40%的 CNV 位于基因 沙漠区(gene deserts)。存在 CNV 的基因经常参与人体对外界环 境的反应的生理过程,进而在细胞连接、感观理解、化学刺激、 神经生理等过程中发挥重要作用。不存在 CNV 的基因往往是 剂量敏感性基因, 参与维持细胞的生长发育, 包括细胞信号传 导、增殖、激酶化和磷酸化等过程;同时 CNV 可导致不同程度 的基因表达差异, 对正常表型的构成及疾病的发生发展具有一 定作用。
二、CNV 历史
基因拷贝数CNV研究历史 自 1998 年 Lupski 给出了基因病的定义之后[2] ,目前已经 发现大量的基因病是由基因组结构改变引起的,而非传统的 Watson-Crick 碱基配对变化所引起,其中一些基因病是由重组 区域的基因拷贝数发生改变所致。 2000 年 6 月 26 日参加人类基因组计划 ( human genome project , HGP) 6 个国家 (包括中国) 的科学家公布完成了人类 基因组草图.随后人类基因组序列绘制成功,首次在分子层面,上为人类提供了一份生命“说明书”:HGP 从分子层面上为多 种遗传疾病、癌症及神经退化症的治疗提供了基础。
高通量阵列比较基因组杂交技术(array based comparative genomic hybridization CGH)加速了 CNV 的探究。2004 年 Iafrate 等人通过细菌人工染色体微阵列(bacterial artificial chromosome ,BAC-based array) 对 39 个非相关的健康人研究后发现 255 个变异位点,其中有 24 个位点出现的频率大于 10%,有 6 个位点出现的频率大于 20%,其平均间隔为 1Mb[3] 。同年 Sebat 及同事通过代表性单核苷酸微阵列分析 ( representational oligonucleotide microarray analysis ,ROMA) 对 20 个健康人研 究发现了 221 个 CNV,代表着 76 种 CNP,CNP 间隔平均长为 465kb[4] 。此外发现 CNP 间隔内 70 个不同基因的 CNV,包括调 节神经功能、细胞生长、新陈代谢的基因,以及几种已知疾病的 相关基因。由此可以看出在正常人群中也存在一定数目的 CNV。
伴随着研究者对 CNV 的研究越来越深入,Redon 等人通 过对 270 名具有欧洲、非洲或亚洲世系的 4 个群体研究,构建 了人类基因组第一代拷贝数变异图谱[5] 。该研究表明:拷贝数变 异非常复杂,类型多样。通过两种平台:WGTP platform、500K EA platform,及两种互补技术:单核苷酸多态性(SNP) 基因型微 阵列和基于克隆比较基因组杂交技术对这些个体 DNA 进行鉴 定,结果显示有 1447 种拷贝数变异区(copy number variation regions, CNVR),涵盖了 360 万个碱基(占人类基因组 12 %), 其 中 285 种与孟德尔遗传疾病相关;并且指出 CNV 通常不编码 发育相关的重要基因,而是编码与环境作用相关的基因,即“环 境敏感性基因”,而这些基因通常参与细胞粘附、化学刺激、感 官知觉,神经生理过程等活动。
2009 年 AnnaC 等通过分析全基因组单核甘酸变异(Single Nucleotide Polymorphisms ,SNP)和 CNV 遗传标记与精神分裂 症患者的相关性,提出不常见的致病性 CNV 区域对于精神分 裂症易感性方面发挥更重要的作用,而不支持共同变异(common variation)区域与精神分裂症的相关性[6] 。
2010 年 Christiaan 等通过对 95 个血液肿瘤细胞系的高通 量分析发现了一些共同发生的基因拷贝数变化位点,并对这些 位点进行功能分析,绘制出基因拷贝数变化 (获得或缺失)网 络,从而发现了一些中心节点,进而提出:大规模低强度的拷贝 数变化可能是肿瘤发生发展过程的重要特征[7] 。
目前已有几个数据库用来收集 CNVs 信息[8] :健康人群 CNV 可到 Genomic Variants (www.projects.tcag.ca/variation)查 询;神经发育异常的患者 CNVs 可到 DECIPHER(www.sanger. ac.uk/PostGenomic/decipher/) 查询;染色体异常的患者 CNVs 数据库 www.ukcad.org.uk/cocoon/ukcad、www.isca.genetics.emory.edu/;染色体非平衡变异的患者 CNVs 可到 www.ecaruca. net 查询。
三、CNV 形成机制
基因的结构特征决定基因是否容易发生重组,进而影响基 因拷贝数变化。重组主要发生在特定的重复序列区域,或者低 拷贝重复区(low copy repeats , LCRs)。LCR 中包含一个或多个 基因、假基因、基因片段、逆转录病毒序列、基因调控区,通常分布在端着丝粒和端粒区域,其大小、相对方向、各拷贝之间的距 离及同源程度,均将影响到 CNV 的形成[2] 。然而目前 CNV 的 确切机制仍不甚清楚,可能的机制主要包括非等位基因同源性 重组机制 (non-allelic homologous recombination, NAHR), 非同 源末端连接机制(non-homologous end joining, NHEJ )NAHR 机制一般发生在经常重组的区域,这些区域有如下 特征:(1)片段大小 >10kb,(2)序列同源程度 >97% , (3)序列方 向明确,(4) 每个 LCR 大小控制在 5Mb 以内,(5)LCR 在同一 染色体上[9];而 NHEJ 不需要重组断端之间的具有严格的 DNA 同源性,但是仍能够引发彼此毫不相干的 DNA 断端的连接,导 致包括移位(移位) 等在内的染色体之间的重排。不经常发生重 组的 LCR,或者各 LCR 区域大小不一致时,倾向于通过 NHEJ 机制引起基因拷贝数变化。尽管如此,很多遗传学家并不认可 NHEJ 机制
DNA拷贝数变异CNV检测——基础概念篇的更多相关文章
- 使用CNVnator分析动植物群体拷贝数变异CNV
目录 1.安装 2.测试 3.动植物群体检测CNV 知名的拷贝数变异分析工具几乎都是为人类变异检测开发,对于动植物重测序分析有些尴尬.不过好在植物群体研究不必那么精细,用同样的工具也可做分析. 地址: ...
- lua学习之基础概念篇
基础概念 程序块 (chunk) 定义 lua 中的每一个源代码文件或在交互模式(Cmd)中输入的一行代码都称之为程序块 一个程序块就是一连串语句或者命令 lua 中连续的语句不需要分隔符,但为了可读 ...
- (数据科学学习手札102)Python+Dash快速web应用开发——基础概念篇
本文示例代码与数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 这是我的新系列教程Python+Dash快 ...
- 函数响应式编程(FRP)—基础概念篇
原文出处:http://ios.jobbole.com/86815/. 一函数响应式编程 说到函数响应式编程,就不得不提到函数式编程,他们俩有什么关系呢?今天我们就详细的解析一下他们的关系. 现在下面 ...
- 【Kafka入门】Kafka入门第一篇:基础概念篇
Kafka简介 Kafka是一个消息系统服务框架,它以提交日志的形式存储消息,并且消息的存储是分布式的,为了提供并行性和容错保障,消息的存储是分区冗余形式存在的. Kafka的架构 Kafka中包含以 ...
- Win32多线程编程(1) — 基础概念篇
内核对象的基本概念 Windows系统是非开源的,它提供给我们的接口是用户模式的,即User-Mode API.当我们调用某个API时,需要从用户模式切换到内核模式的I/O System Serv ...
- (一)github之基础概念篇
1.github: 一项为开发者提供git仓库的托管服务, 开发者间共享代码的场所.github上公开的软件源代码全都由git进行管理. 2.git: 开发者将源代码存入名为git仓库的资料库中,而g ...
- haproxy小结(一)基础概念篇
HAProxy是法国人Willy Tarreau个人开发的一个开源软件,目标是应对客户端10000以上的同时连接,为后端应用服务器.数据库服务器提供高性能的负载均衡服务.HAproxy可以实现基于TC ...
- http协议之基础概念篇(1)
内容概述: 该篇主要内容概述 a.http相关术语解析 b.http的基本原理与工作流程 c.相关工具的使用(Wireshark) 作用介绍 绝大多数的web开发,都是构建在http协议之上的. HT ...
随机推荐
- 开发组件:tmpfs
[Linux]tmpfs简介及增加方式 https://blog.csdn.net/nextaction/article/details/57076924
- bootstrap3中select2的默认值和下拉框的禁用
最近做项目用到了select2插件,需求中需要给下拉框设置默认值之后,禁用下拉框,我开始的写法是这样的 <script type="text/javascript"> ...
- bootstrapValidator针对设置赋值进行验证
bootstrapValidator在提交的时候可以进行验证,但是对于点击输入框进行赋值的时候验证失效. 解决方法: 然后在设置change方法方可解决.
- chrome 常用插件下载安装
可在google的应用商店进行下载:chrome://apps/ 但大多时间无法链接. 国内插件下载地址: http://www.cnplugins.com http://chromecj.com/ ...
- 使用 C++11 编写类似 QT 的信号槽——下篇
要实现 Signal-Slot,Signal 类中应该拥有一个保存 std::function 的数组: template<class FuncType> class Signal { p ...
- centos7 jenkins 安装
前提: 安装了 jdk ,我的是jdk8 第一步: https://jenkins.io/download/ 下载 可以下载 rpm文件, 标红处, 也可以下载war包(Generic Java pa ...
- mydumper使用
一.下载安装,打开https://launchpad.net/mydumper #wget https://launchpadlibrarian.net/185032423/mydumper-0.6. ...
- 迷你MVVM框架 avalonjs 学习教程16、过滤器
avalon的过滤器是参考自angular与rivets.它也被称做管道文本过滤器,它的处理对象只能是文本(字符串),它只能用在文本绑定中,并且只能是双花括号形式.下面是各大家的过滤器比较: rive ...
- python 本地变量和全局变量 locals() globals() global nonlocal 闭包 以及和 scala 闭包的区别
最近看 scala ,看到了它的作用域,特此回顾一下python的变量作用域问题. A = 10 B = 100 print A #10 print globals() #{'A': 10, 'B': ...
- CTR点击率预估干货分享
CTR点击率预估干货分享 http://blog.csdn.net/bitcarmanlee/article/details/52138713