什么是基因组选择?

基因组选择(Genomic Selection,简称GS)这一概念由挪威生命科学大学的Theo Meuwissen 教授于2001年提出。它是一种利用覆盖全基因组的高密度分子标记进行选择育种的新方法,可通过构建预测模型,根据基因组估计育种值(Genomic Estimated Breeding Value, GEBV)进行早期个体的预测和选择,从而缩短世代间隔,加快育种进程,节约大量成本。

这一方法尤其对低遗传力以及难以测量的复杂性状具有良好的预测效果,真正实现了通过基因组技术来指导育种实践。该技术目前主要侧重于早期预测,因此又称为基因组预测(Genomic Prediction,简称GP)。

基因组选择技术的发展

众所周知,生物的表现型由基因和环境共同决定。早期的育种过程几乎完全基于表型选择(Phenotype Selection,PS),即通过比较个体表型值,进行优中选优。或者结合系谱信息,利用最佳线性无偏预测 (Best Linear Unbiased Prediction,BLUP)等统计学方法进行个体育种值比较来选择(动物中更常用)。这类方法不能进行早期的遗传评估,且当性状表型难以获取或遗传力较低时,准确性不高。

随着分子标记技术的发展,分子标记辅助选择(Marker-assisted Selection, MAS)成为最常用的育种技术之一。该技术利用了表型和部分基因的信息来进行遗传评估,但分子标记数目有限,且只能利用与显著效应的基因或主效数量性状位点(Quantitativetraitlocus, QTL)紧密连锁的标记来进行个体的辅助选择,对于众多微效基因控制的复杂性状则显得无能为力。

高通量测序技术的发展显著降低了分子标记的成本,覆盖全基因组的高密度分子标记使得复杂性状的辅助选择成为可能,基因组选择技术也因此得到迅速发展。相对于PS和MAS,GS可以捕获所有的遗传变异,且无需表型信息即可进行遗传评估,极大地缩短了世代间隔和育种成本(图1)。

从2001年Meuwissen首次提出基因组选择,到2006年Schafferr指出GS在奶牛育种中的巨大应用价值,GS已经成为家畜育种中最热门的研究领域。从2009年开始,奶牛的选育已经几乎完全由GS主导,猪、绵羊、肉牛、鸡等家畜育种也陆续应用GS技术。在植物育种领域,小麦、玉米、水稻等主粮作物,苜蓿、鹰嘴豆等经济作物和林木育种也相继开始应用。

基因组选择的原理和流程

GS利用覆盖全基因组的高密度SNP标记,结合表型记录或系谱记录对个体育种值进行估计,其假定这些标记中至少有一个标记与所有控制性状的QTL处于连锁不平衡(linkage disequilibrium, LD)状态,这样使得每个QTL的效应都可以通过SNP得到反映,将所有标记效应值累加,获得基因组估计育种值。

GS流程包含两个群体,一个是训练群体(又称参考群体),需要同时具有表型和基因型信息,估计标记效应值来构建参考模型;另一个是预测群体(又称候选群体或育种群体),只需要基因型信息,通过构建的参考模型得到估计育种值,从而达到预测表型,进行个体选择的目的(图2)。

与常规的玉米双单倍体(Doubled Haploid,DH)育种相比,GS育种减少了大量无效的测验,成本可减少50%以上,多点试验周期也能大大缩短。下图3展示了一年两季玉米育种的两种方法的流程比较:

基因组选择的模型

统计模型是GS的核心,能极大地影响基因组预测的准确度和效率。根据统计模型的不同,GS模型大体可分为直接法和间接法两大类。

直接法是以个体作为随机效应,参考群体和预测群体遗传信息构建的亲缘关系矩阵作为方差协方差矩阵,通过迭代法估计方差组分,进而求解混合线性模型,获取待预测个体的估计育种值。根据不同信息构建的亲缘关系矩阵可建立不同的模型,比如以传统系谱矩阵构建的ABLUP模型,以基因型矩阵构建的GBLUP模型,以系谱和基因型结合矩阵构建的ssBLUP模型(single-step BLUP,即一步法BLUP),基于GBLUP压缩个体构建的cBLUP模型以及基于GBLUP区段化标记构建的sBLUP等模型。

间接法则首先在训练群体中估计标记效应,然后结合预测群体的基因型信息将标记效应进行累加,最后获得预测群体的个体估计育种值。间接法以rrBLUP为代表,其假设所有标记效应符合一个正态分布,同时标记效应的方差是一致的,这可能与基因的实际效应值不相符,因而引入贝叶斯的分析方法。根据预先假定基因的数量和基因效应值分布的不同,可以建立不同的贝叶斯模型,如BayesA、BayesB、BayesC、BayesCπ、Bayes LASSO等,其差别主要在于:是否所有标记都有效应值,标记效应是否符合相同分布以及标记效应方差服从何种分布。

直接法以个体为单位,计算效率较高,但是计算准确性略差于间接法;间接法以标记为单位,计算量庞大,且无法实现并行运算,对于讲究时效性的育种而言是个比较大的挑战。

此外,经典机器学习及深度学习方法,如随机森林模型、卷积神经网络等也逐步开始应用于育种实践。

基因组选择的展望

GS的预测能力受到诸多因素的影响,比如群体类型和大小、标记类型和密度、统计模型、性状遗传力、参考群和候选群的遗传关系等等。如何巧妙地通过育种方案设计来平衡或者消除这些因素的影响,达到育种目标仍是一个比较大的挑战。

理论上而言,群体和标记数目越多,GS预测的准确性就越高。但我们需要同时兼顾效率和成本的问题。当群体和标记数目足够大,预测精度会趋近饱和,不会再随数目的增加而大幅提升。标记密度与物种、群体类型和大小有关,比如异花作物所需标记密度一般高于自花作物,自然群体一般要高于双亲群体。因此根据不同的育种要求,应建立相应的模型。

在GS模型方面,还有许多值得探索的地方。比如GS模型目前主要考虑的是加性效应,对于显性效应、互作效应及环境效应等影响未纳入到育种值估计模型中;GS主要用到的是基因组信息,大量的多组学研究结果,如转录组、代谢组等数据利用得不够充分;GS模型现在主要针对的是单一性状的预测,对应多个性状之间的影响未纳入模型。因此,未来对多效应、多组学和多性状等模型的建立以及机器学习算法的优化可能会大大改善GS的预测能力。

表型的准确性和成本也是影响GS应用的重要因素。高通量表型平台(High-Throughput Phenotyping,HTP)可以减少表型调查的成本,同时结合早期测试的基因组和系谱信息,共同用于统计模型,提升准确性。

相比于传统BLUP的稀疏矩阵,利用基因组信息计算的稠密矩阵对混合模型参数估计及模型求解也是一个比较困难的问题,可以通过数学方法或者高性能计算机来简化计算复杂度。相对芯片而言,测序可减少对LD的依赖,得到更丰富的遗传信息,对于亲缘关系较近的群体可通过填充将芯片个体的标记密度填充到测序水平。测序技术的应用将成为全基因组选择新时代的转折点。

总言之,全基因组选择的育种应用虽然仍有一些瓶颈,但它必然是智能育种时代非常重要的一项技术,也是未来育种一个重要的方向,它将极大影响未来育种的方式和进程。

小编今天只是简单地给大家介绍了全基因组选择的一些基因概念和应用,后续会持续推送关于GS方面更详细的内容哦,敬请关注。

【百奥云资料室】栏目简介

随着高通量和自动化技术的应用,动植物育种上都产生和积累了大量的数据。以人工智能(Artificial Intelligence) 、大数据(Big Data)和云计算(Cloud Computing)为核心的`ABC技术将成为育种4.0时代不可或缺的能力。为帮助广大科研人员学习和了解育种数据的分析原理,我们将推出【百奥云资料室】栏目,由小百老师介绍育种上前沿或常用的技术及相关细节,敬请关注!

参考资料

Meuwissen T. H. E. et al., Prediction of total genetic value using genome-wide dense marker maps. Genetics. 2001: 157 1819–1829.

M E Goddard, B J Hayes. Genomic selection. J Anim Breed Genet. 2007 Dec;124(6):323-30.

Javaid A. Bhat et al., Genomic Selection in the Era of Next Generation Sequencing for Complex Traits in Plant Breeding.Front Genet. 2016; 7: 221.

José Crossa et al., Genomic Selection in Plant Breeding: Methods, Models, and Perspectives. Trends in Plant Science.2017.

McGowan, M. et al., Ideas in Genomic Selection that Transformed Plant Molecular Breeding: A Review. Preprints 2020, 2020100460.

Yunbi Xu et al., Enhancing Genetic Gain through Genomic Selection: From Livestock to Plants. Plant Communications.2020.

尹立林, 马云龙, 项韬, 朱猛进, 余梅, 李新云, 刘小磊, 赵书红. 全基因组选择模型研究进展及展望. 畜牧兽医学报, 2019, 50(2): 233-242.

【百奥云GS专栏】1-全基因组选择介绍的更多相关文章

  1. 【百奥云GS专栏】全基因组选择之模型篇

    目录 1. 前言 2. BLUP方法 ABLUP GBLUP ssGBLUP RRBLUP 3. 贝叶斯方法 BayesA BayesB BayesC/Cπ/Dπ Bayesian Lasso 4. ...

  2. 【百奥云GS专栏】全基因组选择之工具篇

    目录 1. 免费开源包/库 1.1 R包 1.2 Python库 2. 成熟软件 3. WEB/GUI工具 前面我们已经介绍了基因组选择的各类模型,今天主要来了解一下做GS有哪些可用的软件和工具.基因 ...

  3. 【GS文献】全基因组选择模型研究进展及展望

    目录 1. GS概况 2. GS模型 1)直接法 GBLUP 直接法的模型改进 ①单随机效应 ②多随机效应 2)间接法 间接法模型 基于间接法的模型改进 3. GS模型比较 模型比较结论 4.问题及展 ...

  4. 【GS模型】全基因组选择之rrBLUP

    目录 1. 理论 2. 实操 2.1 rrBLUP包简介 2.2 实操 3. 补充说明 关于模型 关于交叉验证 参考资料 1. 理论 rrBLUP是基因组选择最常用的模型之一,也是间接法模型的代表.回 ...

  5. 【GS文献】植物全基因组选择育种技术原理与研究进展

    目录 1. 优势杂交育种预测 2. GS育种原理与模型算法 岭回归和LASSO回归 贝叶斯方法 GBLUP和RRBLUP 偏最小二乘法 支持向量机/支持向量回归 其他方法 3. 模型预测能力验证 4. ...

  6. 全基因组选择育种(GS)简介

    全基因组选择(Genomic selection, GS)是一种利用覆盖全基因组的高密度标记进行选择育种的新方法,可通过早期选择缩短世代间隔,提高育种值(Genomic Estimated Breed ...

  7. 【GS基础】植物基因组选择研究人员及数量遗传学发展一览

    目录 1.GS研究 2.数量遗传发展 GS应用主要在国外大型动物和种企,国内仍以学术为主.近期整理相关学术文献,了解到一些相关研究人员,记录下备忘查询,但不可能全面. 1.GS研究 Theo Meuw ...

  8. 【GS文献】基因组选择技术在农业动物育种中的应用

    中国农业大学等多家单位2017年合作发表在<遗传>杂志上的综述,笔记之. 作者中还有李宁院士,不胜唏嘘. 1.概述 GS的两大难题:基因组分型的成本,基因组育种值(genomic esti ...

  9. 【GS文献】植物育种中基因组选择的方法、模型及展望

    目录 1. GS/GP在植物育种中的角色 2. GP模型应用 3. GP模型的准确性 4. 植物育种的GS展望 5. 小结 Genomic SelectioninPlant Breeding: Met ...

随机推荐

  1. 剑指offer:JZ12 矩阵中的路径

    JZ12 矩阵中的路径 描述 请设计一个函数,用来判断在一个n乘m的矩阵中是否存在一条包含某长度为len的字符串所有字符的路径.路径可以从矩阵中的任意一个格子开始,每一步可以在矩阵中向左,向右,向上, ...

  2. Go语言核心36讲(Go语言进阶技术七)--学习笔记

    13 | 结构体及其方法的使用法门 我们都知道,结构体类型表示的是实实在在的数据结构.一个结构体类型可以包含若干个字段,每个字段通常都需要有确切的名字和类型. 前导内容:结构体类型基础知识 当然了,结 ...

  3. try-catch-finally面试题

    try catch finally 执行顺序面试题总结 执行顺序 今天牛客网遇到这个题目,做对了,但是下面的评论却很值得看看 public class TestTry { public int add ...

  4. 人人都写过的5个Bug!

    大家好,我是良许. 计算机专业的小伙伴,在学校期间一定学过 C 语言.它是众多高级语言的鼻祖,深入学习这门语言会对计算机原理.操作系统.内存管理等等底层相关的知识会有更深入的了解,所以我在直播的时候, ...

  5. Noip模拟16 2021.7.15

    题目真是越来越变态了 T1 Star Way To Heaven 首先,你要看出这是一个最小生成树的题(妙吧?) 为什么可以呢? 我们发现从两点连线的中点过是最优的,但是上下边界怎么办呢? 我们把上下 ...

  6. Spring MVC:DispatchServlet类

    Spring MVC架构 Spring Web MVC是基于Servlet API构建的原始Web框架,从一开始就已包含在Spring框架中.传统的模型层被拆分为了业务层(Service)和数据访问层 ...

  7. 对SQLServer错误使用聚集索引的优化案例(千万级数据量)

    前言: 半个月前发了文章 SQLServer聚集索引导致的插入性能低 终于等到生产环境休整半天,这篇文章是对前文的实际操作. 以下正文开始: 异常:近期发现偶尔有新数据插入超时. 分析:插入条码有多种 ...

  8. 集合栈 牛客网 程序员面试金典 C++ Python

    集合栈 牛客网 程序员面试金典 C++ Python 题目描述 请实现一种数据结构SetOfStacks,由多个栈组成,其中每个栈的大小为size,当前一个栈填满时,新建一个栈.该数据结构应支持与普通 ...

  9. poj 3537 Crosses and Crosses (SG)

    题意: 1 × n 个格子,每人每次选一个格子打上叉(不得重复),如果一个人画完叉后出现了连续的三个叉,则此人胜. 给n,判断先手胜还是先手败. 思路: 假设选择画叉的位置是i,则对方只能在前[1,i ...

  10. CANN5.0黑科技解密 | 别眨眼!缩小隧道,让你的AI模型“身轻如燕”!

    摘要:CANN作为释放昇腾硬件算力的关键平台,通过深耕先进的模型压缩技术,聚力打造AMCT模型压缩工具,在保证模型精度前提下,不遗余力地降低模型的存储空间和计算量. 随着深度学习的发展,推理模型巨大的 ...