2020年10月张志武老师联合多家单位的大佬撰写的植物GS育种的最新进展,目前还只是预印版(改到第二版)。这篇综述涉及到GS在植物领域应用的最新进展,长达48页。不同于其他的综述描写空洞宽泛,这一篇特别对模型方法进行了介绍,正好解决了我的需求。缺点就是可能重点说明了他们自己开发的算法,其他模型算法介绍不够全面。这里仅记录要点,不当请指正。

强烈建议阅读原文,虽然很长,但没有太多废话,是比较好的入门材料。

Ideas in Genomic Selection with the Potential to Transform Plant Molecular Breeding: A Review

1. 简介

GS利用所有的基因组标记,不论是否有显著效应。

过去的GS综述主要描述了:

  • 实施步骤;
  • 训练-测试群的关系,标记属性;
  • 计算的挑战;
  • 物种及具体生产,包括植物、动物、饲草、乳业、小麦等。

本篇综述的主要内容:

  • 提高GS准确性的方法发展:gBLUP——Bayesian——GWAS+GS;
  • 影响选择反应的三个因素:杂交育种——多性状——长期选择的变异保留;
  • 准确性评估的陷阱及分子育种应用。

2. BLUP类模型

  • BLUP针对随机效应,BLUPE针对固定效应。
  • 一般而言,随机效应的水平数大于或等于观测(样本),为避免过拟合,混合线性模型MLM需要似然迭代(而非GLM模型中的最小二乘法),最大似然法在随机效应中可以有方差结构。
  • BLUP的发展:

*表型y,遗传效应u,残差e*

  • 作物很少由于性别差异而表现不同,而且植物育种依赖于在同胞中选择(无系谱信息),因此BLUP的方法在植物中不如家畜那样常用,直到覆盖全基因组的分子标记出现使之成为可能。

  • 基于标记的亲缘关系矩阵优于基于系谱的矩阵,因为它捕获的是真实的kinship(包含了非系谱的部分,如孟德尔随机抽样和偏分离的误差)。

  • VanRaden的G矩阵:



    W是中心化后的基因型矩阵,P是等位基因频率

  • 直接法(左)和间接法(右)比较:



    直接法估计u,间接法估计标记效应g之和Mg;当K=M’且标记效应g是独立的正态分布(如上公式)时,间接法和直接法估计的育种值是一样的,即u=Mg。

  • ssBLUP(H矩阵):



    权重w介于0-1之间,A22是系谱关系矩阵,ssBLUP比单独使用系谱的ABLUP准确性高

  • 把所有的标记设为随机效应,它们的和用来预测个体:当标记效应服从正态分布,均值为0,方差连续,模型变为岭回归;当方差假定为服从逆卡方分布的随机变量,模型变为贝叶斯方法。

  • rrBLUP和GBLUP预测相同。

  • TABLUP:亲缘关系矩阵中,不是所有的分子标记效应都相同,这些标记可根据具体性状的GWAS估计效应结果来赋予权重。

  • SUPER BLUP(sBLUP):沿用SUPER GWAS的思路(将标记降维为bin),TABLUP可进一步细化为少数基因控制的性状,这样kinship构建仅仅使用的是关联标记。

  • compressed BLUP(cBLUP):也是沿用的compressed GWAS思路,在kinship中考虑群体结构的影响,用group的遗传效应值来代替个体的值,用个体对应的组来进行预测。

  • 对于低遗传力的性状和有较大遗传结构的群体,cBLUP的结果优于gBLUP和sBLUP。

3. Bayesian类模型

  • n>>p的问题:如果分子标记都作为固定效应,在固定效应模型中易造成过拟合,因此将它们作为随机效应。
  • 假定分子标记效应服从正态分布,均值为0,方差分布如下:

  • 实际情况中,很少有全部标记效应都服从同一分布的情况(RRBLUP,限制最大)。除残差外,只有一个随机效应。Bayes方法则有更多的参数需要求解。
  • BayesA限制最小,即每个标记都有它自己的分布和不同的方差。
  • 贝叶斯方法计算的挑战原因是:大量的抽样需要达到收敛。
  • R包:BGLR,BayesR,MCMCglmm,LaplacesDemon,BMTME

4. 机器学习

亲缘关系矩阵kinship在工程领域定义为”核“,kernel。

K自乘产生新的核K2=K’K,这个过程不断迭代直到不再变化。

机器学习方法相对于传统统计方法的优势:

  • 能处理”大p小n“的问题;
  • 它是个黑箱,无需事先知道变量的分布或目标性状的遗传效应;
  • 考虑了多个体互作或者特征间的相关性;
  • 高准确性(允许重定义训练核验证集,交叉验证)。

学习算法的目标是为了减少偏差和方差。

Gadient Boosting Machine(GBM):梯度提升,弱学习算法。

随机森林模型和GBM都是基于决策树的集成方法。

非监督方法一般不直接应用于GS,只能提供特征。比如PCA。

深度学习不论监督和非监督都可用。convolutional neural networks(CNNs),recurrent neural networks(RNNs)。

不少研究已经比较了机器学习模型和统计模型的结果:整体而言,标准机器学习方法较传统统计模型优;单个方法中,GBM在复杂性状中表现突出,GBLUP在群体结构的群体中表现最好。

对于加性模型的中低遗传力性状,机器学习和一般统计模型结果是一致的。但在加性和上位性效应的结果中,机器学习方法更优。

一个较大的挑战:如何整合多点数据到预测模型中,特点是复杂遗传与环境及管理互作(GxExM)的数据。

5. GWAS辅助的GS

结合已验证和新发现的标记到模型可能会提升预测能力。

将GWAS显著位点考虑进GS:

  • 直接的好处:维持多世代的预测能力(打破了LD和随机突变);
  • 间接的好处:增加已验证突变的数量。

已验证位点加入GS模型的方法:

  • 将关联标记当作固定效应(下图d);
  • 将关联标记当作另一个随机效应(有它自己的kernel derived)(下图e);
  • 在传统GS模型的基因型亲缘关系矩阵中赋予标记的权重(下图c);
  • MultiBLUP方法,将染色体划为片段,每个片段构建的G矩阵分配为不同的随机效应(下图f)。

将显著关联信号纳入GS模型的固定效应(作为协变量),将会得到一个复杂的结果:如水稻中作为固定效应,准确性增加10%;小麦中增加3-14%;但其他报道增加较小,甚至减小。

同样地,将其作为随机效应的结果也很复杂。

因此,单纯地考虑将关联信号纳入模型不一定能提高准确性,具体表现应该和性状的遗传结构有关。

6. 杂交育种

低标记密度的GS杂交种应用可参考文献:

Zhao, Y., Mette, M. F., and Reif, J. C. 2015. Genomic selection in hybrid breeding. Plant Breeding. 134(1): 1–10. DOI: 10.1111/pbr.12231

本篇综述主要介绍高密度标记的GS在杂交种上的应用。

  • 杂交种,即F1代的GS预测,主要评价杂交种在产量相关性状的表现,必须考虑非加性效应(作物基因组中杂交位点急剧上升)。
  • 玉米的商业育种流程中,训练集:预测集=1:4,选择top10-20%。

影响杂交种预测的几个因素:

  • 训练群和预测群的遗传背景需要一致。可通过父母本基因型构建进化树来验证。如果不一致,会出现过拟合。表型仅在一个点调查也会导致过拟合。
  • 系谱关系kinship和双亲的杂交模式应该一致。否则F1的杂交表现也会表达不充分,相关性结果不好。
  • 考虑GxE。包括宏观环境和微观环境,宏观环境主要影响开花时间,由几个主效基因控制光周期基因(可建模),应在最佳生态区域筛选亲本;微观环境太复杂无法准确建模,因此要将多位点性状的表型变异考虑进BLUP算法。

杂种优势一般认为是显性和上位性效应(复杂等位基因/基因内/基因间互作)的结果。

为了准确预测杂交种,所有加性和非加性效应需要考虑进模型。

同时要注意杂种优势效应的组成也是随性状而变化的。不同性状的GS预测需要鉴定杂交QTL位点。

由于一般配合力GCA(加性效应的反映)和特殊配合力SCA(非加性效应的反映)可能来自不同遗传效应,所以预测杂交种F1正确的方法是分别考虑GCA和SCA。

GCA模型就是基于gBLUP,重点在亲缘关系矩阵构建。环境效应也能整合进gBLUP,作为固定效应的协变量。

SCA模型有两种方法:一是将杂优SNPs位点作为Panel整合进gBLUP模型中(作为固定效应);二是使用非线性模型,如Bayesian和机器学习。

杂优SNP Panel如何鉴定?可用GWAS挖掘,以MPH(mid-parent heterosis,即F1表型与双亲均值之差)作为性状表型,Panel一般视显著QTL的数目来定,一般根据性状3-5 SNPs。

7. 多性状

多性状的选择multi-trait genomic selection (MT-GS) 一般是因为性状间共有某种程度的遗传结构,在遗传上是相关的。

对低遗传力(伴随高遗传力性状相关)或者难以测量的性状,应用MT-GS。

MT-GS模型同样可基于gBLUP,替换kinship即可。

也可用贝叶斯方法,是一个典型的线性回归模型。可以扩展到多性状-多环境的贝叶斯模型,相关R包BMTME。

除了gBLUP和贝叶斯框架的线性回归,也可基于非线性的机器学习和深度学习,如MTDLMP模型。

8. 长期选择

如何平衡遗传增益和遗传多样性的矛盾关系?

  • 提高罕见的有利等位基因,即赋予群体中低频的优良等位基因更高的权重,避免丢失。
  • 基因组最佳贡献选择(GOCS)
  • 基于潜在后代的选择
  • 标记密度和预测模型
  • 育种群体的设计

9. 预测准确性评估

交叉验证仍是评价预测能力的最主要方法之一。两种方法:hold,instant。

系统偏差对结果有影响,如测试集选择,测试集和训练集关系,GWAS在划分交叉验证前的早期选择。正确的交叉验证实施步骤应该是:一开始就在整个群体中划分数据,然后GWAS只用训练群来做。下图是GWAS用全部数据和只用训练群数据的比较:



测试群体的表型只在最后计算准确性的时候用,在此之前都不应该用。

10. GS到植物育种

GS的提出其实植物(Bernardo 1994)比动物(Meuwissen,2001)更早。但因为分子标记的kinship在动物遗传评估系统中容易实施,导致gBLUP、ssBLUP等方法在动物中广泛应用。直到高通量数据(基因型和表型)的成本下降,植物的GS才开始有了突破。

40多篇关于谷物的GS文章发表,非谷物的有7篇蔬菜,5篇克隆繁殖作物和13篇林木。这些文章基本达成共识:最好的GS模型视性状的遗传结构而定。

GS相比表型选择,更便宜(实在话现在还是太贵了),利用基因型优势能预测多性状。

GS的植物育种不再是一个能力问题,而是如何实施的问题。

11. 未来展望

一条龙:Genomics-Phenomics- Agronomics (GPA) paradigm

表型组发展:代谢组学,高光谱成像,微型根管成像。

GPA范例表现在五个方面:

  • 从亲本表现预测子代潜力;
  • 将预测范围扩展到加性效应,包括显性,上位性和遗传-环境相互作用效应;
  • 传统农艺性状和高通量表型之间多效性的利用;
  • 通过GWAS更深入地了解农艺性状的遗传结构,并将这些结构集成到GS模型中;
  • 新兴大数据和机器学习方法(尤其是基于人工神经网络的深度学习)在高通量、高维度

    数据的优势。

【GS文献】基因组选择在植物分子育种应用的最新综述(2020)的更多相关文章

  1. 【GS文献】测序时代植物复杂性状育种之基因组选择

    综述:Genomic Selection in the Era of Next Generation Sequencing for Complex Traits in Plant Breeding 要 ...

  2. 【GS文献】植物育种中基因组选择的方法、模型及展望

    目录 1. GS/GP在植物育种中的角色 2. GP模型应用 3. GP模型的准确性 4. 植物育种的GS展望 5. 小结 Genomic SelectioninPlant Breeding: Met ...

  3. 【GS文献】植物全基因组选择育种技术原理与研究进展

    目录 1. 优势杂交育种预测 2. GS育种原理与模型算法 岭回归和LASSO回归 贝叶斯方法 GBLUP和RRBLUP 偏最小二乘法 支持向量机/支持向量回归 其他方法 3. 模型预测能力验证 4. ...

  4. 【GS文献】从家畜到植物,通过基因组选择提高遗传增益

    目录 说明 1.前言 2.植物GS瓶颈 3.提高GS预测的准确性 4.GS与现代育种技术结合 5.GS开源育种网络 说明 Enhancing Genetic Gain through Genomic ...

  5. 【GS文献】基因组选择技术在农业动物育种中的应用

    中国农业大学等多家单位2017年合作发表在<遗传>杂志上的综述,笔记之. 作者中还有李宁院士,不胜唏嘘. 1.概述 GS的两大难题:基因组分型的成本,基因组育种值(genomic esti ...

  6. 【GS文献】全基因组选择模型研究进展及展望

    目录 1. GS概况 2. GS模型 1)直接法 GBLUP 直接法的模型改进 ①单随机效应 ②多随机效应 2)间接法 间接法模型 基于间接法的模型改进 3. GS模型比较 模型比较结论 4.问题及展 ...

  7. 【GS基础】植物基因组选择研究人员及数量遗传学发展一览

    目录 1.GS研究 2.数量遗传发展 GS应用主要在国外大型动物和种企,国内仍以学术为主.近期整理相关学术文献,了解到一些相关研究人员,记录下备忘查询,但不可能全面. 1.GS研究 Theo Meuw ...

  8. 全基因组选择育种(GS)简介

    全基因组选择(Genomic selection, GS)是一种利用覆盖全基因组的高密度标记进行选择育种的新方法,可通过早期选择缩短世代间隔,提高育种值(Genomic Estimated Breed ...

  9. 【百奥云GS专栏】全基因组选择之模型篇

    目录 1. 前言 2. BLUP方法 ABLUP GBLUP ssGBLUP RRBLUP 3. 贝叶斯方法 BayesA BayesB BayesC/Cπ/Dπ Bayesian Lasso 4. ...

随机推荐

  1. spring social实现百度登录

    在早期我写过一篇spring social理解的文章,介绍了一些spring social的概念,但是没有提供一个例子.在这篇博客中,提供一个简单的spring social的例子,实现 百度登录,那 ...

  2. 微信小程序的实现原理

    一.背景 网页开发,渲染线程和脚本是互斥的,这也是为什么长时间的脚本运行可能会导致页面失去响应的原因,本质就是我们常说的 JS 是单线程的 而在小程序中,选择了 Hybrid 的渲染方式,将视图层和逻 ...

  3. Noip模拟67 2021.10.3

    还是困,不过已经可以用脑子思考问题了 T1 数据恢复 没啥明确的算法,可以说是贪心? 考虑部分分, 链的直接扫, 对于菊花的发现只要根节点在第一个,剩下的点位置不重要 那么按照$a/b$排序,扫一遍就 ...

  4. Qt学习-模仿Qt实现一个colorbutton

    1.mycolorbutton.h #include<QToolButton> #include<QtGlobal> #include<QColor> class ...

  5. 深入理解和运用Pandas的GroupBy机制——理解篇

    GroupBy是Pandas提供的强大的数据聚合处理机制,可以对大量级的多维数据进行透视,同时GroupBy还提供强大的apply函数,使得在多维数据中应用复杂函数得到复杂结果成为可能(这也是个人认为 ...

  6. 【Docker】Maven打包SpringBoot项目成Docker镜像并上传到Harbor仓库(Eclipse、STS、IDEA、Maven通用)

    写在前面 最近,在研究如何使用Maven将SpringBoot项目打包成Docker镜像并发布到Harbor仓库,网上翻阅了很多博客和资料,发现大部分都是在复制粘贴别人的东西,没有经过实践的检验,根本 ...

  7. 二,zabbix与php的一些问题

    zabbix 检查先决条件 一.php-bcmath 不支持 php 安装 bcmath 扩展(编译安装) PHP的linux版本需要手动安装BCMath扩展,在PHP的源码包中默认包含BCMath的 ...

  8. Arthas在线java进程诊断工具 在线调试神器

    tag: java 诊断 堆栈 在线调试 耗时 死锁 arthas 阿里巴巴 Arthas (阿尔萨斯) Arthas 是 Alibaba 开源的Java诊断工具,深受开发者喜爱. 官网文档:http ...

  9. [第三章]c++学习笔记2(静态成员变量)

    静态成员:在说明前加了static关键字的对象 使用例: 基本概念 普通成员变量每个对象有各自的一份,而静态成员变量总共只有一份,为所有对象共享. 普通成员函数必须具体作用与某个对象,而静态成员函数并 ...

  10. ELK 7.4.2 单机安装配置

    Java环境准备 JDK下载 https://www.oracle.com/technetwork/java/javase/overview/index.html [root@manager ~]# ...