1. 简介
2. BLUP类模型
3. Bayesian类模型
4. 机器学习
5. GWAS辅助的GS
6. 杂交育种
7. 多性状
8. 长期选择
9. 预测准确性评估
10. GS到植物育种
11. 未来展望

2020年10月张志武老师联合多家单位的大佬撰写的植物GS育种的最新进展，目前还只是预印版（改到第二版）。这篇综述涉及到GS在植物领域应用的最新进展，长达48页。不同于其他的综述描写空洞宽泛，这一篇特别对模型方法进行了介绍，正好解决了我的需求。缺点就是可能重点说明了他们自己开发的算法，其他模型算法介绍不够全面。这里仅记录要点，不当请指正。

强烈建议阅读原文，虽然很长，但没有太多废话，是比较好的入门材料。

Ideas in Genomic Selection with the Potential to Transform Plant Molecular Breeding: A Review

1. 简介

GS利用所有的基因组标记，不论是否有显著效应。

过去的GS综述主要描述了：

实施步骤；
训练-测试群的关系，标记属性；
计算的挑战；
物种及具体生产，包括植物、动物、饲草、乳业、小麦等。

本篇综述的主要内容：

提高GS准确性的方法发展：gBLUP——Bayesian——GWAS+GS；
影响选择反应的三个因素：杂交育种——多性状——长期选择的变异保留；
准确性评估的陷阱及分子育种应用。

2. BLUP类模型

BLUP针对随机效应，BLUPE针对固定效应。
一般而言，随机效应的水平数大于或等于观测（样本），为避免过拟合，混合线性模型MLM需要似然迭代（而非GLM模型中的最小二乘法），最大似然法在随机效应中可以有方差结构。
BLUP的发展：

*表型y，遗传效应u，残差e*

作物很少由于性别差异而表现不同，而且植物育种依赖于在同胞中选择（无系谱信息），因此BLUP的方法在植物中不如家畜那样常用，直到覆盖全基因组的分子标记出现使之成为可能。
基于标记的亲缘关系矩阵优于基于系谱的矩阵，因为它捕获的是真实的kinship（包含了非系谱的部分，如孟德尔随机抽样和偏分离的误差）。
VanRaden的G矩阵：

W是中心化后的基因型矩阵，P是等位基因频率
直接法（左）和间接法（右）比较：

直接法估计u，间接法估计标记效应g之和Mg；当K=M’且标记效应g是独立的正态分布（如上公式）时，间接法和直接法估计的育种值是一样的，即u=Mg。、
ssBLUP（H矩阵）：

权重w介于0-1之间，A₂₂是系谱关系矩阵，ssBLUP比单独使用系谱的ABLUP准确性高
把所有的标记设为随机效应，它们的和用来预测个体：当标记效应服从正态分布，均值为0，方差连续，模型变为岭回归；当方差假定为服从逆卡方分布的随机变量，模型变为贝叶斯方法。
rrBLUP和GBLUP预测相同。
TABLUP：亲缘关系矩阵中，不是所有的分子标记效应都相同，这些标记可根据具体性状的GWAS估计效应结果来赋予权重。
SUPER BLUP（sBLUP）：沿用SUPER GWAS的思路（将标记降维为bin），TABLUP可进一步细化为少数基因控制的性状，这样kinship构建仅仅使用的是关联标记。
compressed BLUP（cBLUP）：也是沿用的compressed GWAS思路，在kinship中考虑群体结构的影响，用group的遗传效应值来代替个体的值，用个体对应的组来进行预测。
对于低遗传力的性状和有较大遗传结构的群体，cBLUP的结果优于gBLUP和sBLUP。

3. Bayesian类模型

n>>p的问题：如果分子标记都作为固定效应，在固定效应模型中易造成过拟合，因此将它们作为随机效应。
假定分子标记效应服从正态分布，均值为0，方差分布如下：
实际情况中，很少有全部标记效应都服从同一分布的情况（RRBLUP，限制最大）。除残差外，只有一个随机效应。Bayes方法则有更多的参数需要求解。
BayesA限制最小，即每个标记都有它自己的分布和不同的方差。
贝叶斯方法计算的挑战原因是：大量的抽样需要达到收敛。
R包：BGLR，BayesR，MCMCglmm，LaplacesDemon，BMTME

4. 机器学习

亲缘关系矩阵kinship在工程领域定义为”核“，kernel。

K自乘产生新的核K²=K’K，这个过程不断迭代直到不再变化。

机器学习方法相对于传统统计方法的优势：

能处理”大p小n“的问题；
它是个黑箱，无需事先知道变量的分布或目标性状的遗传效应；
考虑了多个体互作或者特征间的相关性；
高准确性（允许重定义训练核验证集，交叉验证）。

学习算法的目标是为了减少偏差和方差。

Gadient Boosting Machine（GBM）：梯度提升，弱学习算法。

随机森林模型和GBM都是基于决策树的集成方法。

非监督方法一般不直接应用于GS，只能提供特征。比如PCA。

深度学习不论监督和非监督都可用。convolutional neural networks(CNNs)，recurrent neural networks(RNNs)。

不少研究已经比较了机器学习模型和统计模型的结果：整体而言，标准机器学习方法较传统统计模型优；单个方法中，GBM在复杂性状中表现突出，GBLUP在群体结构的群体中表现最好。

对于加性模型的中低遗传力性状，机器学习和一般统计模型结果是一致的。但在加性和上位性效应的结果中，机器学习方法更优。

一个较大的挑战：如何整合多点数据到预测模型中，特点是复杂遗传与环境及管理互作（GxExM）的数据。

5. GWAS辅助的GS

结合已验证和新发现的标记到模型可能会提升预测能力。

将GWAS显著位点考虑进GS：

直接的好处：维持多世代的预测能力（打破了LD和随机突变）；
间接的好处：增加已验证突变的数量。

已验证位点加入GS模型的方法：

将关联标记当作固定效应（下图d）；
将关联标记当作另一个随机效应（有它自己的kernel derived）（下图e）；
在传统GS模型的基因型亲缘关系矩阵中赋予标记的权重（下图c）；
MultiBLUP方法，将染色体划为片段，每个片段构建的G矩阵分配为不同的随机效应（下图f）。

将显著关联信号纳入GS模型的固定效应（作为协变量），将会得到一个复杂的结果：如水稻中作为固定效应，准确性增加10%；小麦中增加3-14%；但其他报道增加较小，甚至减小。

同样地，将其作为随机效应的结果也很复杂。

因此，单纯地考虑将关联信号纳入模型不一定能提高准确性，具体表现应该和性状的遗传结构有关。

6. 杂交育种

低标记密度的GS杂交种应用可参考文献：

Zhao, Y., Mette, M. F., and Reif, J. C. 2015. Genomic selection in hybrid breeding. Plant Breeding. 134(1): 1–10. DOI: 10.1111/pbr.12231

本篇综述主要介绍高密度标记的GS在杂交种上的应用。

杂交种，即F1代的GS预测，主要评价杂交种在产量相关性状的表现，必须考虑非加性效应（作物基因组中杂交位点急剧上升）。
玉米的商业育种流程中，训练集：预测集=1：4，选择top10-20%。

影响杂交种预测的几个因素：

训练群和预测群的遗传背景需要一致。可通过父母本基因型构建进化树来验证。如果不一致，会出现过拟合。表型仅在一个点调查也会导致过拟合。
系谱关系kinship和双亲的杂交模式应该一致。否则F1的杂交表现也会表达不充分，相关性结果不好。
考虑GxE。包括宏观环境和微观环境，宏观环境主要影响开花时间，由几个主效基因控制光周期基因（可建模），应在最佳生态区域筛选亲本；微观环境太复杂无法准确建模，因此要将多位点性状的表型变异考虑进BLUP算法。

杂种优势一般认为是显性和上位性效应（复杂等位基因/基因内/基因间互作）的结果。

为了准确预测杂交种，所有加性和非加性效应需要考虑进模型。

同时要注意杂种优势效应的组成也是随性状而变化的。不同性状的GS预测需要鉴定杂交QTL位点。

由于一般配合力GCA（加性效应的反映）和特殊配合力SCA（非加性效应的反映）可能来自不同遗传效应，所以预测杂交种F1正确的方法是分别考虑GCA和SCA。

GCA模型就是基于gBLUP，重点在亲缘关系矩阵构建。环境效应也能整合进gBLUP，作为固定效应的协变量。

SCA模型有两种方法：一是将杂优SNPs位点作为Panel整合进gBLUP模型中（作为固定效应）；二是使用非线性模型，如Bayesian和机器学习。

杂优SNP Panel如何鉴定？可用GWAS挖掘，以MPH（mid-parent heterosis，即F1表型与双亲均值之差）作为性状表型，Panel一般视显著QTL的数目来定，一般根据性状3-5 SNPs。

7. 多性状

多性状的选择multi-trait genomic selection (MT-GS) 一般是因为性状间共有某种程度的遗传结构，在遗传上是相关的。

对低遗传力（伴随高遗传力性状相关）或者难以测量的性状，应用MT-GS。

MT-GS模型同样可基于gBLUP，替换kinship即可。

也可用贝叶斯方法，是一个典型的线性回归模型。可以扩展到多性状-多环境的贝叶斯模型，相关R包BMTME。

除了gBLUP和贝叶斯框架的线性回归，也可基于非线性的机器学习和深度学习，如MTDLMP模型。

8. 长期选择

如何平衡遗传增益和遗传多样性的矛盾关系？

提高罕见的有利等位基因，即赋予群体中低频的优良等位基因更高的权重，避免丢失。
基因组最佳贡献选择(GOCS)
基于潜在后代的选择
标记密度和预测模型
育种群体的设计

9. 预测准确性评估

交叉验证仍是评价预测能力的最主要方法之一。两种方法：hold，instant。

系统偏差对结果有影响，如测试集选择，测试集和训练集关系，GWAS在划分交叉验证前的早期选择。正确的交叉验证实施步骤应该是：一开始就在整个群体中划分数据，然后GWAS只用训练群来做。下图是GWAS用全部数据和只用训练群数据的比较：

测试群体的表型只在最后计算准确性的时候用，在此之前都不应该用。

10. GS到植物育种

GS的提出其实植物（Bernardo 1994）比动物（Meuwissen，2001）更早。但因为分子标记的kinship在动物遗传评估系统中容易实施，导致gBLUP、ssBLUP等方法在动物中广泛应用。直到高通量数据（基因型和表型）的成本下降，植物的GS才开始有了突破。

40多篇关于谷物的GS文章发表，非谷物的有7篇蔬菜，5篇克隆繁殖作物和13篇林木。这些文章基本达成共识：最好的GS模型视性状的遗传结构而定。

GS相比表型选择，更便宜（实在话现在还是太贵了），利用基因型优势能预测多性状。

GS的植物育种不再是一个能力问题，而是如何实施的问题。

11. 未来展望

一条龙：Genomics-Phenomics- Agronomics (GPA) paradigm

表型组发展：代谢组学，高光谱成像，微型根管成像。

GPA范例表现在五个方面：

从亲本表现预测子代潜力；
将预测范围扩展到加性效应，包括显性，上位性和遗传-环境相互作用效应；
传统农艺性状和高通量表型之间多效性的利用；
通过GWAS更深入地了解农艺性状的遗传结构，并将这些结构集成到GS模型中；
新兴大数据和机器学习方法（尤其是基于人工神经网络的深度学习）在高通量、高维度

数据的优势。

【GS文献】基因组选择在植物分子育种应用的最新综述（2020）的更多相关文章

【GS文献】测序时代植物复杂性状育种之基因组选择
综述:Genomic Selection in the Era of Next Generation Sequencing for Complex Traits in Plant Breeding 要 ...
【GS文献】植物育种中基因组选择的方法、模型及展望
目录 1. GS/GP在植物育种中的角色 2. GP模型应用 3. GP模型的准确性 4. 植物育种的GS展望 5. 小结 Genomic SelectioninPlant Breeding: Met ...
【GS文献】植物全基因组选择育种技术原理与研究进展
目录 1. 优势杂交育种预测 2. GS育种原理与模型算法岭回归和LASSO回归贝叶斯方法 GBLUP和RRBLUP 偏最小二乘法支持向量机/支持向量回归其他方法 3. 模型预测能力验证 4. ...
【GS文献】从家畜到植物，通过基因组选择提高遗传增益
目录说明 1.前言 2.植物GS瓶颈 3.提高GS预测的准确性 4.GS与现代育种技术结合 5.GS开源育种网络说明 Enhancing Genetic Gain through Genomic ...
【GS文献】基因组选择技术在农业动物育种中的应用
中国农业大学等多家单位2017年合作发表在<遗传>杂志上的综述,笔记之. 作者中还有李宁院士,不胜唏嘘. 1.概述 GS的两大难题:基因组分型的成本,基因组育种值(genomic esti ...
【GS文献】全基因组选择模型研究进展及展望
目录 1. GS概况 2. GS模型 1)直接法 GBLUP 直接法的模型改进 ①单随机效应 ②多随机效应 2)间接法间接法模型基于间接法的模型改进 3. GS模型比较模型比较结论 4.问题及展 ...
【GS基础】植物基因组选择研究人员及数量遗传学发展一览
目录 1.GS研究 2.数量遗传发展 GS应用主要在国外大型动物和种企,国内仍以学术为主.近期整理相关学术文献,了解到一些相关研究人员,记录下备忘查询,但不可能全面. 1.GS研究 Theo Meuw ...
全基因组选择育种（GS）简介
全基因组选择(Genomic selection, GS)是一种利用覆盖全基因组的高密度标记进行选择育种的新方法,可通过早期选择缩短世代间隔,提高育种值(Genomic Estimated Breed ...
【百奥云GS专栏】全基因组选择之模型篇
目录 1. 前言 2. BLUP方法 ABLUP GBLUP ssGBLUP RRBLUP 3. 贝叶斯方法 BayesA BayesB BayesC/Cπ/Dπ Bayesian Lasso 4. ...

随机推荐

面试题 08.12. N皇后
题目设计一种算法,打印 N 皇后在 N × N 棋盘上的各种摆法,其中每个皇后都不同行.不同列,也不在对角线上.这里的"对角线"指的是所有的对角线,不只是平分整个棋盘的那两条对角 ...
[no code][scrum meeting] Alpha 5
项目内容会议时间 2020-04-10 会议主题后端技术讨论会议时长 30min 参会人员全体成员 $( "#cnblogs_post_body" ).catalog() ...
洛谷 P4867 Gty的二逼妹子序列
链接: P4867 题意: 给出长度为 $n(1\leq n\leq 10^5)$ 的序列 $s$,保证$1\leq s_i\leq n$.有 \(m(1\leq m\leq 10^6)\ ...
Celery Task（定时任务）及参数
celery beat 是一个调度器:它以常规的时间间隔开启任务,任务将会在集群中的可用节点上运行. 默认情况下,入口项是从 beat_schedule 设置中获取,但是自定义的存储也可以使用,例如在 ...
『学了就忘』Linux基础 — 8、虚拟机网络模式说明
目录 1.虚拟机网卡 2.网络连接模式对应工作的网卡 3.桥接模式说明 4.补充说明这篇主要总结一下虚拟机网络配置中桥接模式.NAT模式和仅主机模式的区别. 打开VMware,选中虚拟机,点击网络适 ...
基础篇：JAVA集合，面试专用
没啥好说的,在座的各位都是靓仔 List 数组 Vector 向量 Stack 栈 Map 映射字典 Set 集合 Queue 队列 Deque 双向队列关注公众号,一起交流,微信搜一搜: 潜行前行 ...
cURL 命令获取本机外网 IP
1.1 查询本机外网 IP # curl dhcp.cn 134.175.159.160 1.2 输出格式为 JSON # curl dhcp.cn/?json { "IP": & ...
手把手搭建自己的智能家居 - 基于 IOT Pi 的智能甲醛检测器
智慧家居 - 基于 IOT Pi 的智能甲醛检测器之前的文章体验 MS-RTOS 的时候入手了一个块 IOT Pi ,放着也是浪费,这次我们就利用 IOT PI 开发一个智能甲醛检测器.φ(> ...
Xpath运算符
5.position定位 >>print tree.xpath('//*[@id="testid"]/ol/li[position()=2]/text()')[0] & ...
字符串折叠&压缩（区间DP）
字符串折叠题目描述折叠的定义如下: 一个字符串可以看成它自身的折叠.记作S = S X(S)是X(X>1)个S连接在一起的串的折叠.记作X(S) = SSSS-S(X个S). 如果A = A ...

【GS文献】基因组选择在植物分子育种应用的最新综述（2020）