【GS文献】植物全基因组选择育种技术原理与研究进展
1. 优势杂交育种预测
- 杂交育种:选育优良纯合亲本,再进行亲本配组。
- 杂种优势与亲本间的遗传差异有关,前人通过遗传标记计算亲本间的遗传距离。但遗传距离和杂种优势的相关性只能在一定程度上定性地评价杂交组合的表现,并不能定量地预测表现。
- 从利用遗传标记的QTL到早期家畜的BLUP方法,GS应用初具雏形,但通过遗传系谱图构建的亲缘关系矩阵预测能力有限。
- 高密度SNP标记计算遗传关系矩阵来估算个体育种值。
2. GS育种原理与模型算法
- GS原理:
所有的GS模型都聚焦在如何准确估计β(标记效应)上。
- 过拟合的缺陷:即再训练群体中构建的模型再测试群体中的预测效果不佳。一般用交叉验证来对模型进行评估。
- 维数灾难:如果通过常规的最小二乘法利用线性拟合估计育种值,通常会因为分子标记间的多重共线性问题使模型失去预测能力。
- 不同预测算法从变量选择、降维和系数压缩等方法进行建模,来提升模型的预测能力。
岭回归和LASSO回归
- 岭回归(Ridge regression,RR):在最小二乘法的误差平方和最小的基础上,对系数进行限制,使离差平方和最小,同时使随机效应向量(β系数)的平方和小于一个非负常数值,该值越小就说明βj向量压缩得越厉害。
- 另一个理解:岭回归在最小二乘法的离差平方和最小的原则上,引入了一个惩罚项。
- LASSO回归是另一种方式的压缩,使离差平方和最小,同时使随机效应向量(β系数)的绝对值之和小于一个非负常数值,该值越小就说明βj向量压缩得越厉害。
- RR属于L2正则化(对所有的β进行约束,建模后保留所有预测因子),LASSO属于L1正则化(一定约束条件下会将某些预测因子系数压缩为0,从而达到变量选择的目的)。
- 当有效预测因子很多但贡献值都较小时,RR预测效果较好; 当有效预测因子较少且有效因子贡献值都较高时,LASSO预测效果好。
贝叶斯方法
- 不同于传统拟合方法,贝叶斯方法一般会根据经验给出βj的先验密度,再通过先验密度和似然函数求解βj的后验概率。
- 公式及参数:
- 固定效应:βjk服从扁平先验(即不提供任何先验信息)。
- BRR:贝叶斯岭回归,βjk服从高斯先验(即βj服从正态分布)。
- Bayesian LASSO:βjk服从双指数先验分布。
- BayesA:βjk服从scaled-t先验分布。它和Bayesian LASSO认为只有少数因子有比较显著的效应。
- BayesB和C:βjk的先验分布属于混合分布,假设有大量的βj为0,与scaled-t先验分布混合为BayesB,与高斯先验分布混合为BayesC。
- 贝叶斯模型的运算时间与迭代次数有关。
GBLUP和RRBLUP
- GBLUP公式:
- RRBLUP公式:
- 通过标记效应和个体育种值预测杂交后代的表现结果是等价的。这两个模型适合大规模建模和预测分析。
偏最小二乘法
- PLS:首先在预测因子中进行特征提取,然后进行最小二乘法线性拟合运算。
- 涉及到矩阵运算,再分子标记数量较多时对计算力要求很高,运行时间长,不适合高密度SNP建模预测。
支持向量机/支持向量回归
- SVM:为提高分类器稳定性,避免个别个体的变化对分类结果产生剧烈影响,通常会给与分类器一定数量的容错率和相应的罚分。
- 通过交叉验证确定容错率和罚分的最佳参数。
- SVM的优化与观测点的内积有关,可用不同的核函数来表示内积,如线性核函数、多项式核函数、径向核函数等。
- 支持向量回归SVR在动植物育种预测应用广泛。
- SVM用于GS建模一般易出现过拟合,不太适合做预测,可与其他模型一起作为参考。
其他方法
- 维数诅咒:引入模型的预测因子(SNP标记)越多,模型解释能力越强,但预测能力会下降。所有预测方法都围绕提升模型预测能力展开。
- 随机森林/变量选择等方法运算量大,只适用于预测因子数量较少的情况。
3. 模型预测能力验证
- 交叉验证:留一法,K折交叉验证。
- 模型预测能力的评估:计算均方误差,观测值与预测值的相关系数。
4. 局限性
基于数学建模的杂交种预测的一些假设:
- 不论是双亲群体的衍生群体(重组自交系间杂交组合还是单交群体(包括双列杂交和NCII等);
- 每个杂交组合的双亲的所有等位基因都是纯合的;
- 每个等位基因位点都是双等位基因,如果有极小比例的其他类型的等位基因,该位点会被主要等位基因覆盖;
- 杂交组合的基因型由双亲的基因型推导而来;
不考虑反交效应。
影响因素
- 控制数量性状的QTL分布情况
- 训练群体大小和选择
- 遗传力
- 表型准确性
- SNP标记密度和标记间LD效应
5. 展望
- 基于数量性状由多基因控制,受环境影响大的特点,GS在确定预测因子时可将环境因子作为固定效应,评估其方差组分,预测时可将环境因子考虑进来,提供模型的预测能力。
- 除了基因组的分子标记,转录组、代谢组数据都可作为预测因子,进行建模预测。
参考文献:
刘策, 孟焕文, 程智慧. 植物全基因组选择育种技术原理与研究进展. 分子植物育种, 2020 年,第18 卷,第16 期,第5335 - 5342 页.
西北农林科技大学园艺学院
【GS文献】植物全基因组选择育种技术原理与研究进展的更多相关文章
- 【GS文献】全基因组选择模型研究进展及展望
目录 1. GS概况 2. GS模型 1)直接法 GBLUP 直接法的模型改进 ①单随机效应 ②多随机效应 2)间接法 间接法模型 基于间接法的模型改进 3. GS模型比较 模型比较结论 4.问题及展 ...
- 全基因组选择育种(GS)简介
全基因组选择(Genomic selection, GS)是一种利用覆盖全基因组的高密度标记进行选择育种的新方法,可通过早期选择缩短世代间隔,提高育种值(Genomic Estimated Breed ...
- 【百奥云GS专栏】全基因组选择之模型篇
目录 1. 前言 2. BLUP方法 ABLUP GBLUP ssGBLUP RRBLUP 3. 贝叶斯方法 BayesA BayesB BayesC/Cπ/Dπ Bayesian Lasso 4. ...
- 【百奥云GS专栏】全基因组选择之工具篇
目录 1. 免费开源包/库 1.1 R包 1.2 Python库 2. 成熟软件 3. WEB/GUI工具 前面我们已经介绍了基因组选择的各类模型,今天主要来了解一下做GS有哪些可用的软件和工具.基因 ...
- 【GS模型】全基因组选择之rrBLUP
目录 1. 理论 2. 实操 2.1 rrBLUP包简介 2.2 实操 3. 补充说明 关于模型 关于交叉验证 参考资料 1. 理论 rrBLUP是基因组选择最常用的模型之一,也是间接法模型的代表.回 ...
- 【百奥云GS专栏】1-全基因组选择介绍
目录 什么是基因组选择? 基因组选择技术的发展 基因组选择的原理和流程 基因组选择的模型 基因组选择的展望 参考资料 什么是基因组选择? 基因组选择(Genomic Selection,简称GS)这一 ...
- Micro LED巨量转移技术研究进展
近年来,Micro LED因其功耗低.响应快.寿命长.光效率高等特点,被视为继LCD.OLED之后的新一代显示面板技术.Micro LED的英文全名是Micro Light Emitting Diod ...
- 【GS文献】植物育种中基因组选择的方法、模型及展望
目录 1. GS/GP在植物育种中的角色 2. GP模型应用 3. GP模型的准确性 4. 植物育种的GS展望 5. 小结 Genomic SelectioninPlant Breeding: Met ...
- 【GS文献】基因组选择在植物分子育种应用的最新综述(2020)
目录 1. 简介 2. BLUP类模型 3. Bayesian类模型 4. 机器学习 5. GWAS辅助的GS 6. 杂交育种 7. 多性状 8. 长期选择 9. 预测准确性评估 10. GS到植物育 ...
随机推荐
- better-scroll快速上手及封装(vue项目)
愿你有诗有梦,有坦荡荡的远方 本文声明:这是一篇学习coderwhy老师的vue2课程的一个笔记,所以本文章是在vue项目中实现,没学过vue的大佬们可以举一反三. 使用场景及介绍 BetterScr ...
- UltraSoft - Alpha - Scrum Meeting 8
Date: Apr 23th, 2020. Scrum 情况汇报 进度情况 组员 负责 昨日进度 后两日任务 CookieLau PM.后端 aliyun连接前后端,跑通demo 实现邮箱注册的验证码 ...
- elasticsearch入门(简单的crud操作)
记录一下,elasticsearch从创建索引到插入数据的一个crud操作. 一.创建索引 curl -XPUT "http://192.168.99.1:9200/productindex ...
- elasticsearch的索引操作
1.创建索引(test_index) curl -XPUT "http://192.168.99.1:9200/test_index" 2.创建索引,指定分片和副本的数量 curl ...
- 【做题记录】DP 杂题
P2577 [ZJOI2004]午餐 $\texttt{solution}$ 想到贪心: 吃饭慢的先打饭节约时间, 所以先将人按吃饭时间从大到小排序. 状态: \(f[i][j]\) 表示前 \(i\ ...
- 最短路径算法:弗洛伊德(Floyd-Warshall)算法
一.算法介绍 Floyd-Warshall算法(英语:Floyd-Warshall algorithm),中文亦称弗洛伊德算法,是解决任意两点间的最短路径的一种算法,可以正确处理有向图或负权(但不可存 ...
- 就因为把int改成Integer,第2天被辞了
本文节选自<设计模式就该这样学>之享元模式(Flyweight Pattern) 1 故事背景 一个程序员就因为改了生产环境上的一个方法参数,把int型改成了Integer类型,因为涉及到 ...
- inline hook原理和实现
inline hook是通过修改函数执行指令来达到挂钩的.比如A要调用B,但人为地修改执行流程导致A调用了C,C在完成了自己的功能后,返回B再执行. 修改这段指令前首先要获取修改权限 由于要修改的代码 ...
- VUE项目实现主题切换
需求是 做一个深色主题和浅色主题切换的效果 方法一 多套css 这个方法也是最简单,也是最无聊的. <!-- 中心 --> <template> 动态获取父级class名称,进 ...
- Centos7 误删除bin/sbin之类的恢复
参考连接:https://blog.csdn.net/weixin_41843733/article/details/107468767 挂载对应版本的光盘进入急救模式,复制已经丢失的命令到/mnt/ ...