1. 优势杂交育种预测

  • 杂交育种:选育优良纯合亲本,再进行亲本配组。
  • 杂种优势与亲本间的遗传差异有关,前人通过遗传标记计算亲本间的遗传距离。但遗传距离和杂种优势的相关性只能在一定程度上定性地评价杂交组合的表现,并不能定量地预测表现。
  • 从利用遗传标记的QTL到早期家畜的BLUP方法,GS应用初具雏形,但通过遗传系谱图构建的亲缘关系矩阵预测能力有限。
  • 高密度SNP标记计算遗传关系矩阵来估算个体育种值。

2. GS育种原理与模型算法

  • GS原理:



所有的GS模型都聚焦在如何准确估计β(标记效应)上。

  • 过拟合的缺陷:即再训练群体中构建的模型再测试群体中的预测效果不佳。一般用交叉验证来对模型进行评估。
  • 维数灾难:如果通过常规的最小二乘法利用线性拟合估计育种值,通常会因为分子标记间的多重共线性问题使模型失去预测能力。
  • 不同预测算法从变量选择、降维和系数压缩等方法进行建模,来提升模型的预测能力。

岭回归和LASSO回归

  • 岭回归(Ridge regression,RR):在最小二乘法的误差平方和最小的基础上,对系数进行限制,使离差平方和最小,同时使随机效应向量(β系数)的平方和小于一个非负常数值,该值越小就说明βj向量压缩得越厉害。
  • 另一个理解:岭回归在最小二乘法的离差平方和最小的原则上,引入了一个惩罚项。
  • LASSO回归是另一种方式的压缩,使离差平方和最小,同时使随机效应向量(β系数)的绝对值之和小于一个非负常数值,该值越小就说明βj向量压缩得越厉害。
  • RR属于L2正则化(对所有的β进行约束,建模后保留所有预测因子),LASSO属于L1正则化(一定约束条件下会将某些预测因子系数压缩为0,从而达到变量选择的目的)。
  • 当有效预测因子很多但贡献值都较小时,RR预测效果较好; 当有效预测因子较少且有效因子贡献值都较高时,LASSO预测效果好。

贝叶斯方法

  • 不同于传统拟合方法,贝叶斯方法一般会根据经验给出βj的先验密度,再通过先验密度和似然函数求解βj的后验概率。
  • 公式及参数:

  • 固定效应:βjk服从扁平先验(即不提供任何先验信息)。
  • BRR:贝叶斯岭回归,βjk服从高斯先验(即βj服从正态分布)。
  • Bayesian LASSO:βjk服从双指数先验分布。
  • BayesA:βjk服从scaled-t先验分布。它和Bayesian LASSO认为只有少数因子有比较显著的效应。
  • BayesB和C:βjk的先验分布属于混合分布,假设有大量的βj为0,与scaled-t先验分布混合为BayesB,与高斯先验分布混合为BayesC。
  • 贝叶斯模型的运算时间与迭代次数有关。

GBLUP和RRBLUP

  • GBLUP公式:



  • RRBLUP公式:

  • 通过标记效应和个体育种值预测杂交后代的表现结果是等价的。这两个模型适合大规模建模和预测分析。

偏最小二乘法

  • PLS:首先在预测因子中进行特征提取,然后进行最小二乘法线性拟合运算。
  • 涉及到矩阵运算,再分子标记数量较多时对计算力要求很高,运行时间长,不适合高密度SNP建模预测。

支持向量机/支持向量回归

  • SVM:为提高分类器稳定性,避免个别个体的变化对分类结果产生剧烈影响,通常会给与分类器一定数量的容错率和相应的罚分。
  • 通过交叉验证确定容错率和罚分的最佳参数。
  • SVM的优化与观测点的内积有关,可用不同的核函数来表示内积,如线性核函数、多项式核函数、径向核函数等。
  • 支持向量回归SVR在动植物育种预测应用广泛。
  • SVM用于GS建模一般易出现过拟合,不太适合做预测,可与其他模型一起作为参考。

其他方法

  • 维数诅咒:引入模型的预测因子(SNP标记)越多,模型解释能力越强,但预测能力会下降。所有预测方法都围绕提升模型预测能力展开。
  • 随机森林/变量选择等方法运算量大,只适用于预测因子数量较少的情况。

3. 模型预测能力验证

  • 交叉验证:留一法,K折交叉验证。
  • 模型预测能力的评估:计算均方误差,观测值与预测值的相关系数。

4. 局限性

基于数学建模的杂交种预测的一些假设:

  • 不论是双亲群体的衍生群体(重组自交系间杂交组合还是单交群体(包括双列杂交和NCII等);
  • 每个杂交组合的双亲的所有等位基因都是纯合的;
  • 每个等位基因位点都是双等位基因,如果有极小比例的其他类型的等位基因,该位点会被主要等位基因覆盖;
  • 杂交组合的基因型由双亲的基因型推导而来;

    不考虑反交效应。

影响因素

  • 控制数量性状的QTL分布情况
  • 训练群体大小和选择
  • 遗传力
  • 表型准确性
  • SNP标记密度和标记间LD效应

5. 展望

  • 基于数量性状由多基因控制,受环境影响大的特点,GS在确定预测因子时可将环境因子作为固定效应,评估其方差组分,预测时可将环境因子考虑进来,提供模型的预测能力。
  • 除了基因组的分子标记,转录组、代谢组数据都可作为预测因子,进行建模预测。

参考文献:

刘策, 孟焕文, 程智慧. 植物全基因组选择育种技术原理与研究进展. 分子植物育种, 2020 年,第18 卷,第16 期,第5335 - 5342 页.

西北农林科技大学园艺学院

【GS文献】植物全基因组选择育种技术原理与研究进展的更多相关文章

  1. 【GS文献】全基因组选择模型研究进展及展望

    目录 1. GS概况 2. GS模型 1)直接法 GBLUP 直接法的模型改进 ①单随机效应 ②多随机效应 2)间接法 间接法模型 基于间接法的模型改进 3. GS模型比较 模型比较结论 4.问题及展 ...

  2. 全基因组选择育种(GS)简介

    全基因组选择(Genomic selection, GS)是一种利用覆盖全基因组的高密度标记进行选择育种的新方法,可通过早期选择缩短世代间隔,提高育种值(Genomic Estimated Breed ...

  3. 【百奥云GS专栏】全基因组选择之模型篇

    目录 1. 前言 2. BLUP方法 ABLUP GBLUP ssGBLUP RRBLUP 3. 贝叶斯方法 BayesA BayesB BayesC/Cπ/Dπ Bayesian Lasso 4. ...

  4. 【百奥云GS专栏】全基因组选择之工具篇

    目录 1. 免费开源包/库 1.1 R包 1.2 Python库 2. 成熟软件 3. WEB/GUI工具 前面我们已经介绍了基因组选择的各类模型,今天主要来了解一下做GS有哪些可用的软件和工具.基因 ...

  5. 【GS模型】全基因组选择之rrBLUP

    目录 1. 理论 2. 实操 2.1 rrBLUP包简介 2.2 实操 3. 补充说明 关于模型 关于交叉验证 参考资料 1. 理论 rrBLUP是基因组选择最常用的模型之一,也是间接法模型的代表.回 ...

  6. 【百奥云GS专栏】1-全基因组选择介绍

    目录 什么是基因组选择? 基因组选择技术的发展 基因组选择的原理和流程 基因组选择的模型 基因组选择的展望 参考资料 什么是基因组选择? 基因组选择(Genomic Selection,简称GS)这一 ...

  7. Micro LED巨量转移技术研究进展

    近年来,Micro LED因其功耗低.响应快.寿命长.光效率高等特点,被视为继LCD.OLED之后的新一代显示面板技术.Micro LED的英文全名是Micro Light Emitting Diod ...

  8. 【GS文献】植物育种中基因组选择的方法、模型及展望

    目录 1. GS/GP在植物育种中的角色 2. GP模型应用 3. GP模型的准确性 4. 植物育种的GS展望 5. 小结 Genomic SelectioninPlant Breeding: Met ...

  9. 【GS文献】基因组选择在植物分子育种应用的最新综述(2020)

    目录 1. 简介 2. BLUP类模型 3. Bayesian类模型 4. 机器学习 5. GWAS辅助的GS 6. 杂交育种 7. 多性状 8. 长期选择 9. 预测准确性评估 10. GS到植物育 ...

随机推荐

  1. centos7 配置ftp服务器搭建(匿名访问,以及本地登录)

    大家好,今天来给大家分享一个基于centos 7的ftp服务器搭建 实现功能:匿名访问,本地登录 查看系统版本: [root@localhost ~]# cat /etc/redhat-release ...

  2. 数组中只出现过一次的数字 牛客网 剑指Offer

    数组中只出现过一次的数字 牛客网 剑指Offer 题目描述 一个整型数组里除了两个数字之外,其他的数字都出现了偶数次.请写程序找出这两个只出现一次的数字. def FindNumsAppearOnce ...

  3. 前端面试手写代码——模拟实现new运算符

    目录 1 new 运算符简介 2 new 究竟干了什么事 3 模拟实现 new 运算符 4 补充 预备知识: 了解原型和原型链 了解this绑定 1 new 运算符简介 MDN文档:new 运算符创建 ...

  4. coreseek使用心得

    基本使用方法: D:\coreseek-4.1\bin\searchd -c D:\coreseek-4.1\etc\article.conf --stop 停止服务 D:\coreseek-4.1\ ...

  5. ESXi 6.7 的https服务挂掉处理方法 503 Service Unavailable

    首先进入EXSi开启SSH(ESXi的主机控制台,非web控制台,是安装esxi的控制台) 然后 /etc/init.d/hostd status 显示已停止, 使用 /etc/init.d/host ...

  6. 力扣 - 剑指 Offer 06. 从尾到头打印链表.md

    题目 剑指 Offer 06. 从尾到头打印链表 思路1(递归) 首先先遍历整个脸表,计算出链表的长度(用于初始化数组).然后进行递归,从链表头部递归到尾部,这期间什么都不做,直到递归到最后一个节点的 ...

  7. MySQL中特别实用的几种SQL语句送给大家

    在写SQL时,经常灵活运用一些SQL语句编写的技巧,可以大大简化程序逻辑.减少程序与数据库的交互次数,有利于数据库高可用性,同时也能显得你的SQL很牛B,让同事们眼前一亮. 目录 实用的SQL 1.插 ...

  8. 【java+selenium3】模态框处理(五)

    一.模态框的定义: 模态对话框(Modal Dialogue Box , 又叫做模式对话框),是指在用户想要对话框以外的应用程序进行操作时候,必须先对该对话框进行响应.如单击[确定]或者[返回]按钮等 ...

  9. OSI模型 & TCP/IP模型

    分层思想 分层思想:将复杂 的流程分解 为几个功能相对单一 的子过程 整个流程更加清晰 ,复杂问题简单化 更容易发现问题并针对性的解决问题 分层思想在网络中的应用 OSI模型 国际标准化组织(Inte ...

  10. 攻防世界 Misc 新手练习区 stegano CONFidence-DS-CTF-Teaser Writeup

    攻防世界 Misc 新手练习区 stegano CONFidence-DS-CTF-Teaser Writeup 题目介绍 题目考点 隐写术 摩斯密码 Writeup 下载附件是PDF文件打开,研究一 ...