文献来源:

尹立林, 马云龙, 项韬, 朱猛进, 余梅, 李新云, 刘小磊, 赵书红. 全基因组选择模型研究进展及展望[J]. 畜牧兽医学报, 2019, 50(2): 233-242.

华中农大赵书红老师于2019年发表在《 畜牧兽医学报》上的综述,主要针对动物。

1. GS概况

  • 2009年开始奶牛选育已全部由GS主导,猪的GS国外大型公司已开展,禽类水产等动物也开始尝试GS。
  • 过去育种的缺点:系谱法将全同胞所有个体的育种值视为相同(实际存在个体差异),MAS对微效多基因解释的遗传变异有限。
  • 原理:分布于全基因组的高密度SNP标记中,至少有一个SNP能够与影响该目标性状的QTL处于 LD 状态,这样使得每个QTL的效应都可以通过SNP得到反映,将所有标记效应值累加,获得基因组估计育种值(GEBV)。

2. GS模型

1)直接法

把个体作为随机效应,参考群体和预测群体遗传信息构建的亲缘关系矩阵作为方差协方差矩阵,通过迭代法估计方差组分,进而求解混合模型获取待预测个体的估计育种值。

GBLUP

直接法的混合线性模型:

  • y为性状向量
  • b为固定效应
  • μ为随机效应,且服从均值为0,方差为Gσa2的正态分布,可记作μ~N(0, Gσa2),σa2为遗传方差,G为个体间的亲缘关系矩阵
  • X和Z分别为b和μ的关联矩阵
  • e为残差效应,服从正态分布N(0, Iσe2)

Vanraden方法计算G矩阵:

  • M为m×n标准化的基因型矩阵,m为标记个数,n为分型个体数
  • M,是M矩阵转置
  • pi为第i个位点最小等位基因频率

REML计算育种值:

采用约束最大似然法(REML)估计方差组分,计算育种值。

G矩阵/GBLUP优点:

  • 直接法与传统BLUP(ABLUP)方法原理一致,只是用基于标记计算的G矩阵代替了基于系谱计算的A矩阵
  • GBLUP计算快,能真实反映个体间遗传信息的差异,降低了孟德尔抽样造成的偏差,准确性更高。

GBLUP缺点:

  • 使所有标记对G矩阵具有等同的贡献
  • 不同性状利用相同的G矩阵

    实际上不同性状遗传机制不同,复杂程度不同,因此很多学者对GBLUP进行了改进。

直接法的模型改进

主要有两类:

①单随机效应

仍然在GBLUP模型中设置一个随机效应(不包含残差效应),但是在构建G矩阵过程中,对不同标记给予权重,称之为性状特异关系矩阵。

  • TABLUP
  • GBLUP|GA
  • 将大效应标记放入模型中作为固定效应,解释主要的遗传方差,剩余遗传方差由随机效应部分获取
  • 整合不同物种组学数据进行个体育种值估计
  • 将标记与基因通路信息整合构建个体亲缘关系矩阵
  • SSBLUP (single-step BLUP):同时使用系谱关系矩阵A和基因组关系矩阵G,获得新的矩阵H:





SSBLUP不仅可以估计被基因分型个体的育种值,而且可以估计未进行基因分型个体的育种值。

SSBLUP在猪全基因组选择上存在较大优势,是当前猪全基因组选择中最为广泛使用的方法之一。

②多随机效应

将标记分类,按照不同染色体区域、与性状关联程度大小等条件,将标记分为不同的组别,在模型中设置两个或多个随机效应。

  • GFBLUP
  • MultiBLUP:GS+GWAS+LRT
  • MKLMM:基于MultiBLUP

多随机效应灵活多变,但是当群体不断增加,多随机效应的方差组分估计成为一大难题,也成为多随机效应模型受制约的关键因素。

2)间接法

间接法模型

  • y为表型向量;
  • X为固定效应系数矩阵;
  • b为固定效应;
  • Zi为第i个位点数字化基因型向量(如:0, 1, 2);
  • gi为第i个位点效应值;
  • e为模型拟合残差,服从分布N~(0, Iσe2)。

多元回归的标记效应方程:

  • σgi2为第i个标记方差,直接与性状遗传构建相关。

间接法重点和难点在于如何对超参的先验分布,即对gi及其方差服从的分布进行合理假设。

  • RRBLUP (ridge regression BLUP):假设所有标记都具有效应,且来源于同一个分布,即σgi2相等。
  • 理论上RRBLUP与GBLUP方法是等价的。但实际上,不同性状遗传机理、控制的基因数目及遗传效应大小不同,认为所有标记都具有效应是不合理的,故假设所有标记方差不等更符合实际情况。
  • BayesA:认为所有标记都具有效应,且大部分标记效应较小,只有少部分大效应标记(参数求解过程结合了Bayes理论)。
  • Bayes B、C、Cpi等:认为大部分标记无效应,只有少部分标记具有效应。

几种经典Bayes方法的先验假设区别:

符合更复杂假设的模型,如Bayes模型,往往具有更多的待估参数,在提高预测准确度的同时带来了更大的计算量。

基于间接法的模型改进

  • BSLMM:结合Bayes和GBLUP
  • BayesR:适用于由简单到复杂的所有性状,因此具有更高的灵活性和广泛性
  • DPR
  • BayesN

3. GS模型比较

利用第16届QTL-MAS Workshop公布的3个模拟性状。该数据共包含4100个个体,其中4000(3000个有表型信息,1000个无表型信息)个个体具有基因型,因此需要预测的个体为1000个具有基因型的个体及100个无基因型个体。

模型比较结论

  • 利用系谱信息的BLUP模型准确性明显低于利用基因组信息的模型;
  • 间接法模型准确性优于GBLUP模型,计算时间更长,但与基于GBLUP改进的模型准确性基本等同;
  • 虽然间接法模型不断改进,但准确性并未明显提升;
  • 将大效应标记作为固定效应的Fixed GBLUP可提高GBLUP准确性,但是,由于加入的大效应标记较少,只能解释部分遗传变异,提升效果没有利用权重基因组关系矩阵的Weighted GBLUP高;
  • 对于分型个体而言SSBLUP相对于GBLUP并没有明显优势,而对于未分型的个体能够大大提高预测准确性。

4.问题及展望

  • 目前还没有一种模型能广泛适用于所有性状
  • 模型的两个重要挑战:计算准确性和计算效率
  • 直接法(GBLUP为代表)计算效率较高,但是计算准确性略差于间接法(BayesB为代表)
  • 间接法计算准确性较高,但计算量庞大,且无法实现并行运算,而育种讲求时效性,所以难以高效指导育种实践;
  • GS主要考虑加性效应,对于显性效应及互作效应等未纳入到育种值估计模型
  • GS主要在品种内进行,品种间由于遗传背景不同,跨品种预测准确性难以保证
  • 同品种间亲缘关系太远的个体育种值预测效果也不理想
  • GS只用到基因组信息,大量的多组学研究结果利用不够充分
  • 相比传统BLUP的稀疏矩阵,利用基因组信息计算的稠密矩阵给混合模型参数估计及模型求解带来了巨大的挑战,应通过数学或着计算机手段简化计算复杂度
  • 测序可减少对LD的依赖(相比芯片),得到更丰富的遗传信息,对于亲缘关系较近的群体可通过填充将芯片个体标记密度填充到测序水平。测序技术的应用将成为全基因组选择新时代的转折点,成本和计算又将是挑战。

【GS文献】全基因组选择模型研究进展及展望的更多相关文章

  1. 【GS文献】基因组选择在植物分子育种应用的最新综述(2020)

    目录 1. 简介 2. BLUP类模型 3. Bayesian类模型 4. 机器学习 5. GWAS辅助的GS 6. 杂交育种 7. 多性状 8. 长期选择 9. 预测准确性评估 10. GS到植物育 ...

  2. 【GS文献】基因组选择技术在农业动物育种中的应用

    中国农业大学等多家单位2017年合作发表在<遗传>杂志上的综述,笔记之. 作者中还有李宁院士,不胜唏嘘. 1.概述 GS的两大难题:基因组分型的成本,基因组育种值(genomic esti ...

  3. 全基因组选择育种(GS)简介

    全基因组选择(Genomic selection, GS)是一种利用覆盖全基因组的高密度标记进行选择育种的新方法,可通过早期选择缩短世代间隔,提高育种值(Genomic Estimated Breed ...

  4. 【GS文献】植物全基因组选择育种技术原理与研究进展

    目录 1. 优势杂交育种预测 2. GS育种原理与模型算法 岭回归和LASSO回归 贝叶斯方法 GBLUP和RRBLUP 偏最小二乘法 支持向量机/支持向量回归 其他方法 3. 模型预测能力验证 4. ...

  5. 生成式对抗网络GAN 的研究进展与展望

    生成式对抗网络GAN的研究进展与展望.pdf 摘要: 生成式对抗网络GAN (Generative adversarial networks) 目前已经成为人工智能学界一个热门的研究方向. GAN的基 ...

  6. 【百奥云GS专栏】全基因组选择之模型篇

    目录 1. 前言 2. BLUP方法 ABLUP GBLUP ssGBLUP RRBLUP 3. 贝叶斯方法 BayesA BayesB BayesC/Cπ/Dπ Bayesian Lasso 4. ...

  7. 【GS模型】全基因组选择之rrBLUP

    目录 1. 理论 2. 实操 2.1 rrBLUP包简介 2.2 实操 3. 补充说明 关于模型 关于交叉验证 参考资料 1. 理论 rrBLUP是基因组选择最常用的模型之一,也是间接法模型的代表.回 ...

  8. 【百奥云GS专栏】全基因组选择之工具篇

    目录 1. 免费开源包/库 1.1 R包 1.2 Python库 2. 成熟软件 3. WEB/GUI工具 前面我们已经介绍了基因组选择的各类模型,今天主要来了解一下做GS有哪些可用的软件和工具.基因 ...

  9. 【GS应用】基因组选择在杂交玉米上的应用示例

    目录 GS两步走 示例 缩短周期和成本 分类 杂交类型 试验研究 选择响应 选择的强度 选择的周期 预测能力 数据分析的注意事项 GS实施 优缺点 GS的成功 展望 GS两步走 示例 缩短周期和成本 ...

随机推荐

  1. Sobol 序列并行化的实践经验

    目录 Sobol 序列并行化的实践经验 随机数发生器并行化的常见策略 Sobol 序列的原理和跳转功能 Sobol 序列并行化实践 分块策略 蛙跳策略 蛙跳策略的计算量分析 减少异或计算的技巧 分块策 ...

  2. flutter页面间跳转和传参-Navigator的使用

    flutter页面间跳转和传参-Navigator的使用 概述 flutter中的默认导航分成两种,一种是命名的路由,一种是构建路由. 命名路由 这种路由需要一开始现在创建App的时候定义 new M ...

  3. 单片机stm32F103单片机晶振不起振的原因分析

    这是我在做单片机最小系统板时候碰到的问题,之前虽然也做过相似的板子,可是未曾出现过无源晶振不起振的问题.下面是我在遇到问题后的一些检查,排除问题的过程.本人小菜鸟一个,文章中如有错误和不足,还望各位大 ...

  4. Machine learning(2-Linear regression with one variable )

    1.Model representation Our Training Set [训练集]: We will start with this ''Housing price prediction'' ...

  5. 洛谷 P4555 [国家集训队]最长双回文串

    链接: P4555 题意: 在字符串 \(S\) 中找出两个相邻非空回文串,并使它们长度之和最大. 分析: 直接使用马拉车算法求出每个点扩展的回文串.如果枚举两个回文串显然会超时,我们考虑切割一个长串 ...

  6. best-time-to-buy-and-sell-stock-iii leetcode C++

    Say you have an array for which the i th element is the price of a given stock on day i. Design an a ...

  7. 暴力尝试安卓gesture.key

    import hashlib import os import itertools f = open(r'D:\KEY\gesture.key','r') psd = f.readline() f.c ...

  8. hdu 2955 Robberies(背包DP)

    题意: 小偷去抢银行,他母亲很担心. 他母亲希望他被抓的概率真不超过P.小偷打算去抢N个银行,每个银行有两个值Mi.Pi,Mi:抢第i个银行所获得的财产 Pi:抢第i个银行被抓的概率 求最多能抢得多少 ...

  9. Go 日常开发常备第三方库和工具

    不知不觉写 Go 已经快一年了,上线了大大小小好几个项目:心态也经历了几轮变化. 因为我个人大概前五年时间写的是 Java ,中途写过一年多的 Python,所以刚接触到 Go 时的感觉如下图: 既没 ...

  10. Vue面试题2

    Class与Style绑定工作有用过吗: 有,后台管理系统菜单.主题色切换 .tab选项卡等..... 计算属性和侦听器区别.使用场景: 计算属性有缓存.并且是响应式依赖缓存,调用不加小括号 利用vu ...