文献来源:

尹立林, 马云龙, 项韬, 朱猛进, 余梅, 李新云, 刘小磊, 赵书红. 全基因组选择模型研究进展及展望[J]. 畜牧兽医学报, 2019, 50(2): 233-242.

华中农大赵书红老师于2019年发表在《 畜牧兽医学报》上的综述,主要针对动物。

1. GS概况

  • 2009年开始奶牛选育已全部由GS主导,猪的GS国外大型公司已开展,禽类水产等动物也开始尝试GS。
  • 过去育种的缺点:系谱法将全同胞所有个体的育种值视为相同(实际存在个体差异),MAS对微效多基因解释的遗传变异有限。
  • 原理:分布于全基因组的高密度SNP标记中,至少有一个SNP能够与影响该目标性状的QTL处于 LD 状态,这样使得每个QTL的效应都可以通过SNP得到反映,将所有标记效应值累加,获得基因组估计育种值(GEBV)。

2. GS模型

1)直接法

把个体作为随机效应,参考群体和预测群体遗传信息构建的亲缘关系矩阵作为方差协方差矩阵,通过迭代法估计方差组分,进而求解混合模型获取待预测个体的估计育种值。

GBLUP

直接法的混合线性模型:

  • y为性状向量
  • b为固定效应
  • μ为随机效应,且服从均值为0,方差为Gσa2的正态分布,可记作μ~N(0, Gσa2),σa2为遗传方差,G为个体间的亲缘关系矩阵
  • X和Z分别为b和μ的关联矩阵
  • e为残差效应,服从正态分布N(0, Iσe2)

Vanraden方法计算G矩阵:

  • M为m×n标准化的基因型矩阵,m为标记个数,n为分型个体数
  • M,是M矩阵转置
  • pi为第i个位点最小等位基因频率

REML计算育种值:

采用约束最大似然法(REML)估计方差组分,计算育种值。

G矩阵/GBLUP优点:

  • 直接法与传统BLUP(ABLUP)方法原理一致,只是用基于标记计算的G矩阵代替了基于系谱计算的A矩阵
  • GBLUP计算快,能真实反映个体间遗传信息的差异,降低了孟德尔抽样造成的偏差,准确性更高。

GBLUP缺点:

  • 使所有标记对G矩阵具有等同的贡献
  • 不同性状利用相同的G矩阵

    实际上不同性状遗传机制不同,复杂程度不同,因此很多学者对GBLUP进行了改进。

直接法的模型改进

主要有两类:

①单随机效应

仍然在GBLUP模型中设置一个随机效应(不包含残差效应),但是在构建G矩阵过程中,对不同标记给予权重,称之为性状特异关系矩阵。

  • TABLUP
  • GBLUP|GA
  • 将大效应标记放入模型中作为固定效应,解释主要的遗传方差,剩余遗传方差由随机效应部分获取
  • 整合不同物种组学数据进行个体育种值估计
  • 将标记与基因通路信息整合构建个体亲缘关系矩阵
  • SSBLUP (single-step BLUP):同时使用系谱关系矩阵A和基因组关系矩阵G,获得新的矩阵H:





SSBLUP不仅可以估计被基因分型个体的育种值,而且可以估计未进行基因分型个体的育种值。

SSBLUP在猪全基因组选择上存在较大优势,是当前猪全基因组选择中最为广泛使用的方法之一。

②多随机效应

将标记分类,按照不同染色体区域、与性状关联程度大小等条件,将标记分为不同的组别,在模型中设置两个或多个随机效应。

  • GFBLUP
  • MultiBLUP:GS+GWAS+LRT
  • MKLMM:基于MultiBLUP

多随机效应灵活多变,但是当群体不断增加,多随机效应的方差组分估计成为一大难题,也成为多随机效应模型受制约的关键因素。

2)间接法

间接法模型

  • y为表型向量;
  • X为固定效应系数矩阵;
  • b为固定效应;
  • Zi为第i个位点数字化基因型向量(如:0, 1, 2);
  • gi为第i个位点效应值;
  • e为模型拟合残差,服从分布N~(0, Iσe2)。

多元回归的标记效应方程:

  • σgi2为第i个标记方差,直接与性状遗传构建相关。

间接法重点和难点在于如何对超参的先验分布,即对gi及其方差服从的分布进行合理假设。

  • RRBLUP (ridge regression BLUP):假设所有标记都具有效应,且来源于同一个分布,即σgi2相等。
  • 理论上RRBLUP与GBLUP方法是等价的。但实际上,不同性状遗传机理、控制的基因数目及遗传效应大小不同,认为所有标记都具有效应是不合理的,故假设所有标记方差不等更符合实际情况。
  • BayesA:认为所有标记都具有效应,且大部分标记效应较小,只有少部分大效应标记(参数求解过程结合了Bayes理论)。
  • Bayes B、C、Cpi等:认为大部分标记无效应,只有少部分标记具有效应。

几种经典Bayes方法的先验假设区别:

符合更复杂假设的模型,如Bayes模型,往往具有更多的待估参数,在提高预测准确度的同时带来了更大的计算量。

基于间接法的模型改进

  • BSLMM:结合Bayes和GBLUP
  • BayesR:适用于由简单到复杂的所有性状,因此具有更高的灵活性和广泛性
  • DPR
  • BayesN

3. GS模型比较

利用第16届QTL-MAS Workshop公布的3个模拟性状。该数据共包含4100个个体,其中4000(3000个有表型信息,1000个无表型信息)个个体具有基因型,因此需要预测的个体为1000个具有基因型的个体及100个无基因型个体。

模型比较结论

  • 利用系谱信息的BLUP模型准确性明显低于利用基因组信息的模型;
  • 间接法模型准确性优于GBLUP模型,计算时间更长,但与基于GBLUP改进的模型准确性基本等同;
  • 虽然间接法模型不断改进,但准确性并未明显提升;
  • 将大效应标记作为固定效应的Fixed GBLUP可提高GBLUP准确性,但是,由于加入的大效应标记较少,只能解释部分遗传变异,提升效果没有利用权重基因组关系矩阵的Weighted GBLUP高;
  • 对于分型个体而言SSBLUP相对于GBLUP并没有明显优势,而对于未分型的个体能够大大提高预测准确性。

4.问题及展望

  • 目前还没有一种模型能广泛适用于所有性状
  • 模型的两个重要挑战:计算准确性和计算效率
  • 直接法(GBLUP为代表)计算效率较高,但是计算准确性略差于间接法(BayesB为代表)
  • 间接法计算准确性较高,但计算量庞大,且无法实现并行运算,而育种讲求时效性,所以难以高效指导育种实践;
  • GS主要考虑加性效应,对于显性效应及互作效应等未纳入到育种值估计模型
  • GS主要在品种内进行,品种间由于遗传背景不同,跨品种预测准确性难以保证
  • 同品种间亲缘关系太远的个体育种值预测效果也不理想
  • GS只用到基因组信息,大量的多组学研究结果利用不够充分
  • 相比传统BLUP的稀疏矩阵,利用基因组信息计算的稠密矩阵给混合模型参数估计及模型求解带来了巨大的挑战,应通过数学或着计算机手段简化计算复杂度
  • 测序可减少对LD的依赖(相比芯片),得到更丰富的遗传信息,对于亲缘关系较近的群体可通过填充将芯片个体标记密度填充到测序水平。测序技术的应用将成为全基因组选择新时代的转折点,成本和计算又将是挑战。

【GS文献】全基因组选择模型研究进展及展望的更多相关文章

  1. 【GS文献】基因组选择在植物分子育种应用的最新综述(2020)

    目录 1. 简介 2. BLUP类模型 3. Bayesian类模型 4. 机器学习 5. GWAS辅助的GS 6. 杂交育种 7. 多性状 8. 长期选择 9. 预测准确性评估 10. GS到植物育 ...

  2. 【GS文献】基因组选择技术在农业动物育种中的应用

    中国农业大学等多家单位2017年合作发表在<遗传>杂志上的综述,笔记之. 作者中还有李宁院士,不胜唏嘘. 1.概述 GS的两大难题:基因组分型的成本,基因组育种值(genomic esti ...

  3. 全基因组选择育种(GS)简介

    全基因组选择(Genomic selection, GS)是一种利用覆盖全基因组的高密度标记进行选择育种的新方法,可通过早期选择缩短世代间隔,提高育种值(Genomic Estimated Breed ...

  4. 【GS文献】植物全基因组选择育种技术原理与研究进展

    目录 1. 优势杂交育种预测 2. GS育种原理与模型算法 岭回归和LASSO回归 贝叶斯方法 GBLUP和RRBLUP 偏最小二乘法 支持向量机/支持向量回归 其他方法 3. 模型预测能力验证 4. ...

  5. 生成式对抗网络GAN 的研究进展与展望

    生成式对抗网络GAN的研究进展与展望.pdf 摘要: 生成式对抗网络GAN (Generative adversarial networks) 目前已经成为人工智能学界一个热门的研究方向. GAN的基 ...

  6. 【百奥云GS专栏】全基因组选择之模型篇

    目录 1. 前言 2. BLUP方法 ABLUP GBLUP ssGBLUP RRBLUP 3. 贝叶斯方法 BayesA BayesB BayesC/Cπ/Dπ Bayesian Lasso 4. ...

  7. 【GS模型】全基因组选择之rrBLUP

    目录 1. 理论 2. 实操 2.1 rrBLUP包简介 2.2 实操 3. 补充说明 关于模型 关于交叉验证 参考资料 1. 理论 rrBLUP是基因组选择最常用的模型之一,也是间接法模型的代表.回 ...

  8. 【百奥云GS专栏】全基因组选择之工具篇

    目录 1. 免费开源包/库 1.1 R包 1.2 Python库 2. 成熟软件 3. WEB/GUI工具 前面我们已经介绍了基因组选择的各类模型,今天主要来了解一下做GS有哪些可用的软件和工具.基因 ...

  9. 【GS应用】基因组选择在杂交玉米上的应用示例

    目录 GS两步走 示例 缩短周期和成本 分类 杂交类型 试验研究 选择响应 选择的强度 选择的周期 预测能力 数据分析的注意事项 GS实施 优缺点 GS的成功 展望 GS两步走 示例 缩短周期和成本 ...

随机推荐

  1. [对对子队]Beta阶段项目展示博客

    Beta阶段项目展示博客 1 团队成员的简介和个人博客地址 成员 头像 岗位 博客 个人介绍 黄贤昊 PM 17373253 喜欢玩游戏和做游戏,项目经验基本都和游戏相关,擅长摸鱼,偶尔敬业. 吴桐雨 ...

  2. UltraSoft - Alpha - Scrum Meeting 3

    Date: Apr 15th, 2020. 会议内容为 贡献分确定与进度汇报. Scrum 情况汇报 进度情况 组员 负责 昨日进度 后两日任务 CookieLau PM.后端 学习前后端分离技术的项 ...

  3. poi实现生成下拉选联动

    在我们实际的程序开发中,经常需要用到从excel导入数据中系统中,而为了防止用户在excel中乱输入文字,有些需要用到下拉选的地方,就需要从程序中动态生成模板.本例子简单的讲解一下,如何生成级联下拉选 ...

  4. Noip模拟54 2021.9.16

    T1 选择 现在发现好多题目都是隐含的状压,不明面给到数据范围里,之凭借一句话 比如这道题就是按照题目里边给的儿子数量不超过$10$做状压,非常邪门 由于数据范围比较小,怎么暴力就怎么来 从叶子节点向 ...

  5. 奔跑吧linux-第三章实验

    基于树莓派+openeuler平台 实验 3-2:汇编语言练习--查找最大数 1.实验目的 通过本实验了解和熟悉 ARM64 汇编语言. 2.实验要求 使用 ARM64 汇编语言来实现如下功能:在给定 ...

  6. python 修饰器(decorator)

    转载:Python之修饰器 - 知乎 (zhihu.com) 什么是修饰器,为什么叫修饰器 修饰器英文是Decorator, 我们假设这样一种场景:古老的代码中有几个很是复杂的函数F1.F2.F3.. ...

  7. Python NameError: name 'unicode' is not defined

    Python2 的unicode 函数在 Python3 中被命名为 str.在 Python3 中使用 ·str 来代替 Python2 中的 unicode.

  8. cf16E Fish(状压DP)

    题意: N只FISH.每个回合会有一只FISH吃掉另一个FISH.直到池塘里只剩一只FISH. 给出aij:第i只FISH吃掉第J只FISH的概率. 问每一只FISH是最后存活者的概率. Input ...

  9. pl/sql 远程连接oracle数据库问题(TNS:丢失连接)

    前几天还可以连接的,突然就连接失效,别的电脑也连接不上 1.ping 远程数据库的IP,可以ping通. 2.检查服务端的tnsnames.ora文件和本机客户端比较,没问题. 3.查看监听是否启动  ...

  10. linux&c 进程控制 课后习题

    (声明:本篇博客只是博主自己的理解,加以整理,目的是总结刚学过的进程知识,不一定绝对正确,非常愿意听客官您提出宝贵意见.) Q1:进程中的全局数据段(全局变量),局部数据段(局部变量),静态数据段的分 ...