GWAS基因芯片数据预处理：质量控制（quality control）

一、数据为什么要做质量控制

比起表观学研究，GWAS研究很少有引起偏差的来源，一般来说，一个人的基因型终其一生几乎不会改变的，因此很少存在同时影响表型又影响基因型的变异。但即便这样，我们在做GWAS时也要去除一些可能引起偏差的因素。

这种因素主要有：群体结构、个体间存在血缘关系、技术性操作。

二、怎么看数据是否需要进行质量控制

下面分别为样本和SNP位点在数据中的直方图，当数据不在绝大多数的分布当中时，我们会倾向于认为那是测序、人工操作等其他方面造成的误差，而非该个体的真实情况，因此是需要将这些样本和位点过滤掉的。

这个阈值的设定并没有一个金标准，可参考往年发表的文献的常用阈值。

1、样本过滤阈值的设定

2、SNP过滤阈值的设定

三、怎么进行质量控制

质量控制包括两个方向，一个是样本的质量控制，一个是SNP的质量控制

1、样本的质量控制

样本的质量控制包括：缺失率、杂合性、基因型性别和记录的性别是否一致。

1）检测缺失率，通常情况下，将样本缺失率大于5%的个体去除

plink --bfile file --mind 0.05 --make-bed --out file_mind

2）检测杂合性

plink --bfile file --het --make-bed --out file_het

3) 检测性别不一致的个体

plink --bfile file --check-sex --make-bed --out file_checksex

4）去除不符合的样本

将1-3）获得不符合的样本去除

plink --bfile file --remove removesample.txt --make-bed --out file_qcsample

removesample.txt的格式如下：

FID IID

ASN ind1

ASN ind2

2、SNP位点的质量控制

SNP位点的质量控制包括：MAF值、call出率、Hardy-Weinberg Equilibrium

其命令见如下：

plink --bfile file_mind_file_qcsample --hwe 0.00001 --geno 0.02 --maf 0.01 --make-bed --out file_qcsample_snp

--hwe指的是不符合哈温伯格平衡的SNP位点，P值小于0.00001；

--geno指的是基因型缺失率大于2%的样本；

--maf指的是次等位基因频率低于1%的SNP位点；

最后，会得出干净的SNP和样本。

文中图片出处：

https://jvanderw.une.edu.au/Mod2Lecture_PLINK.pdf

GWAS基因芯片数据预处理：质量控制（quality control）的更多相关文章

（转）基因芯片数据GO和KEGG功能分析
随着人类基因组计划(Human Genome Project)即全部核苷酸测序的即将完成,人类基因组研究的重心逐渐进入后基因组时代(Postgenome Era),向基因的功能及基因的多样性倾斜.通过 ...
Next generation sequencing (NGS)二代测序数据预处理与分析
二代测序原理: 1.DNA待测文库构建. 超声波把DNA打断成小片段,一般200--500bp,两端加上不同的接头2.Flowcell.一个flowcell,8个channel,很多接头3.桥式PCR ...
Bioconductor应用领域之基因芯片
引用自https://mp.weixin.qq.com/s?__biz=MzU4NjU4ODQ2MQ==&mid=2247484662&idx=1&sn=194668553f9 ...
链终止法|边合成边测序|Bowtie|TopHat|Cufflinks|RPKM|FASTX-Toolkit|fastaQC|基因芯片|桥式扩增|
生物信息学 Sanger采用链终止法进行测序带有荧光基团的ddXTP+其他四种普通的脱氧核苷酸放入同一个培养皿中,例如带有荧光基团的ddATP+普通的脱氧核苷酸A.T.C.G放入同一个培养皿,以此类 ...
第七篇：数据预处理(四) - 数据归约(PCA/EFA为例)
前言这部分也许是数据预处理最为关键的一个阶段. 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析. 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给 ...
[数据预处理]-中心化缩放 KNN（一）
据预处理是总称,涵盖了数据分析师使用它将数据转处理成想要的数据的一系列操作.例如,对某个网站进行分析的时候,可能会去掉 html 标签,空格,缩进以及提取相关关键字.分析空间数据的时候,一般会把带单位 ...
[机器学习]-[数据预处理]-中心化缩放 KNN（二）
上次我们使用精度评估得到的成绩是 61%,成绩并不理想,再使 recall 和 f1 看下成绩如何? 首先我们先了解一下召回率和 f1. 真实结果预测结果预测结果正例反例正例 TP 真 ...
Python数据预处理：机器学习、人工智能通用技术（1）
Python数据预处理:机器学习.人工智能通用技术白宁超 2018年12月24日17:28:26 摘要:大数据技术与我们日常生活越来越紧密,要做大数据,首要解决数据问题.原始数据存在大量不完整.不 ...
时间序列预测——深度好文，ARIMA是最难用的（数据预处理过程不适合工业应用），线性回归模型简单适用，预测趋势很不错，xgboost的话，不太适合趋势预测，如果数据平稳也可以使用。
补充:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-15-276 如果用arima的话,还不如使用随机森 ...

随机推荐

关于获取URL中传值的解决方法--升级版
这次页面之间的传值是升级版本,为什么是升级版本呢,因为这次页面的传值不一样了.大家可以看一下我原来的文章<关于获取URL中传值的解决方法> 其实上次就已经比较清楚的介绍了页面之间的传值,但 ...
js中事件冒泡，事件捕获详解
一.事件流事件是js与HTML交互的基础,事件流描述的是页面接受事件的顺序,而事件流又分为三个阶段:捕获阶段.目标阶段和冒泡阶段. 如果单纯的事件处理,事件捕获和事件冒泡二选一即可,导致两者并存的原 ...
ecstore中怎样使用ajax提交数据
//javascript代码 $$(".bb").addEvent('change',function(e){ var order_item_id = this.get('orde ...
Web前端2019面试总结
基础知识点 1.水平垂直居中子绝父相,子盒子设置绝对定位,设置top:50%;left:50%,margin-top:-50%;margin-left:-50%; 子绝父相,子盒子设置绝对定位, ...
阿里云小程序云应用环境DIY，延长3倍免费期
阿里云清明节前刚刚推出了小程序云应用扶持计划一期活动 (活动链接见文章底部).假期研究了下以后,发觉不太给力.基本上就是给了2个月的免费测试环境,和平均2个月的基础版生产环境.而如果选用标准版生产环境 ...
HotSpot jdk 资料汇总
http://www.oracle.com/technetwork/java/index.html https://bugs.java.com/bugdatabase/ https://docs.or ...
Android 设计模式之MVC模式
说到Android设计模式的MVC模式,估计很多人都是比较熟悉了,这里深入了解一下MVC到底是怎么回事,以ListView为例子讲解. 一.深入理解MVC概念 MVC即Model-View-Contr ...
用 Python 描述 Cookie 和 Session
这篇文章我们来聊聊Cookie和Session,网上有很多关于这两个知识点的描述,可惜的是大部分都没有示例代码,因此本文的重点在于示例代码. 环境 Python3.6.0 Bottle0.12.15 ...
sparkSQL catalyst
最近想来,大数据相关技术与传统型数据库技术很多都是相互融合.互相借鉴的.传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性.容错性.扩展性等,假以时日,让其经过一定的改造, ...
Mysql 创建事件任务
DELIMITER $$ CREATE DEFINER=`root`@`%` EVENT `test` ON SCHEDULE EVERY 1 DAY STARTS '2019-02-12 00:00 ...

GWAS基因芯片数据预处理：质量控制（quality control）

GWAS基因芯片数据预处理：质量控制（quality control）的更多相关文章

随机推荐

热门专题