GWAS分析基本流程及分析思路

数据预处理（DNA genotyping、Quality control、Imputation）

QC的工作可以做PLINK上完成Imputation的工作用IMPUTE2完成

2. 表型数据统计分析

逻辑回归（表型数据为二元）
线性回归（表型数据为连续性变量）
表型数据正态分析（如果不是正态分布，需转换处理为正态分布）
表型数据均值、中值、最大值、最小值
影响因子对表型的影响分析

3.画曼哈顿图（GWAS）和QQ plot图

(一)、准备plink文件
（1）、准备PED文件

PED文件有六列，六列内容如下：Family IDIndividual IDPaternal IDMaternal IDSex (1=male; 2=female; other=unknown)PhenotypePED文件是空格（空格或制表符）分隔的文件。
（2）、准备MAP文件

MAP文件有四列，四列内容如下：chromosome (1-22, X, Y or 0 if unplaced)rs# or snp identifierGenetic distance (morgans)Base-pair position (bp units)
（3）、生成bed、fam、bim、文件
在plink中输入命令：plink --file mydata --out mydata --make-bedplink指的是plink软件，如果软件安装在某个指定的路径的话，前面还要加上路径，比如安装在路径为/your/pathway/的文件夹下，则命令应该为“/your/pathway/plink --file mydata --out mydata --make-bed”mydata指的是1和2生成的PED和MAP文件名，不需要写.ped和.map后缀
（二）、准备表型文件（Alternate phenotype files）

一般表型文件为txt格式，表型文件有三列，分别为：Family IDIndividual IDPhenotype假如有多种表型，第一列和第二列还是Family ID、Individual ID，第三列及以后的每列都是表型，例如以下：Family IDIndividual IDPhenotype APhenotype BPhenotype CPhenotype DPhenotype E……
（三）、准备协变量文件（Covariate files）

协变量文件同表型文件类似，第一列和第二列是Family ID、Individual ID，第三列及以后的每列都是协变量Family IDIndividual IDCovariate ACovariate BCovariate CCovariate DCovariate E……
（四）、plink进行表型和基因型以及协变量的关联分析

命令如下：plink --bfile mydata --linear --pheno pheno.txt --mpheno 1 --covar covar.txt --covar-number 1,2,3 --out mydata –noweb生成的文件为mydata.assoc.linear注：“mydata”mydata文件不需要后缀，“--mpheno 1”指的是表型文件的第三列（即第一个表型）“--covar-number 1,2,3”指的是协变量文件的第三列、第四列、第五列（即第一个、第二个、第三个协变量）“--linear”指的是用的连续型线性回归，如果表型为二项式（即0、1）类型，则用“--logistic”
（五）、画曼哈顿图(GWAS)图

安装R语言的CpGassoc包，其中的manhattan()，即可画曼哈顿图
（六）、画QQ plot图

R语言中的 qqnorm() 和 qqplot() 包提供了QQ plot的画法，具体自行搜索用法；

4. GWAS进阶分析

群体分层分析，Population Stratification

如果研究的群体是混合群体，遗传异质性高，存在群体分层现象，易造成实验的误差或者检测出假阳性位点。因此检测群体分层对效应值的影响是非常必要的。
不同群体重复验证分析，Replication
Regional association plots

用LocusZoom(http://csg.sph.umich.edu/locuszoom/)画出来的
相似条件分析，Approximate conditional analysis

相似条件分析的目的是，去掉lead SNPs后，再跑一次GWAS关联分析，以此找到更多有强关联的信号。
连锁不平衡得分评估表型间遗传相关性，Linkage-disequilibrium score regression

遗传相关性 genetic correlation，这是指在杂种群体表型间的相关性中，由基因型所产生的相关性。遗传相关是仅由遗传原因引起的相关。
基因富集分析，Gene setenrichment analysis

从文献，GTEX、 GEUVADIS等据数据找到与 Lead SNPs 关系很大的基因、变异等，以及与 Lead SNPs 连锁不平衡分析r2大于0.8的SNP，则这些SNP的基因可以作为候选基因。汇总了所有的候选基因后，在GOTERM、KEGG、Panther等数据库分析这些候选基因的富集分析。
层次聚类分析，Hierarchicalclustering

层次聚类分析的作用是更进一步看出研究的表型相关的 lead SNPs与其他表型的相关性；
蛋白质-蛋白质互作网络分析，Protein–proteininteraction network analyses

蛋白质互作网络的目的是看哪些蛋白共同调控了表型
Point ofcontact analyses

Point of contact analyses的作用是哪些位点导致了表型间有相关性

参考文献：
Horikoshi, Momoko, et al. "Genome-wide associations for birth weight and correlations with adult disease." Nature 538.7624 (2016): 248.
Okbay A, Beauchamp J P, Fontana M A, et al. Genome-wide association study identifies 74 loci associated with educational attainment[J]. Nature, 2016, 533(7604): 539.

GWAS分析基本流程及分析思路的更多相关文章

Ecshop的购物流程代码分析详细说明
Ecshop的购物流程代码分析详细说明 (2012-07-30 10:41:12) 转载▼ 标签: 购物车结算中心商品价格 ecshop ecshop购物流程杂谈分类: ECSHOP研究院同 ...
Raid1源代码分析--写流程
正确写流程的总体步骤是,raid1接收上层的写bio,申请一个r1_bio结构,将其中的所有bios[]指向该bio.假设盘阵中有N块盘.然后克隆N份上层的bio结构,并分别将每个bios[]指向克隆 ...
通过官方API结合源码，如何分析程序流程
通过官方API结合源码,如何分析程序流程通过官方API找到我们关注的API的某个方法,然后把整个流程执行起来,然后在idea中,把我们关注的方法打上断点,然后通过Step Out,从内向外一层一层分析 ...
Openfire注册流程代码分析
Openfire注册流程代码分析一.客户端/服务端注册用户流程经过主机连接消息确认后,客户端共发送俩条XML完成注册过程.服务器返回两条XML. 注:IQ消息节点用于处理用户的注册.好友.分组.获 ...
Linux Kernel文件系统写I/O流程代码分析（二）bdi_writeback
Linux Kernel文件系统写I/O流程代码分析(二)bdi_writeback 上一篇# Linux Kernel文件系统写I/O流程代码分析(一),我们看到Buffered IO,写操作写入到 ...
Linux Kernel文件系统写I/O流程代码分析（一）
Linux Kernel文件系统写I/O流程代码分析(一) 在Linux VFS机制简析(二)这篇博客上介绍了struct address_space_operations里底层文件系统需要实现的操作 ...
Flink 源码解析 —— Standalone Session Cluster 启动流程深度分析之 Job Manager 启动
Job Manager 启动 https://t.zsxq.com/AurR3rN 博客 1.Flink 从0到1学习 -- Apache Flink 介绍 2.Flink 从0到1学习 -- Mac ...
Flink 源码解析 —— Standalone Session Cluster 启动流程深度分析之 Task Manager 启动
Task Manager 启动 https://t.zsxq.com/qjEUFau 博客 1.Flink 从0到1学习 -- Apache Flink 介绍 2.Flink 从0到1学习 -- Ma ...
Okhttp3源码解析(3)-Call分析(整体流程)
### 前言前面我们讲了 [Okhttp的基本用法](https://www.jianshu.com/p/8e404d9c160f) [Okhttp3源码解析(1)-OkHttpClient分析]( ...

随机推荐

DVWA 黑客攻防演练（九） SQL 盲注 SQL Injection (Blind)
上一篇文章谈及了 dvwa 中的SQL注入攻击,而这篇和上一篇内容很像,都是关于SQL注入攻击.和上一篇相比,上一篇的注入成功就马上得到所有用户的信息,这部分页面上不会返回一些很明显的信息供你调试,就 ...
ASP.NET Core 入门教程 10、ASP.NET Core 日志记录(NLog)入门
一.前言 1.本教程主要内容 ASP.NET Core + 内置日志组件记录控制台日志 ASP.NET Core + NLog 按天记录本地日志 ASP.NET Core + NLog 将日志按自定义 ...
net view 提示6118错误解决方法。
1.win+R ,输入services.msc 开启服务:Server ,WorkStation,computer Browser 2.如果你的电脑没有computer Browser服务,win+R ...
RHEL 6.6下Python 2.6.6升级到Python 3.6.6
最近一段时间shell脚本写得很溜,很有成就感,一想到被自己落下的Python就感到十分心虚.开始坚持学习Python!先将自己的测试机器的Python升级到Python 3.6.6.简单整理.记 ...
python爬虫【实战篇】模拟登录人人网
requests 提供了一个叫做session类,来实现客户端和服务端的会话保持使用方法 1.实例化一个session对象 2.让session发送get或者post请求 session = req ...
Spring Security（二十九）：9.4.1 ExceptionTranslationFilter
ExceptionTranslationFilter is a Spring Security filter that has responsibility for detecting any Spr ...
leetcode 203. Remove Linked List Elements 、83. Remove Duplicates from Sorted List 、82. Remove Duplicates from Sorted List II(剑指offer57 删除链表中重复的结点)
203题是在链表中删除一个固定的值,83题是在链表中删除重复的数值,但要保留一个:82也是删除重复的数值,但重复的都删除,不保留. 比如[1.2.2.3],83题要求的结果是[1.2.3],82题要求 ...
springboot在eclipse中运行使用开发配置，打包后运行使用生产环境默认配置
java命令运行springboot jar文件,指定配置文件可使用如下两个参数中其中一个 --spring.config.location=配置文件路径 -Dspring.profiles.acti ...
【Topcoder 10689】TheSoccerDivOne
题意:给\(n\)个队伍的积分,它们要踢足球,每个队伍剩下4场没有踢. 问踢完后\(0\)队伍最高排名. 思路:首先想了贪心,可惜不对. 那么老实dp. 首先:每个队伍具体和哪个人踢了没有关系. 那么 ...
一本通 1223：An Easy Problem
\[传送门qwq\] [题目描述] 给定一个正整数N,求最小的.比N大的正整数M,使得M与N的二进制表示中有相同数目的1. 举个例子,假如给定的N为78,其二进制表示为1001110,包含4个1,那么 ...

GWAS分析基本流程及分析思路

GWAS分析基本流程及分析思路的更多相关文章

随机推荐

热门专题