DEPICT实现基因优化（gene prioritization）、gene set富集分析（geneset enrichment）、组织富集分析（tissue enrichment）

橙子牛奶糖 2024-10-31 21:55:02 原文

全基因组关联分析除了找到显著的关联位点，我们还可以做基因优化、geneset富集分析、组织富集分析，下面具体讲一讲怎么利用GWAS的summary数据做这个分析。

summary数据就是关联分析的结果文件

1 软件安装前请确保需要满足的系统环境

1.1 支持Mac OS X 或者 UNIX，不支持windows系统

1.2 Java SE 6（或者更高），没有安装Java请自行安装

1.3 需要PIP

怎么确定系统有没有安装PIP呢，输入命令which pip,如果没有路径弹出，说明没有PIP，需要安装

1.4 需要Python依赖包

pip install intervaltree

或者

conda install -c conda-forge intervaltree

1.5 需要Pandas包（0.15.2或者以上版本）

pip install pandas

1.6 PLINK(1.9 版本)

1.7 python(2.7 版本)

2 下载、安装

wget http://www.broadinstitute.org/mpg/depict/depict_download/bundles/DEPICT_v1_rel194.tar.gz

tar -zxvf DEPICT_v1_rel194.tar.gz

3 测试depict能否运行

cd DEPICT

./src/python/depict.py ./example/ldl_teslovich_nature2010.cfg

如果这一步没有报错，说明环境配置没有问题，可以开始分析自己的数据啦

4 准备一份新的cfg文件

拷贝yourtrait.cfg文件

cp ldl_teslovich_nature2010.cfg yourtrait.cfg

编辑yourtrait.cfg文件

vi yourtrait.cfg

vi进去后，yourtrait.cfg文件有几处需要修改

4.1 修改summary文件，这个summary文件即为你想分析的表型关联分析文件，在这里，假定叫做yourtrait.glm.linear，注意前面要加上绝对路径

gwas_summary_statistics_file: /your/path/to/summary/file/yourtrait.glm.linear

4.2 修改输出文件名，文件名按你喜欢修改，这里依旧假定命名为yourtrait

label_for_output_files: yourtrait

4.3 修改P值名称，如果yourtrait.glm.linear的P值用P表示的话

pvalue_col_name: P

4.4 修改染色体名称，如果yourtrait.glm.linear的染色体用Chr表示的话

chr_col_name: Chr

4.4 修改位置名称，如果yourtrait.glm.linear的位置用Pos表示的话

pos_col_name: Pos

4.5 添加PLINK软件的绝对路径，PLINK在你系统的哪个位置就写上哪里

plink_executable: /your/path/to/plink/plink

4.6 添加plink格式的genotype数据

genotype_data_plink_prefix: /your/path/to/genotype/yourtrait_genotype

修改好以上数据后，保存退出文件:wq

5 跑数据

./src/python/depict.py yourtrait.cfg

6 生成文件

生成的文件分别为loci.txt，geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt,其中，geneprioritization.txt, genesetenrichment.txt , tissueenrichment.txt即为我们感兴趣的基因优化，geneset富集分析，组织富集分析

7 画图

Rscript ./DEPICT/src/python/tissue_plot.R ./DEPICT/example/ldl_teslovich_nature2010_tissueenrichment.txt ldl_teslovich

DEPICT实现基因优化（gene prioritization）、gene set富集分析（geneset enrichment）、组织富集分析（tissue enrichment）的更多相关文章

简述项目中优化sql的方法,从哪些方面,sql语句性能如何分析?
查询速度慢的原因很多,常见如下几种 : .没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷) .I/O吞吐量小,形成了瓶颈效应. .没有创建计算列导致查询不优化. .内存不足 .网络 ...
Android布局优化之ViewStub、include、merge使用与源码分析
在开发中UI布局是我们都会遇到的问题,随着UI越来越多,布局的重复性.复杂度也会随之增长.Android官方给了几个优化的方法,但是网络上的资料基本上都是对官方资料的翻译,这些资料都特别的简单,经常会 ...
全基因组关联分析学习资料（GWAS tutorial）
前言很多人问我有没有关于全基因组关联分析(GWAS)原理的书籍或者文章推荐. 其实我个人觉得,做这个分析,先从跑流程开始,再去看原理. 为什么这么说呢,因为对于初学者来说,跑流程就像一个大黑洞,学习 ...
variant变异 | Epigenome表观基因组 | Disease-susceptible gene 疾病易感基因
paper:cepip: context-dependent epigenomic weighting for prioritization of regulatory variants and di ...
GSEA - Gene set enrichment analysis 基因集富集 | ORA - Over-Representation Analysis 分析原理与应用
RNA-seq是利器,大部分做实验的老板手下都有大量转录组数据,所以RNA-seq的分析需求应该是很大的(大部分的生信从业人员应该都差不多要沾边吧). 普通的转录组套路并不多,差异表达基因.富集分析. ...
gene Ontology （基因本体论）
gene ontology为了查找某个研究领域的相关信息,生物学家往往要花费大量的时间,更糟糕的是,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样,这让信息查找更加麻烦,尤其是使得机器查找 ...
Isotig & cDNA & gene structure & alternative splicing & gene loci & 表达谱
参考:高通量测序相关名词 Isotig 指在转录组de novo测序时,用454平台测序完成后组装出的结果,一个isotig可视为一个转录本. Isogroup 指转录组de novo测序中,用454 ...
无生物学重复RNA-seq分析 CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biological replicates
无生物学重复RNA-seq分析 CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biologic ...
动态规划(DP)，Human Gene Functions
题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=1027 http://poj.org/problem?id=108 ...

随机推荐

今天看了《SOFT SKILLS The Software Developer's Life Manual》有感
从第四篇生产力开始看的,书中提到了专注,待续
MySQL/MariaDB数据库的各种日志管理
MySQL/MariaDB数据库的各种日志管理作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.事务日志 (transaction log) 1>.Innodb事务日志相 ...
Kotlin中Range与异常体系剖析
好用的集合扩展方法: 下面来看一下对于集合中好用的一些扩展方法,直接上代码: 如果我们想取出集合中的第一个值和最后一个值,用Java方式是get(0)和get(size-1),但是在Kotlin中提供 ...
Incorrect integer value: '' for column 'id' at row 1 错误解决办法
最近一个项目,在本地php环境里一切正常,ftp上传到虚拟空间后,当执行更新操作(我的目的是为了设置id为空)set id=‘’时提示: Incorrect integer value: '' for ...
test20190904 JKlover
100+100+100=300.最后十分钟极限翻盘. 树链剖分给一棵以1为根的有根树,开始只有1有标记. 每次操作可以给某个点打上标记,或者询问从某个点开始向上跳,遇到的第一个有标记的点. 对于 1 ...
Tortoise Git 安装及报错处理
TortoiseGit安装详解: https://www.cnblogs.com/xinlj/p/5978730.html Tortoise Git 错误处理 disconnected no supp ...
python 格式化输出%s %f %d
格式说明由%和格式字符组成,如%f,它的作用是将数据按照指定的格式输出.格式说明是由“%”字符开始的. 1.整型输出%d print 'my age is %d'% (26) 说明:%d相当于是一个占 ...
（2）ESP8266 矩阵的逆求解
#include "math.h" int N=4; int M=4; float a[4][4]={ {1,0,0,0}, {1,0.5,0,0}, {1,0,1,0}, {1, ...
Learning Vector Quantization
学习矢量量化. k近邻的缺点是你需要维持整个数据集的训练. 学习矢量量化算法(简称LVQ)是一种人工神经网络算法,它允许你选择要挂在多少个训练实例上,并精确地了解这些实例应该是什么样子. LVQ的表示 ...
OI歌曲汇总
在学习的间隙,我们广大的OIer创作了许多广为人知的歌曲这里来个总结 (持续更新ing......) Lemon OI 葛平 Lemon OI chen_zhe Lemon OI kkksc03 膜 ...