HIC simple process
1,什么是Hic数据?
Hi-C是研究染色质三维结构的一种方法。Hi-C技术源于染色体构象捕获(Chromosome Conformation Capture, 3C)技术,利用高通量测序技术,结合生物信息分析方法,研究全基因组范围内整个染色质DNA在空间位置上的关系,获得高分辨率的染色质三维结构信息。
2,Hic数据的优势
- 通过Scaffold间的交互频率大小,可以对已组装的基因组序列进行纠错。
- 基因信息不再仅仅是contig片段,而是被划分至染色体上,成为染色体水平。
- 无需辛苦的构建群体,单一一个体就能实现染色体定位。
- 相比遗传图谱,标记密度更大,序列定位更完整。
- 可以开展染色体重排等结构变异研究。
- QTL、GWAS可以定位区间到某个染色体。
- 可以解析该物种的三维基因结构、染色体互作及动态变化。
3,目前的处理流程

4,分析主要工具
目前针对Hi-c数据处理的工具主要是Hic-pro和juicer
#####HIC图谱,TAD结构,loop结构,3D-建模
####HiC-Pro installlation####
wget -c http://github.com/nservant/HiC-Pro/archive/refs/tags/v3.1.0.tar.gz
tar -zxvf HiC-Pro-3.1.0.tar.gz
conda env create -f /data5/tan/zengchuanj/Software/HiC-Pro-3.1.0/environment.yml -p /data5/tan/zengchuanj/conda/conda/envs/HiC-Pro
conda activate HiC-Pro
#configure.install.txt:
PREFIX = /data5/tan/zengchuanj/Software/HiC-Pro-3.1.0
BOWTIE2_PATH = /data5/tan/zengchuanj/conda/conda/envs/HiC-Pro/bin/bowtie2
SAMTOOLS_PATH = /data5/tan/zengchuanj/conda/conda/envs/HiC-Pro/bin/samtools
R_PATH = /data5/tan/zengchuanj/conda/conda/envs/HiC-Pro/bin/R
PYTHON_PATH = /data5/tan/zengchuanj/conda/conda/envs/HiC-Pro/bin/python
CLUSTER_SYS = TORQUE
make configure
make install
ref_dir = /data5/tan/zengchuanj/pipeline/Annotation/HIC/GRCm39.genome.fa.gz
gunzip GRCm39.genome.fa.gz
#build index
pwd:/data5/tan/zengchuanj/pipeline/Annotation/HIC
bowtie2-build GRCm39.genome.fa mouse
samtools faidx GRCm39.genome.fa
#基因组中序列大小文件
awk '{print $1 "\t" $2}' GRCm39.genome.fa.fai > mouse.genome.sizes
#创建酶切位点文件
bin=/data5/tan/zengchuanj/Software/HiC-Pro-3.1.0/bin/utils/digest_genome.py
#python $bin GRCm39.genome.fa -r mobi -o mouse_mobi.bed
python $bin GRCm39.genome.fa -r ^GATCGATC -o mouse_mobi.bed
#config-hicpro.txt:
N_CPU,CPU数目;
BOWTIE2_IDX_PATH,索引所在目录
REFERENCE_GENOME,比对参考基因组路径及前缀
GENOME_SIZE,chrom.sizes文件的路径
GENOME_FRAGMENT,酶切片段的bed文件的路径
LIGATION_SITE,酶切位点末端补平再次连接后形成的嵌合序列,例如HindIII,则为AAGCTAGCTT;如果是MboI则序列为GATCGATC;
## SYSTEM AND SCHEDULER - Start Editing Here !!
N_CPU = 50 #CPU线程数
LOGFILE = hicpro.log #log文件名
JOB_NAME = hicpro #任务名
JOB_MEM = 100gb #占用内存
JOB_WALLTIME =
JOB_QUEUE =
JOB_MAIL =
PAIR1_EXT = _R1
PAIR2_EXT = _R2
BOWTIE2_IDX_PATH = /data5/tan/lishix/jys/test/results/reads #比对的reads文件目录
BOWTIE2_GLOBAL_OPTIONS = --very-sensitive -L 30 --score-min L,-0.6,-0.2 --end-to-end --reorder
BOWTIE2_LOCAL_OPTIONS = --very-sensitive -L 20 --score-min L,-0.6,-0.2 --end-to-end --reorder
GENOME_SIZE = /data5/tan/zengchuanj/pipeline/Annotation/HIC/mouse.genome.sizes #genome.sizes的绝对路径
## Digestion Hi-C
GENOME_FRAGMENT = /data5/tan/zengchuanj/pipeline/HIC/mouse_mobi.bed #绝对路径
LIGATION_SITE = GATCGATC #限制性内切酶,具体用的什么酶可以咨询测序公司,我这里用的Mboi
MIN_FRAG_SIZE = 100
MAX_FRAG_SIZE = 100000
MIN_INSERT_SIZE = 100
MAX_INSERT_SIZE = 1000
## Contact Maps
BIN_SIZE = 20000 40000 150000 500000 1000000 #根据自身需求设置 bin size
MATRIX_FORMAT = upper
/data5/tan/zengchuanj/Software/HiC-Pro-3.1.0/bin/HiC-Pro -c /data5/tan/zengchuanj/pipeline/HIC/HiC-Pro/config-hicpro.txt -i /data5/tan/zengchuanj/pipeline/HIC/HiC-Pro/fastq -o /data5/tan/zengchuanj/pipeline/HIC/HiC-Pro/results
#目录构成:
fastq/sample:
sample_R1.fastq.gz
sample_R2.fastq.gz
#####juicer installation####
conda create -n juicer -c bioconda bwa -y
conda activate jucier
mkdir work && mkdir references && mkdir restriction_sites
Juicer/juicer/references # 存放参考基因组相关文件的文件夹
Juicer/juicer/work # 存放样本的序列文件,和分析结果的文件夹
Juicer/juicer/restriction_sites # 存放参考基因组酶切图谱的文件夹
wget https://github.com/aidenlab/juicer/archive/refs/tags/1.6.tar.gz
tar -xzvf juicer-1.6.tar.gz
ln -s juicer/CPU scripts
# scripts 应该在juicer目录下
cd juicer/scripts/common
wget -c https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
ln -s juicer_tools.1.9.9_jcuda.0.8.jar juicer_tools.jar
#构建基因组索引
pwd:/data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer/references
bwa index GRCm39.genome.fa
#生成酶切图谱文件
python /data5/tan/zengchuanj/Software/juicer/misc/generate_site_positions.py Mboi genome /data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer/references/GRCm39.genome.fa
#生成染色体长度文件
# genome_DpnII.txt 文件由上一步生成
awk 'BEGIN{OFS="\t"}{print $1, $NF}' genome_Mboi.txt > genome.chrom.sizes
cd ./references
python /data5/tan/zengchaunj/pipeline/HIC/Juicer/misc/generate_site_positions.py Mboi mm9 mm9.fasta
# 三个参数分别为 内切酶名称,参考基因组名称,参考基因组序列文件的路径
nohup bash scripts/juicer.sh -d /data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer/test -D /data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer -y /data5/tan/lishix/HIC/opt/juicer/restriction_sites/mm39_MboI.txt -z /data5/tan/lishix/HIC/opt/juicer/references/Mus_musculus.GRCm39.dna.toplevel.fa -p restriction_sites/genome.chrom.sizes -s MboI -t 10 2> test.txt &
Usage:
# nohup 命令会将程序挂在后台运行
nohup bash /data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer/scripts/juicer.sh \
-z /data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer/references/GRCm39.genome.fa \
-p /data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer/restriction_sites/genome.chrom.sizes \
-y /data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer/restriction_sites/GRCm39.genome_MboI.txt \
-s MboI \
-d /data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer/work/ \
-D /data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer \
-t 40 > log.txt &
# -z参数指定参考基因组fasta所在路径,在该路径下必须同时存在对应的bwa索引
# -p参数指定染色体长度文件;
# -y指定基因组酶切图谱的路径;
# -d指定样本原始文件存放的路径;
# -D指定软件的安装路径,
# -t指定bwa比对使用的线程数,默认是使用全部线程。
#HIC图谱绘制
data_dir = /data5/tan/lishix/jys/test/results/
species = mouse
酶:mboi
#使用HiCPlotter.py对HiC-Pro结果进行可视化
python2.7 HiCPlotter.py -o genome \
-f genome_500000_iced.matrix \
-r 500000 -tri 1 \
-bed genome_500000_abs.bed \
-n genome \
-wg 1 -chr chromosome7
-o 输出的文件名
-f _500000_iced.matrix产生的矩阵文件
-r 矩阵的分辨率
-bed _500000_abs.bed产生的bed文件
-n 输出图片最上方的名字
-chr 最后一号染色体的名字 可使用"tail -n 1 *.bed"命令查看
#使用juicer call tad
ref:https://github.com/aidenlab/juicer/wiki/Arrowhead
/data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer/scripts/common/juicer_tools arrowhead --ignore_sparsity /data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer/work/aligned/inter.hic ./contact_domains_list/
##使用juicer call loop
nohup java -jar /data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer/scripts/common/juicer_tools.jar hiccups --cpu --threads 19 -r 5000,10000 --ignore_sparsity /data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer/work/aligned/inter.hic inter.hic.hiccups > loop.txt &
nohup java -jar /data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer/scripts/common/juicer_tools.jar hiccups --gpu --threads 19 -r 2500,5000,7500,10000,12500,15000,17500,20000,22500 --ignore_sparsity /data5/tan/zengchuanj/pipeline/HIC/Juicer/juicer/work/aligned/inter.hic inter.hic.hiccups > loop.txt &
HIC simple process的更多相关文章
- [转]Design Pattern Interview Questions - Part 4
Bridge Pattern, Composite Pattern, Decorator Pattern, Facade Pattern, COR Pattern, Proxy Pattern, te ...
- docker-compose编写(英文)
原文地址:https://docker.github.io/compose/compose-file/ Compose file reference The Compose file is a YAM ...
- 转一篇关于如何在Unity里使用Protobuf
原帖地址: http://purdyjotut.blogspot.com/2013/10/using-protobuf-in-unity3d.html 先转过来,等时间合适了,再来收拾 Using P ...
- How to set up an FTP server on Ubuntu 14.04
How to set up an FTP server on Ubuntu 14.04 Setting up a fully-functional and highly secure FTP serv ...
- [家里蹲大学数学杂志]第049期2011年广州偏微分方程暑期班试题---随机PDE-可压NS-几何
随机偏微分方程 Throughout this section, let $(\Omega, \calF, \calF_t,\ P)$ be a complete filtered probabili ...
- Website Speed Optimization Guide for Google PageSpeed Rules
原链接地址:http://www.artzstudio.com/2016/07/website-speed-optimization-guide-for-google-pagespeed-rules/ ...
- iOS 学习笔记 二 (2015.02.26)
How To Use Git Source Control with Xcode in iOS 6 If you're new here, you may want to subscribe to m ...
- LepideMigrator for Documents Step by Step
blog: http://blog.csdn.net/foxdave A Manager Marketing Operations invite me to review their product, ...
- UNDERSTANDING POSTGRESQL.CONF: CHECKPOINT_SEGMENTS, CHECKPOINT_TIMEOUT, CHECKPOINT_WARNING
While there are some docs on it, I decided to write about it, in perhaps more accessible language – ...
- LINUX常用配置及命令
一. Fedora系统配置 1. [设置网卡IP] 步骤如下: 1) 用root用户登陆,打开/etc/sysconfig/network-scripts/ifcfg-eth0文 ...
随机推荐
- 7.30考试总结(NOIP模拟28)[遗忘之祭仪·客星璀璨之夜·割海成路之日]
一个人有表里两面,你能看到的,仅仅是其中一面而已. 前言 看着这套题非常不可做,但是经历的所有的模拟赛中,这次还是第一次切题(惭愧) 本来 T1 我 1h 就码完了,交了一遍 TLE90 然后后来两个 ...
- itest(爱测试) 4.5.2 发布,开源BUG 跟踪管理 & 敏捷测试管理软件
itest 简介 itest 开源敏捷测试管理,testOps 践行者,极简的任务管理,测试管理,缺陷管理,测试环境管理4合1,又有丰富的统计分析.可按测试包分配测试用例执行,也可建测试迭代(含任务, ...
- C语言常用数学函数
目录 C语言常用数学函数(头文件#include "math.h") abs()函数 labs()函数 fabs()函数 floor()函数 floorf() floorl() c ...
- css3颜色模式 圆角的实现 width的属性值 触发怪异盒模型
Css颜色模式: rgb(255,0,0) rgba(255,0,0,0.5)(0.5是透明度) hsl(58%,56%)色彩饱和度 hala() border-image url(路径) 向内偏 ...
- CF1900D - Small GCD 题解
1900D - Small GCD 给定序列 \(A\),定义 \(f(a, b, c)\) 为 \(a, b, c\) 中最小的次小的数的 \(\gcd\),求: \[\sum_{i = 1}^n ...
- kettle从入门到精通 第三十八课 kettle 分页全量同步(数据量大)
1.上一课我们学习了在数据量小的情况下的全量同步示例,本次我们一起学习下kettle 分页全量同步. 2.kettle分页全量同步示例依然基于test数据库,从t1表全量同步数据到t2表,由于t1表的 ...
- Windows下cmd命令行sftp上传至Linux服务器
1.Windows+R进入运行 2.输入cmd,进入命令行 3.命令建立连接 sftp 用户名@ip地址 例如: 输入密码,即可建立连接 上传方式: 1)直接拖动文件到命令行窗口,可以直接显示该文件的 ...
- gitlab私有仓库搭建
1.Gitlab介绍 我们了解了git是以个人为中心,但是人人都得数据交互呀..python程序员每天都忙着进行py交易 交互数据的方式 使用github或者码云等公有代码仓库,托管代码的地方,谁都可 ...
- vue安装及升级
先装好note.js 安装过程很简单,一直点下一步就ok了.1.1我们通过打开命令行工具(win+R),输入node -v查看node的版本,若出现相应的版本号说明你安装成功了 1.2.npm包管理器 ...
- 牛客网在线编程-语法篇-基础语法——C 语言解题集
前言 牛客网在线编程-语法篇-基础语法--C 语言解题集. 点击下方超链接跳转至对应编程题目,文章包含解析及源码. 01-基础语法 简单输出 BC1-Hello Nowcoder BC2-小飞机 基本 ...