3D-DNA 挂载染色体

3D-DNA是一款简单，方便的处理Hi-C软件，可将contig提升到染色体水平。其githup网址：https://github.com/theaidenlab/3d-dna

3D-DNA流程简介

将Hi-C数据比对到draft.genome.fa。（利用Juicer分析Hi-C数据）
利用自动化流程进行纠错（misjoin），排序（order），确定正确方向（orient），最后scaffolding，得到染色体水平的组装结果（3D-DNA分析）
Juicebox 进行人工纠错

所需软件及安装

LastZ (version 1.03.73 released 20150708) – for diploid mode only
Java version >=1.8
Bash >=4
GNU Awk >=4.0.2
GNU coreutils sort >=8.11
Python >=2.7 - for chromosome number-aware splitter module only
scipy numpy matplotlib - for chromosome number-aware splitter module only
GUN Parallel >=20150322 (可选，建议装)
bwa
两个核心软件 juicer 和3D-DNA

安装软件

 1 ## 安装juice

 2 git clone https://github.com/theaidenlab/juicer.git

 3 cd juicer

 4 ln -s CPU scripts

 5 cd scripts/common

 6 wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar

 7 ln -s juicer_tools.1.9.9_jcuda.0.8.jar  juicer_tools.jar

 8

 9 ## 安装3D-DNA

10 git clone https://github.com/theaidenlab/3d-dna.git

大概流程

数据准备：

ref文件夹：存放draft.genome.fa
fastq: 存放HI-C测序双端reads, 注意reads文件名的格式保证*.R1.fastq, *.R2.fastq

++++++++++++++++++++++++正式开始+++++++++++++++++++++++++++++

一、利用Juicer 分析HI-C数据

第一步：基因组建立索引

bwa index draft.genome.fa

第二步：创建可能的酶切位点文件

1 python ~/software/juicer/misc/generate_site_positions.py  HindIII  draft.genome  draft.genome.fa

2

3 # 本次使用的是 HindIII 进行酶切；选择自己所有的酶

第三步：获取每条contig的长度

1 awk 'BEGIN{OFS="\t"}{print $1, $NF}' draft.genome_HindIII.txt > draft.genome.chrom.sizes

第四步：运行juicer

注意：必须在当前目录存在fastq和ref文件夹， -z,-p,-y必须参数

 1 ~/software/juicer/scripts/juicer.sh -g draft_genome -s HindIII -z ./ref/draft.genome.fa -y ./ref/draft.genome_HindIII.txt -p ./ref/draft.genome.chrom.sizes -t 8

 2

 3

 4

 5 ## 参数

 6 -g： 定义一个物种名

 7 -s：酶切类型, HindIII(AAGCTAGCTT), MboI(GATCGATC) , DpnII(GATCGATC), NcoI(CCATGCATGG)

 8 -z : 参考基因组文件

 9 -y: 限制性酶切位点可能出现位置文件

10 -p: 染色体大小文件

11 -C: 将原来的文件进行拆分，必须是4的倍数，默认是90000000, 即22.5M reads

12 -S: 和任务重运行有关，从中途的某一步开始,"merge", "dedup", "final", "postproc" 或 "early"

13 -d: juicer的目录

14 -D: juicer scripts的目录

15 -t: 线程数

结果：结果文件在aligned目录下，其中"merged_nodups.txt"就是下一步3D-DNA的输入文件之一。

二、运行3D-DNA

使用默认参数进行3D-DNA

1 ~/software/3d-dna/run-asm-pipeline.sh ./ref/draft.genome.fa ./aligned/merged_nodups.txt

最后输出文件中，包含FINAL就是我们需要的结果。

三、 juicerbox进行手动纠错

首先下载该软件：https://github.com/aidenlab/Juicebox/wiki/Download

一般组装错误为：

misjoin
translocations
inversions
chromosome boundaries

关于该软件用法，可看该视频：https://www.bilibili.com/video/av65134634

纠错完以后，会得到genome.review.assembly用于下一步的分析

四、再次运行3D-DNA

1 ~/software/3d-dna/run-asm-pipeline-post-review.sh -r genome.review.assembly ./ref/draft.genome.fa aligned/merged_nodups.txt

欢迎大家讨论交流，若有问题，可添加一下公众号，后台留言即可

---END---

3D-DNA 挂载染色体的更多相关文章

ChemDraw绘制DNA结构的技巧
对生物有一定了解的朋友都知道DNA是染色体的重要组成部分,DNA结构中包含重要的遗传物质,孩子的DNA来自父母DNA的组合,这就是为什么“一家人相像”的奥秘所在.ChemDraw虽然号称是化学结构绘制 ...
Unnatural
1. 纪录片:非自然选择 1.1 CRISPR-Cas9的出现 1.2 故事1:先天性基因缺陷而失明的小孩 1.3 故事2:基因变异的蚊子 1.4 基因技术应用的现状 1.5 担忧 2. CRISPR ...
OMIM 表型和基因如何关联
OMIM数据库:大神私藏的数据库,99.9%的人都不知道! 2019-03-04 11:00乳腺癌/医生/肺癌 “ GEO.NCDB.TCGA.SEER数据库这些我都知道,但OMIM是什么鬼? OMI ...
肠道微生物研究进展 | Microbiology | Human Gut Microbiome | human gut microbiota
之前我有过一篇16s基本概念和数据分析的文章.16S 基础知识.分析工具和分析流程详解可以分成两部分,生物层面和技术层面. 生物层面: 1. 肠道微生物里面包含了哪些微生物?显然包含了所有层面的微生 ...
MIT Molecular Biology 笔记1 DNA的复制，染色体组装
视频 https://www.bilibili.com/video/av7973580?from=search&seid=16993146754254492690 教材 Molecular ...
DNA分子结构3D模型
生物信息资源更新越来越快,使用可视化的方法来分析DNA序列已成为生物信息学的一个研究热点,用图形表示DNA序列的方法也越来越成熟.2011年,著名杂志<Science>发表一篇引起轰动的文 ...
【基因组组装】HiC挂载Juicebox纠错补充
目录 1. 主要纠错类型 misjoins translocations inversions chromosome boundaries 2. 其他有用操作撤销与反撤销移到边角料 1. 主要纠错 ...
如何在ASP.Net创建各种3D图表
我们都知道,图表在ASP.NET技术中是一种特别受欢迎而又很重要的工具.图表是表示数据的图形,一般含有X和Y两个坐标轴.我们可以用折线,柱状,块状来表示数据.通过图表控件,我们即能表示数据又能比较各种 ...
cfDNA（circulating cell free DNA）全基因组测序
参考资料: [cfDNA专题]cell-free DNA在非肿瘤疾病中的临床价值(好) ctDNA, cfDNA和CTCs有什么区别吗? cfDNA你懂多少? 新发现 | 基因是否表达,做个cfDNA ...

随机推荐

[对对子队]会议记录4.17(Scrum Meeting8)
今天已完成的工作何瑞工作内容:修复了一些bug,优化了UI 相关issue:搭建关卡1 相关签入:4.17签入1 吴昭邦工作内容:做了一些流水线系统的错误处理,添加了合成失败了之 ...
基于ImportBeanDefinitionRegistrar和FactoryBean动态注入Bean到Spring容器中
基于ImportBeanDefinitionRegistrar和FactoryBean动态注入Bean到Spring容器中一.背景二.实现方案 1.基于@ComponentScan注解实现 2.基 ...
segyio库的使用
最近在使用segyio库读取segy文件的时候默认读取总是出现问题,经过分析发现是我们通常所用的segy格式与本库的默认格式略有不同,修改参数就可以读取: 1) with segyio.open(fi ...
链地址法查找成功与不成功的平均查找长度ASL
晚上,好像是深夜了,突然写到这类题时遇到的疑惑,恰恰这个真题只让计算成功的ASL,但我想学一下不成功的计算,只能自己来解决了,翻了李春葆和严蔚敏的教材没有找到相关链地址法的计算,于是大致翻到两篇不错的 ...
POJ 1442 Air Raid（DAG图的最小路径覆盖）
题意: 有一个城镇,它的所有街道都是单行(即有向)的,并且每条街道都是和两个路口相连.同时已知街道不会形成回路. 可以在任意一个路口放置一个伞兵,这个伞兵会顺着街道走,依次经过若干个路口. 问最少需要 ...
linux 内核源代码情景分析——linux 内存管理的基本框架
386 CPU中的页式存管的基本思路是:通过页面目录和页面表分两个层次实现从线性地址到物理地址的映射.这种映射模式在大多数情况下可以节省页面表所占用的空间.因为大多数进程不会用到整个虚存空间,在虚存空 ...
释放 cached 内存
巡检服务器发现内存可用很少了 top 命令查看是没有占用大内存的进程,cached特别大,释放cached就可以了可用内存= free + buffers + cached 以下方法可以释放cach ...
NCF 中如何将Function升级到FunctionRender
简介历史的车轮在不断的向前推进,NCF也在不断的迭代更新,只为成为更好的NCF 如果你之前没有用过NCF可以跳过这个文档,直接去下载最新的NCF源码进行实践. NCF仓库地址:https://git ...
MongoDB与MySQL效率对比
本文主要通过批量与非批量对比操作的方式介绍MongoDB的bulkWrite()方法的使用.顺带与关系型数据库MySQL进行对比,比较这两种不同类型数据库的效率.如果只是想学习bulkWrite()的 ...
Linux mem 2.5 Buddy 内存回收机制
文章目录 1. 简介 2. LRU 组织 2.1 LRU 链表 2.2 LRU Cache 2.3 LRU 移动操作 2.3.1 page 加入 LRU 2.3.2 其他 LRU 移动操作 3. LR ...