3D-DNA 挂载染色体
3D-DNA是一款简单,方便的处理Hi-C软件,可将contig提升到染色体水平。其githup网址:https://github.com/theaidenlab/3d-dna
3D-DNA流程简介
- 将Hi-C数据比对到draft.genome.fa。(利用Juicer分析Hi-C数据)
- 利用自动化流程进行纠错(misjoin),排序(order),确定正确方向(orient),最后scaffolding,得到染色体水平的组装结果(3D-DNA分析)
- Juicebox 进行人工纠错
所需软件及安装
LastZ (version 1.03.73 released 20150708)
– for diploid mode only- Java version >=1.8
Bash >=4
GNU Awk >=4.0.2
GNU coreutils sort >=8.11
Python >=2.7
- for chromosome number-aware splitter module onlyscipy numpy matplotlib
- for chromosome number-aware splitter module only- GUN Parallel >=20150322 (可选,建议装)
- bwa
- 两个核心软件 juicer 和3D-DNA
安装软件
1 ## 安装juice
2 git clone https://github.com/theaidenlab/juicer.git
3 cd juicer
4 ln -s CPU scripts
5 cd scripts/common
6 wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
7 ln -s juicer_tools.1.9.9_jcuda.0.8.jar juicer_tools.jar
8
9 ## 安装3D-DNA
10 git clone https://github.com/theaidenlab/3d-dna.git
大概流程
数据准备:
- ref文件夹: 存放draft.genome.fa
- fastq: 存放HI-C测序双端reads, 注意reads文件名的格式 保证*.R1.fastq, *.R2.fastq
++++++++++++++++++++++++正式开始+++++++++++++++++++++++++++++
一、 利用Juicer 分析HI-C数据
第一步:基因组建立索引
bwa index draft.genome.fa
第二步: 创建可能的酶切位点文件
1 python ~/software/juicer/misc/generate_site_positions.py HindIII draft.genome draft.genome.fa
2
3 # 本次使用的是 HindIII 进行酶切;选择自己所有的酶
第三步:获取每条contig的长度
1 awk 'BEGIN{OFS="\t"}{print $1, $NF}' draft.genome_HindIII.txt > draft.genome.chrom.sizes
第四步:运行juicer
注意:必须在当前目录存在fastq和ref文件夹, -z,-p,-y必须参数
1 ~/software/juicer/scripts/juicer.sh -g draft_genome -s HindIII -z ./ref/draft.genome.fa -y ./ref/draft.genome_HindIII.txt -p ./ref/draft.genome.chrom.sizes -t 8
2
3
4
5 ## 参数
6 -g: 定义一个物种名
7 -s:酶切类型, HindIII(AAGCTAGCTT), MboI(GATCGATC) , DpnII(GATCGATC), NcoI(CCATGCATGG)
8 -z : 参考基因组文件
9 -y: 限制性酶切位点可能出现位置文件
10 -p: 染色体大小文件
11 -C: 将原来的文件进行拆分,必须是4的倍数,默认是90000000, 即22.5M reads
12 -S: 和任务重运行有关,从中途的某一步开始,"merge", "dedup", "final", "postproc" 或 "early"
13 -d: juicer的目录
14 -D: juicer scripts的目录
15 -t: 线程数
结果:结果文件在aligned目录下,其中"merged_nodups.txt"就是下一步3D-DNA的输入文件之一。
二、 运行3D-DNA
使用默认参数进行3D-DNA
1 ~/software/3d-dna/run-asm-pipeline.sh ./ref/draft.genome.fa ./aligned/merged_nodups.txt
最后输出文件中,包含FINAL就是我们需要的结果。
三、 juicerbox进行手动纠错
首先下载该软件:https://github.com/aidenlab/Juicebox/wiki/Download
一般组装错误为:
- misjoin
- translocations
- inversions
- chromosome boundaries
关于该软件用法,可看该视频:https://www.bilibili.com/video/av65134634
纠错完以后,会得到genome.review.assembly用于下一步的分析
四、 再次运行3D-DNA
1 ~/software/3d-dna/run-asm-pipeline-post-review.sh -r genome.review.assembly ./ref/draft.genome.fa aligned/merged_nodups.txt
欢迎大家讨论交流,若有问题,可添加一下公众号,后台留言即可
---END---
3D-DNA 挂载染色体的更多相关文章
- ChemDraw绘制DNA结构的技巧
对生物有一定了解的朋友都知道DNA是染色体的重要组成部分,DNA结构中包含重要的遗传物质,孩子的DNA来自父母DNA的组合,这就是为什么“一家人相像”的奥秘所在.ChemDraw虽然号称是化学结构绘制 ...
- Unnatural
1. 纪录片:非自然选择 1.1 CRISPR-Cas9的出现 1.2 故事1:先天性基因缺陷而失明的小孩 1.3 故事2:基因变异的蚊子 1.4 基因技术应用的现状 1.5 担忧 2. CRISPR ...
- OMIM 表型和基因如何关联
OMIM数据库:大神私藏的数据库,99.9%的人都不知道! 2019-03-04 11:00乳腺癌/医生/肺癌 “ GEO.NCDB.TCGA.SEER数据库这些我都知道,但OMIM是什么鬼? OMI ...
- 肠道微生物研究进展 | Microbiology | Human Gut Microbiome | human gut microbiota
之前我有过一篇16s基本概念和数据分析的文章.16S 基础知识.分析工具和分析流程详解 可以分成两部分,生物层面和技术层面. 生物层面: 1. 肠道微生物里面包含了哪些微生物?显然包含了所有层面的微生 ...
- MIT Molecular Biology 笔记1 DNA的复制,染色体组装
视频 https://www.bilibili.com/video/av7973580?from=search&seid=16993146754254492690 教材 Molecular ...
- DNA分子结构3D模型
生物信息资源更新越来越快,使用可视化的方法来分析DNA序列已成为生物信息学的一个研究热点,用图形表示DNA序列的方法也越来越成熟.2011年,著名杂志<Science>发表一篇引起轰动的文 ...
- 【基因组组装】HiC挂载Juicebox纠错补充
目录 1. 主要纠错类型 misjoins translocations inversions chromosome boundaries 2. 其他有用操作 撤销与反撤销 移到边角料 1. 主要纠错 ...
- 如何在ASP.Net创建各种3D图表
我们都知道,图表在ASP.NET技术中是一种特别受欢迎而又很重要的工具.图表是表示数据的图形,一般含有X和Y两个坐标轴.我们可以用折线,柱状,块状来表示数据.通过图表控件,我们即能表示数据又能比较各种 ...
- cfDNA(circulating cell free DNA)全基因组测序
参考资料: [cfDNA专题]cell-free DNA在非肿瘤疾病中的临床价值(好) ctDNA, cfDNA和CTCs有什么区别吗? cfDNA你懂多少? 新发现 | 基因是否表达,做个cfDNA ...
随机推荐
- String直接赋字符串和new String的区别
String A="ABC"; String B=new String("ABC"); String A = "ABC";内存会去查找常量池 ...
- RabbitMQ设计原理解析
背景 RabbitMQ现在用的也比较多,但是没有过去那么多啦.现在很多的流行或者常用技术或者思路都是从过去的思路中演变而来的.了解一些过去的技术,对有些人来说可能会产生众里寻他千百度的顿悟,加深对技术 ...
- [对对子队]会议记录5.25(Scrum Meeting11)
今天已完成的工作 吴桐雨 工作内容:设计第10.11关 相关issue:设计额外关卡 相关签入:level10 level11 吴昭邦 工作内容:写测试代码 相关issue:测试初 ...
- Noip模拟19(炸裂的开始) 2021.7.18
T1 u 差分与前缀的综合练习. 分析数据范围,只能是在修改的时候$O(1)$做到,那么只能是像打标记一样处理那个三角形 正解是建立两个二位前缀和,一个控制竖向,一个控制斜向 每次在三角的左上,右下, ...
- STM32采集AD的输入阻抗问题
在做一款消费电子产品时,需要采集电池电压(3.3V-4.2V),同时在休眠的时候希望尽量减小待机电流.电池电压采集电路采用两个1%的300K电阻进行分压,由该电路引起的待机电路为4.2/(300+30 ...
- 排序算法:Java实现希尔排序
希尔排序的思路是先分组再整合 先对下标进行分组,比如当数组长度为20时,一开始选定一个间隔值为10 对数组进行排序,每隔10个元素比较大小并交换,以下标为间隔,1和11比较.2和12比较......1 ...
- Photoshop cc 绿色版 最新版 下载
Photoshop cc 绿色版 下载 Photoshop cc 绿色版 最新版下载百度网盘下载 Photoshop 下载提取码: dh6z 作为一个程序员, 不懂点基本的作图都不配"新时代 ...
- 最详细的windows10系统封装教程
目录 自定义封装(定制)windows10教程 关于本教程及用到的工具的声明 第一阶段: 封装前的各种环境准备 安装vmware 创建虚拟机 对虚拟机进行分区 配置好BIOS 为虚拟机安装window ...
- 树莓派-openeuler安装
一.安装准备 1.硬件安装 2.下载openeuler镜像 3.sd卡格式化 sd格式化工具 4.镜像校验 二.镜像烧写 选择树莓派官方烧写工具,耐心等待... 三.网络配置 1.寻找树莓派的ip地址 ...
- 密码学基础:AES加密算法
[原创]密码学基础:AES加密算法-密码应用-看雪论坛-安全社区|安全招聘|bbs.pediy.com 目录 基础部分概述: 第一节:AES算法简介 第二节:AES算法相关数学知识 素域简介 扩展域简 ...