FASTQ 数据质量统计工具
主流工具:
拿到测序数据的第一步就是做质量控制
fqcheck之后得到的结果:
它会统计每条reads,按read 1-100位点计算每个位置的ACGTN含量,以及0-41质量值的个数
最终会得到整体的错误率,GC,Q20,Q30
the default quality shift value is: -64, 27877224 sequences, 2787722400 total length, Max length:100, average length:100.00
Standard deviations at 0.25: total 0.00%, per base 0.01%
···
Error Rate %GC Q20 Q30
0.61 48.35 96.26 89.88
adapter.list
#reads_id reads_len reads_start reads_end adapter_id adapter_len adapter_start adapter_end align_len mismatch
FCD0JN9ACXX:6:1101:13637:2052#AGAGATCT/1 100 57 90 iPE-3+ 34 0 33 34 13
FCD0JN9ACXX:6:1101:15321:2200#AGAGATCT/1 100 53 86 iPE-3+ 34 0 33 34 0
FCD0JN9ACXX:6:1101:5318:2346#AGAGATCT/1 100 60 93 iPE-3+ 34 0 33 34 0
FCD0JN9ACXX:6:1101:5745:2411#AGAGATCT/1 100 64 97 iPE-3+ 34 0 33 34 0
FCD0JN9ACXX:6:1101:13286:2320#AGAGATCT/1 100 89 99 iPE-3+ 34 0 10 11 2
FCD0JN9ACXX:6:1101:15982:2390#AGAGATCT/1 100 80 99 iPE-3+ 34 0 19 20 0
接头序列,一般都要去掉
Illumina Adapter Sequences Document (1000000002694 v01)
过滤
使用SOAPnuke
SOAPnuke filter -l 20 -q 0.5 -n 0.1 -d -i -Q 1 -5 0 -1 1.fq.gz -2 2.fq.gz -f 1.adapter.list.gz -r 2.adapter.list.gz $tile -o 16_1.fq -D 16_2.fq -c 21
过滤后的reads同样要做质量统计
fqcheck -r 16_1.fq.gz -c 16_1.fqcheck
之后还会写个脚本作 fqcheck_distribute 分析
过滤后统计 FilterStat
得到
Type Raw data Clean data
Number of Reads 52293338 48926594
Data Size 5229333800 4892659400
N of fq1 146135 35060
N of fq2 399754 16287
GC(%) of fq1 45.53 45.36
GC(%) of fq2 45.58 45.39
Q20(%) of fq1 97.03 97.99
Q20(%) of fq2 92.83 95.92
Q30(%) of fq1 91.66 93.58
Q30(%) of fq2 86.07 89.72
Discard Reads related to N 24406
Discard Reads related to low qual 2917634
Discard Reads related to Adapter 135524
catRS
drawPizza
参考:
质量值体系 Phred33 和 Phred 64 的由来 及其在质量控制中的实际影响 - Part 2
FASTQ 数据质量统计工具的更多相关文章
- kettle数据质量统计
1.利用Kettle的"分组","JavaScript代码","字段选择"组件,实现数据质量统计.2.熟练掌握"JavaScrip ...
- 开源数据质量解决方案——Apache Griffin入门宝典
提到格里芬-Griffin,大家想到更多的是篮球明星或者战队名,但在大数据领域Apache Griffin(以下简称Griffin)可是数据质量领域响当当的一哥.先说一句:Griffin是大数据质量监 ...
- Github Statistics 一个基于 React 的 GitHub 数据统计工具
V 站曾经有个热帖说为何我的开源项目只有 Fork 没有 Star,楼下有个热评说开源项目关注的不应该是 Commit 数据吗?先不论 Star.Fork 和 Commit,issue .pr 也应是 ...
- TOP100summit:【分享实录-Microsoft】基于Kafka与Spark的实时大数据质量监控平台
本篇文章内容来自2016年TOP100summit Microsoft资深产品经理邢国冬的案例分享.编辑:Cynthia 邢国冬(Tony Xing):Microsoft资深产品经理.负责微软应用与服 ...
- 数据质量控制软件Q-CHECKER(转)
随着企业信息化建设的不断深入进行,我们的企业将逐步地发展成为数字化企业.其中作为最基本构成的CATIA数模已经是产品开发制造的唯一依据,CATIA数模的质量就是加工的质量,就是制造的质量,就是生产出的 ...
- 数据质量、特征分析及一些MATLAB函数
MATLAB数据分析工具箱 MATLAB工具箱主要含有的类别有: 数学类.统计与优化类.信号处理与通信类.控制系统设计与分析类.图像处理类.测试与测量类.计算金融类.计算生物类.并行计算类.数据库访问 ...
- 数据可视化之powerBI基础(十六)PowerQuery的这个小功能,让你轻松发现数据质量问题
https://zhuanlan.zhihu.com/p/64418072 源数据常常包含各种差错值,为了进行下一步的分析,我们必须先找出并更正这些差错,做这些工作几乎不会有什么快乐感可言,但却往往需 ...
- 【Lua】实现代码执行覆盖率统计工具
一.如何评估测试过程的测试情况? 很多时候完成功能测试后就会发布上线,甚至交叉和回归都没有足够的时间去执行,然后通过线上的补丁对遗漏的问题进行修复.如果可以在发布前了解本次测试过程所覆盖代码执行的比例 ...
- HotApp小程序统计,第一个专业的微信第三方小程序统计工具
1.什么是HotApp小程序统计 HotApp小程序统计是第一个微信第三方小程序统计工具,就像做android 和 ios开发的人知道友盟统计一样,小程序也需要有个统计工具. 通过这个工具,可以知道小 ...
随机推荐
- Python: re.IGNORECASE 标志参数字符串忽略大小写的搜索替换
为了在文本操作时忽略大小写,需要在使用re 模块的时候给这些操作提供re.IGNORECASE 标志参数.比如 >>> text = 'UPPER PYTHON, lower pyt ...
- 使用Spring实现读写分离( MySQL实现主从复制)(转)
本文转自:http://blog.csdn.net/jack85986370/article/details/51559232 1. 背景 我们一般应用对数据库而言都是“读多写少”,也就说对数据库读 ...
- 小黄人IP营销的四种玩法思维导图
小黄人IP营销的四种玩法思维导图 ------------------------------ 本人微信公众帐号: 心禅道(xinchandao) 本人微信公众帐号:双色球预测合买(ssqyuce)
- B轮公司技术问题列表
B轮公司技术问题列表 1.异构系统的接口对接我们有自己的一套统一接口,但是需要与其它公司的接口做对接,但是各个公司的接口各不相同,有什么好的方式能够方便与各公司的接口做对接的同时我们这边也能尽量少或者 ...
- MemcacheQ安装
一.memcacheq介绍 特性: 1.简单易用 2.处理速度快 3.多条队列 4.并发性能好 5.与memcache的协议兼容 6.在zend framework中使用方便 memcacheq依赖于 ...
- 设置redis访问密码
在服务器上,这里以linux服务器为例,为redis配置密码. 1.第一种方式 (当前这种linux配置redis密码的方法是一种临时的,如果redis重启之后密码就会失效,) (1)首先进入redi ...
- Adobe漏洞攻击
Adobe漏洞攻击 windows ip 开启msfconsole 进入攻击模块 设置攻击载荷payload 设置相关参数 确定需要修改的参数 exploit生成5303.pdf 将pdf复制到靶机里 ...
- exp9《网络对抗》web安全基础实践201453331魏澍琛
201453331魏澍琛web安全基础实践 一.实验过程 1.webgoat开启 2.Injection Flaws练习 Command Injection 原网页中没有注入的地方,那就用burpsu ...
- 洛谷 P2056 采花 - 莫队算法
萧芸斓是 Z国的公主,平时的一大爱好是采花. 今天天气晴朗,阳光明媚,公主清晨便去了皇宫中新建的花园采花.花园足够大,容纳了 n 朵花,花有 c 种颜色(用整数 1-c 表示) ,且花是排成一排的,以 ...
- noip 2014 提高组 Day 2
1.无线网络发射器选址 这道题数据范围很小,就直接暴力枚举就好了.为了提高速度,就从每个有公共场所的点枚举周围在(x,y)放无线网路发射器可以增加的公共场所数量,加到一个数组里.所有公共场所都处理完了 ...