主流工具:

拿到测序数据的第一步就是做质量控制

fqcheck之后得到的结果:

它会统计每条reads,按read 1-100位点计算每个位置的ACGTN含量,以及0-41质量值的个数

最终会得到整体的错误率,GC,Q20,Q30

the default quality shift value is: -64, 27877224 sequences, 2787722400 total length, Max length:100, average length:100.00
Standard deviations at 0.25: total 0.00%, per base 0.01%
···
Error Rate %GC Q20 Q30
0.61 48.35 96.26 89.88

 

adapter.list

#reads_id   reads_len   reads_start   reads_end   adapter_id   adapter_len   adapter_start   adapter_end   align_len   mismatch
FCD0JN9ACXX:6:1101:13637:2052#AGAGATCT/1 100 57 90 iPE-3+ 34 0 33 34 13
FCD0JN9ACXX:6:1101:15321:2200#AGAGATCT/1 100 53 86 iPE-3+ 34 0 33 34 0
FCD0JN9ACXX:6:1101:5318:2346#AGAGATCT/1 100 60 93 iPE-3+ 34 0 33 34 0
FCD0JN9ACXX:6:1101:5745:2411#AGAGATCT/1 100 64 97 iPE-3+ 34 0 33 34 0
FCD0JN9ACXX:6:1101:13286:2320#AGAGATCT/1 100 89 99 iPE-3+ 34 0 10 11 2
FCD0JN9ACXX:6:1101:15982:2390#AGAGATCT/1 100 80 99 iPE-3+ 34 0 19 20 0

接头序列,一般都要去掉

Illumina Adapter Sequences Document (1000000002694 v01)

 

过滤

使用SOAPnuke

SOAPnuke filter -l 20 -q 0.5 -n 0.1 -d -i -Q 1 -5 0 -1 1.fq.gz -2 2.fq.gz -f 1.adapter.list.gz -r 2.adapter.list.gz $tile -o 16_1.fq -D 16_2.fq -c 21

过滤后的reads同样要做质量统计

fqcheck -r 16_1.fq.gz -c 16_1.fqcheck

之后还会写个脚本作 fqcheck_distribute 分析

 

过滤后统计 FilterStat

得到

Type    Raw data        Clean data
Number of Reads 52293338 48926594
Data Size 5229333800 4892659400
N of fq1 146135 35060
N of fq2 399754 16287
GC(%) of fq1 45.53 45.36
GC(%) of fq2 45.58 45.39
Q20(%) of fq1 97.03 97.99
Q20(%) of fq2 92.83 95.92
Q30(%) of fq1 91.66 93.58
Q30(%) of fq2 86.07 89.72
Discard Reads related to N 24406
Discard Reads related to low qual 2917634
Discard Reads related to Adapter 135524

catRS

drawPizza

 

参考:

质量值体系 Phred33 和 Phred 64 的由来 及其在质量控制中的实际影响 - Part 2

FASTQ 数据质量统计工具的更多相关文章

  1. kettle数据质量统计

    1.利用Kettle的"分组","JavaScript代码","字段选择"组件,实现数据质量统计.2.熟练掌握"JavaScrip ...

  2. 开源数据质量解决方案——Apache Griffin入门宝典

    提到格里芬-Griffin,大家想到更多的是篮球明星或者战队名,但在大数据领域Apache Griffin(以下简称Griffin)可是数据质量领域响当当的一哥.先说一句:Griffin是大数据质量监 ...

  3. Github Statistics 一个基于 React 的 GitHub 数据统计工具

    V 站曾经有个热帖说为何我的开源项目只有 Fork 没有 Star,楼下有个热评说开源项目关注的不应该是 Commit 数据吗?先不论 Star.Fork 和 Commit,issue .pr 也应是 ...

  4. TOP100summit:【分享实录-Microsoft】基于Kafka与Spark的实时大数据质量监控平台

    本篇文章内容来自2016年TOP100summit Microsoft资深产品经理邢国冬的案例分享.编辑:Cynthia 邢国冬(Tony Xing):Microsoft资深产品经理.负责微软应用与服 ...

  5. 数据质量控制软件Q-CHECKER(转)

    随着企业信息化建设的不断深入进行,我们的企业将逐步地发展成为数字化企业.其中作为最基本构成的CATIA数模已经是产品开发制造的唯一依据,CATIA数模的质量就是加工的质量,就是制造的质量,就是生产出的 ...

  6. 数据质量、特征分析及一些MATLAB函数

    MATLAB数据分析工具箱 MATLAB工具箱主要含有的类别有: 数学类.统计与优化类.信号处理与通信类.控制系统设计与分析类.图像处理类.测试与测量类.计算金融类.计算生物类.并行计算类.数据库访问 ...

  7. 数据可视化之powerBI基础(十六)PowerQuery的这个小功能,让你轻松发现数据质量问题

    https://zhuanlan.zhihu.com/p/64418072 源数据常常包含各种差错值,为了进行下一步的分析,我们必须先找出并更正这些差错,做这些工作几乎不会有什么快乐感可言,但却往往需 ...

  8. 【Lua】实现代码执行覆盖率统计工具

    一.如何评估测试过程的测试情况? 很多时候完成功能测试后就会发布上线,甚至交叉和回归都没有足够的时间去执行,然后通过线上的补丁对遗漏的问题进行修复.如果可以在发布前了解本次测试过程所覆盖代码执行的比例 ...

  9. HotApp小程序统计,第一个专业的微信第三方小程序统计工具

    1.什么是HotApp小程序统计 HotApp小程序统计是第一个微信第三方小程序统计工具,就像做android 和 ios开发的人知道友盟统计一样,小程序也需要有个统计工具. 通过这个工具,可以知道小 ...

随机推荐

  1. HDU - 2639 Bone Collector II (01背包第k大解)

    分析 \(dp[i][j][k]\)为枚举到前i个物品,容量为j的第k大解.则每一次状态转移都要对所有解进行排序选取前第k大的解.用两个数组\(vz1[],vz2[]\)分别记录所有的选择情况,并选择 ...

  2. 《算法C语言实现》————快速-查找算法(quick-find algorithm)

    算法基础是一个整型数组,当且仅当第p个元素和第q个元素相等时,p和q时连通的.初始时,数组中的第i个元素的值为i,0<=i<N,为实现p与q的合并操作,我们遍历数组,把所有名为p的元素值改 ...

  3. Storm消息可靠处理机制

    在很多应用场景中,分布式系统的可靠性保障尤其重要.比如电商平台中,客户的购买请求需要可靠处理,不能因为节点故障等原因丢失请求:比如告警系统中,产生的核心告警必须及时完整的知会监控人员,不能因为网络故障 ...

  4. Spring 问题总结

    Spring问答Top 25:http://www.importnew.com/15851.html [Java面试五]Spring总结以及在面试中的一些问题.:http://www.cnblogs. ...

  5. MD5验签同一字符串得到不同的MD5签名值可能问题之一

    public static String md555(String plainText) throws UnsupportedEncodingException { byte[] secretByte ...

  6. JS函数调用的四种方法

    js的函数调用会免费奉送两个而外的参数就是 this 和 arguments .arguments是参数组,他并不是一个真实的数组,但是可以使用.length方法获得长度. 书上有说4中调用方式: 方 ...

  7. C/C++之单例模式实现

    /*** * 保证一个类仅有一个实例,并提供一个访问它的全局访问点 */ #include <iostream> #include <string> using namespa ...

  8. log4j.properties配置详解与实例

    log4j.properties配置详解与实例 第一步:加入log4j-1.x.x.jar到lib下. 第二步:在工程的src下下建立log4j.properties.内容如下: #OFF,syste ...

  9. CF#235E. Number Challenge

    传送门 可以理解为上一道题的扩展板.. 然后我们就可以YY出这样一个式子 ${\sum_{i=1}^a\sum_{j=1}^b\sum_{k=1}^cd(ijk)=\sum_{i=1}^a\sum_{ ...

  10. 【前端】纯html+css+javascript实现楼层跳跃式的页面布局

    实现效果演示: 实现代码及注释: <!DOCTYPE html> <html> <head> <title>楼层跳跃式的页面布局</title&g ...