Iso-Seq学习
SMRT portal安装教程:
http://www.pacb.com/wp-content/uploads/2015/09/SMRT-Analysis-Software-Installation-v2.3.0.pdf
ISO-seq数据地址:
/share/backups/pacbio/20160222_68 的 A01 和 B01。
<1kb的得到1.28G数据,>1kb的得到了2.8G的数据。
SMRT portal 地址:
http://59.79.232.10:8080/smrtportal/#/Design-Job/reference_droplist: :
/share/workplace/software/PACBIO/userdata/references_dropbox
username: pbuser
password: pacbio-one2three
学习目的:对这两个cell收集一下结果(多少reads,多少全长reads,多少isoform,SMRT-portal的报告都有。
ISOseq数据比对到参考基因组
THE CHALLENGE OF ISOFORM RECONSTRUCTION
简单的说就是二代测序无法有效区分同一个transcript的单倍型!
In eukaryotic organisms, the majority of genes are alternatively spliced to produce multiple transcript isoforms, dramatically increasing the protein-coding potential of a genome.
Alternatively spliced isoforms from the same gene can have significantly different, even antagonistic, effects. To study gene expression, researchers have looked at fragments of an organism’s genes utilizing next-generation sequencing methods, commonly referred to as RNA sequencing (RNA-seq). However, short-read RNA-seq cannot span full-length transcripts, making it difficult to accurately characterize the diverse landscape of isoforms.
Produce full-length transcripts without assembly
简单的说就是三代测序能直接把一个单倍型测穿。这就是ISOseq
The isoform sequencing (Iso-Seq) application generates full-length cDNA sequences — from the 5’ end of transcripts to the poly-A tail — eliminating the need for transcriptome reconstruction using isoform-inference algorithms. The Iso-Seq method generates accurate information about alternatively spliced exons and transcriptional start sites. It also delivers information about poly-adenylation sites for transcripts up to 10 kb in length across the full complement of isoforms within targeted genes or the entire transcriptome.
Iso-Seq的目的就是: understand transcriptome complexity using accurate, unassembled, full-length long reads.

实验室测序出来的数据目录结构:

Analysis_Results下的文件:

正确的数据结构如下:
注意metadata.xml文件和子目录下的bax.h5文件。

对于数据的处理有三种方式,一种是通过RS_isoseq SMRT portal, 一种是github code,一种是RS_isoseq 明令行。三者的主要区别如下:
The differences between the GitHub code and the RS_IsoSeq code are:
- GitHub code requires you to set up a virtual environment and install all libraries on your own
- GitHub code is more step-by-step and allows more flexibility
- GitHub code is updated faster
- GitHub code is all source code - you can modify the code as needed
The difference between the SMRT Portal version and the command-line version (pbtranscript.py) is that the command-line version additionally allows you to:
- Use more CPUs than default
- Directly start from the isoform-level clustering (ICE) part of
RS_IsoSeq. Since v2.3.0, we have added additional entry points to the ICE/Quiver pipeline.
如果用SMRT portal 来分析数据,步骤如下:
1, getting FL reads
首先导入你的raw data,然后选择RS_IsoSeq protocol(SMRT PORTAL的版本要v2.3.0以上)
具体操作参见以前写的博客。(http://www.cnblogs.com/freemao/p/3783475.html)
Iso-seq 建库流程:

扫盲几个概念:
reads of insert 和 FL reads:

建库的时候可能会产生artificial chimeras,分两种:
第一种是接头浓度低导致的:

第二种是PCR扩增时导致的:

所以最终的数据:

下一步:

为何要进行上面的步骤:

Iso-seq的整个生物信息学分析流程大概就是这样的:

主要是两部分:1是classify, 2是cluster
classify 识别FL reads
cluster 主要是performs isoform-level clustering and outputs Quiver-polished high-quality consensus full-length transcript sequences.
整个过程是不需要参考基因组的,如果有参考基因组,可以被用来做比对,把polished transcipts map上去。从而可以
①,去除redundancy(Iso-Seq cluster output can be redundant).如下图:

去除冗余应用实例:


②,可以发现新的基因或者isoforms.
classify 和 cluster的比较如下:

运行classify 和 cluster既可以在SMRT Portal,也可完全用命令行(pbtranscript.py),TOFU. 使用帮助在(https://github.com/PacificBiosciences/cDNA_primer/wiki)
关于最后的isoform结果 可以通过UCSC browser看一下,肯定是要比二代的效果好很多。
Iso seq的应用:
1, Transcript indentification and annotation
2, Identification of Alternatively spliced isoforms
3, Targeted sequencing
4, normalization reduces the representation of highly expressed genes.
后续可以做的分析有(根据你自己的项目而定):

详情见2015 webinar 文档。
学习网站:


Iso-Seq学习的更多相关文章
- iso 开发学习--简易音乐播放器(基于iPhone4s屏幕尺寸)
三个按钮 一个进度条 贴图(软件中部分图片,来自网络,如果侵犯了您的权益,请联系我,会立刻撤下) 核心代码 // // ViewController.m // 08-10-MusicPlayer / ...
- ISO模型学习
PDU:协议数据单元是指层次之间传递的数据单位 物理层PDU :PDU是数据位 bit数据链路层的PDU是数据帧frame网络层的PUD是数据包 packet传输层的PDU是数据段 segment其他 ...
- VMware 安装 centos6.8
参考文档:https://jingyan.baidu.com/article/49711c61964328fa441b7c93.html 准备工作 VMware Workstation Pro 下载地 ...
- Linux下安装python,ftp,Ubuntu和centos配置静态ip以及下载地址
一个服务器最多创建65535个端口Ubuntu apt-get aliyun转换https://www.cnblogs.com/hcl1991/p/7894958.htmlOpenSSLhttps:/ ...
- redhat更改yum源及安装PHP环境
redhat更新yum源 删除同RHEL一同安装的yum源 rpm -qa|grep yum #查看本地yum yum list | wc -l #看个数 yum install pip #看现象 r ...
- 网络知识学习1---(基础知识:ISO/OSI七层模型和TCP/IP四层模型)
以下的内容和之后的几篇博客只是比较初级的介绍,想要深入学习的话建议自己钻研<TCP/IP详解 卷1:协议> 1.ISO/OSI七层模型 下四层是为数据传输服务的,物理层是真正的传输数 ...
- Linux学习之CentOS(六)---mount挂载设备(u盘,光盘,iso等 )
对于新手学习,mount 命令,一定会有很多疑问.其实我想疑问来源更多的是对linux系统本身特殊性了解问题. linux是基于文件系统,所有的设备都会对应于:/dev/下面的设备.如: [cheng ...
- Ubuntu ROS Arduino Gazebo学习镜像iso说明(indigo版)
ROS机器人程序设计(原书第2版)学习镜像分享及使用说明 新版已经发布,请参考: http://blog.csdn.net/zhangrelay/article/details/53324759 Ub ...
- 用ISO C++实现自己的信号槽(Qt另类学习)
qtc++objectsignalclassstring 目录(?)[-] Qt信号与槽 引入元对象系统 建立信号槽链接 信号的激活 槽的调用 全家福 零零散散写在后面 Q_OBJECT Conn ...
随机推荐
- 个人c语言编程风格总结
总结一下我个人的编程风格及这样做的原因吧,其实是为了给实验室写一个统一的C语言编程规范才写的.首先声明,我下面提到的编程规范,是自己给自己定的,不是c语言里面规定的. 一件事情,做成和做好中间可能隔了 ...
- f(n) hdu 2582
calculate the f(n) . (3<=n<=1000000)f(n)= Gcd(3)+Gcd(4)+-+Gcd(i)+-+Gcd(n).Gcd(n)=gcd(C[n][1],C ...
- 深入了解 JavaScript 中的 for 循环
在ECMAScript5(简称 ES5)中,有三种 for 循环,分别是: 简单for循环 for-in forEach 在2015年6月份发布的ECMAScript6(简称 ES6)中,新增了一种循 ...
- 简单研究下Retrofit
2015-09-24 15:36:26 第一部分: 1. 什么是Retrofit? (点击图片有惊喜) 以上是来自官网的解释,言简意赅,咳咳,我就不翻译了~ 2. 如何使用Retrofit? 2.1 ...
- 【PHP】分页条函数封装
这两天在学习PHP 想做一个前端后台都包含的网站 看了一些视频发现大牛们都是将封装起来实现代码的重用性 本人技拙也写了个分页条函数的封装 分页条在用PHP网站开发中十分常用 通过封装代码来提高网站开发 ...
- linux系统中查看系统位数(转载)
查看系统多少位网上很多种说话 ### getconf WORD_BIT 错误的 这3个是对的 getconf LONG_BIT echo $HOSTTYPE uname -a ...
- uboot mmc烧写命令
mmc write addr blk# cnt 这个命令的作用是将内存上的数据写入mmc中 参数: addr: 从内存读取的位置 blk: 写入到mmc中block位置,这个位置是mmc的0地址的偏移 ...
- 封装pyMysql
#!/usr/bin/python import MySQLdb class SpiderPDO: def __init__(self): db_host = '127.0.0.1' db_user ...
- schema约束和引入
schema的概述 schema约束同为xml文件的约束模式语言之一, 最大的作用是为了验证xml文件的规范性的. 是为了解决dtd约束不够的问题, 相应的他的配置就变得比较复杂 schema本身就是 ...
- iOS UITableView 引起的崩溃问题
其实 UITableView 应该是在iOS开发中使用最频繁的一个控件,一次同事之间聊天玩笑的说“一个页面,要是没使用UITableView,就好像称不上是一个页面”.虽然是个最常见的控件,但是他的强 ...