1、数据库简介

UniVec是一个数据库,可用于快速识别核酸序列中可能来自载体来源(载体污染)的片段。使用UniVec进行筛选是高效的,因为已经消除了大量冗余子序列,从而创建一个只包含来自大量载体的每个惟一序列段的一个副本数据库。除了载体序列,UniVec还包含用于克隆cDNA或基因组DNA过程中常用的adpter、linkers和引物的序列。这使得在载体筛选过程中可以发现这些寡核苷酸序列的污染。UniVec可以从NCBI FTP目录获得:ftp://ftp.ncbi.nlm.nih.gov/pub/UniVec

2、VecScreen

VecScreen是一个系统,它可以快速找到核酸序列的片段,这些片段可能来自于载体。它帮助研究人员在分析或提交序列之前识别和删除任何载体源片段。研究人员被鼓励使用VecScreen搜索页面上的表单对其序列进行载体污染筛选。

无法识别序列中的外源片段可以:

导致对该序列生物学意义的错误结论
浪费时间和精力分析污染序列
延迟在公共数据库中释放序列
用受污染的序列污染公共数据库

GenBank注释人员使用VecScreen验证提交给数据库的序列是否不受载体污染。VecScreen在一个查询序列中搜索匹配UniVec中任何序列的段。UniVec是一个专用的非冗余载体数据库。该搜索使用带有预设参数的BLAST对载体污染进行最优检测。匹配载体序列的查询段将根据匹配的强度进行分类,并显示它们的位置(参见一个正结果示例)。

关于结果的解释https://www.ncbi.nlm.nih.gov/tools/vecscreen/interpretation/

3)VecScreen Search Parameters

理论上,任何向量污染的序列都应该与已知向量序列相同。在实践中,偶尔的差异被认为是由测序错误引起的,较少的情况下,是由工程变异或自发突变引起的。因此,选择用于VecScreen的搜索参数是为了找到与已知向量序列相同的序列段,或者只与已知序列略有偏离的序列段。

用于VecScreen的blastn参数比默认的blastn参数严格得多。主要差异有:

增加对不匹配的惩罚,这严重限制了不匹配的频率。
间隙惩罚更容忍单碱基插入或删除,这适应了添加或删除碱基的排序错误类型。
只对初始命中进行低复杂度过滤,这可以防止在低复杂度区域中启动对齐,同时允许跨区域的对齐

使用blastn选项预先设置VecScreen参数:-task blastn -reward 1 -penalty -5 -gapopen 3 -gapextend 3 -dust yes -soft_mask true - value 700 -searchsp 1750000000000

4)VecScreen Match Categories

载体污染通常发生在序列的开始或结束;因此,对终端和内部匹配使用不同的标准。如果匹配在查询序列开始的25个碱基内开始,或者在序列结束的25个碱基内停止,VecScreen将该匹配视为终端。在另一个匹配的25个碱基内开始或停止的匹配也被视为终端匹配。匹配根据随机序列之间发生的具有相同得分的比对的预期频率进行分类。

强匹配向量:(期望在1,000,000个长度为350kb的查询中有一个随机匹配。)

终端匹配,得分≥。
内部匹配,得分≥。

向量适度匹配:(期望在1000个长度为350 kb的查询中有一个随机匹配。)

终场比分19比23。
内部比赛得分25比29。

弱匹配向量:(期望在40个长度为350 kb的查询中有一个随机匹配。)

终场比分16比18。
内部比赛得分23比24。

可疑来源序列
Any segment of fewer than 50 bases between two vector matches or between a match and an end.

参考:

https://www.ncbi.nlm.nih.gov/tools/vecscreen/about/

https://www.ncbi.nlm.nih.gov/tools/vecscreen/univec/#Overview

https://www.ncbi.nlm.nih.gov/tools/vecscreen/contam/#Definition

NCBI之UniVec数据库及去载体的更多相关文章

  1. 构建NCBI本地BLAST数据库 (NR NT等) | blastx/diamond使用方法 | blast构建索引 | makeblastdb

    参考链接: FTP README 如何下载 NCBI NR NT数据库? 下载blast:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+ 先了解 ...

  2. Servlet课程0425(七) 到数据库中去验证用户,同时防止SQL注入漏洞

    Login.java //登录界面 package com.tsinghua; import javax.servlet.http.*; import java.io.*; public class ...

  3. 2021-2-3-利用anaconda+prefetch+aspera从NCBI的SRA数据库中下载原始测序数据

    目录 1.Conda连接不上镜像源问题 2. aspera不能再独立使用 3.使用prefetch搭配aspera 4. prefetch下载方法 记录下下载过程,为自己和后人避坑. 1.Conda连 ...

  4. 如何把 excel 的数据导入到数据库里面去

    1. 把 excel 另存为 .csv 格式 2. 用 Notepad 打开 .csv 文件, 第一行就是全部的字段 3. 创建表结构 create table yu_rt_01 as select ...

  5. MySQL数据库行去重复

    1.创立数据表

  6. 生物数据库介绍——NCBI

    NCBI(National Center for Biotechnology Information,美国国家生物技术信息中心)除了维护GenBank核酸序列数据库外,还提供数据分析和检索资源.NCB ...

  7. NCBI SRA数据库

    简介 SRA数据库是美国国立卫生研究院(NIH)的高通量测序数据的主要归档,是国际核苷酸序列数据库协作(INSDC)的一部分,其中包括NCBI序列读取存档(SRA),欧洲生物信息学研究所(EBI)和D ...

  8. Spark踩坑记——数据库(Hbase+Mysql)

    [TOC] 前言 在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值.最近一个实时消费者处理任务,在使用spark streami ...

  9. iOS中数据库应用基础

    iOS 数据库入门 一.数据库简介 1.什么是数据库? 数据库(Database) 是按照数据结构来组织,存储和管理数据的仓库 数据库可以分为2大种类 关系型数据库(主流) PC端 Oracle My ...

随机推荐

  1. Java后台+数据库+Java web前端——记账本

    下面是本人实现的网页版(设计思路见上一篇https://www.cnblogs.com/sengzhao666/p/10445984.html) 代码如下: 运行截图: 首页: 创建: 账本删除:(先 ...

  2. LeetCode20——有效的括号

    在记事本中写算法题和在纸上写其实感觉差不多,反正是不能进行调试.想起某高手的话,写代码要做到“人机合一”,写高级语言时(指的是 C 和 C++)脑海中要知道当前写的代码对应的反汇编代码,也就是要深入了 ...

  3. pymysql 读取大数据内存卡死的解决方案

    背景:目前表中只有5G(后期持续增长),但是其中一个字段(以下称为detail字段)存了2M(不一定2M,部分为0,平均下来就是2M),字段中存的是一个数组,数组中存N个json数据.这个字段如下: ...

  4. 初探云原生应用管理(二): 为什么你必须尽快转向 Helm v3

    系列介绍:这个系列是介绍如何用云原生技术来构建.测试.部署.和管理应用的内容专辑.做这个系列的初衷是为了推广云原生应用管理的最佳实践,以及传播开源标准和知识.在这个系列文章的开篇初探云原生应用管理(一 ...

  5. RocketMQ多master多salve集群搭建

    一.RocketMQ集群模式简介 单Master方式 风险比较大, 一旦Broker重启或者宕机, 将导致整个环境不可用, 不建议线上使用. 多Master模式 一个集群中没有slave, 全是mas ...

  6. C# 委托补充01

    上一篇文章写了委托的最基本的一些东西,本篇咱们扯扯委托其他的东西. 示例1插件编程 根据对委托的理解,委托可以把一个方法当作参数进行传递,利用这个特性我们可以使用委托,实现插件编程. public d ...

  7. laravel 163发送邮件

    配置163邮箱账户 首先需要有163邮箱,这里在163邮箱必须在设置里面开启SMTP服务,并设置密码 修改laravel根目录下的.env文件, 设置邮箱相关内容: MAIL_DRIVER=smtp ...

  8. 查看java程序的指令码

    java程序转化为JVM指令码分析 1.编写java文件(简易示例) /** * @author yew * @date on 2019/12/9 - 15:53 */ public class Ma ...

  9. Restful API接口规范

    1. 域名 应该尽量将API部署在专用域名之下. https://api.example.com 如果确定API很简单,不会有进一步扩展,可以考虑放在主域名下. https://example.org ...

  10. 打造游戏金融小程序行业测试标准腾讯WeTest携各专家共探品质未来

    在获客成本不断上升的时代里,产品品质愈发是互联网应用的决胜标准.随着用户需求更加多样,开发者不仅要深挖应用功能,更需要面向业务所在领域,建立全面.专业的测试架构,掌控开发进度.提高开发效率,才能在互联 ...