只要有ENA千万别用NCBI!!!! 最近开始分析网上Download的数据,一开始用人家现成的GWAS数据,后来觉得反正自己的数据到手该做的也是要做的,出来混早晚是要还的,所以就开始从头分析一些SRA的数据,我以为会很简单,事实证明是我简单了. 首先我们下了这样的一串数据,*.sra格式: -rwxrwxrwx genomics genomics 6月 : SRR1206512.sra -rwxrwxrwx genomics genomics 6月 : SRR1206514.sra -rwxr…
本文近期更新地址: http://blog.csdn.net/tanzuozhev/article/details/51077222 随着測序技术的不断提高.二代測序数据成指数增长. NCBI提供了SRA数据库存储这些数据. http://www.ncbi.nlm.nih.gov/sra 为了方便更好的分析这些数据,NCBI提供了下载的命令行工具:sra-toolkit. 包含下面命令: 官方文档: http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi…
C# 合并及拆分PDF文件 有时我们可能会遇到下图这样一种情况 — 我们需要的资料或教程被分成了几部分存放在多个PDF文件中,不管是阅读还是保存都不是很方便,这时我们肯定想要把这些PDF文件合并为一个PDF文件.相对应的,有时候我们也需要拆分一个大的PDF文件,来从中获取我们需要的那一部分资料.这篇文章主要分享如何使用C#来将多个PDF文件合并为一个PDF文件以及将一个PDF文件拆分为多个PDF文件. 合并PDF文件 合并PDF文件的代码很简单,主要分为三步,首先获取需要合并的PDF文件,然后调…
用PHP程序拆分大文件为N个小文件 /* 假设有文件data.log , 内容如下,行数很多,假设有上亿条数据,文件大小大概在800M左右 92735290 80334472 49114074 87184448 56073913 49869384 41544494 32725219 88143005 41025390 ... 50674133 88480834 73630065 84739990 28690490 82888793 32222595 76950683 62781066 69386…
  今天要上NCBI下载sra数据发现没有下载的链接,网上查发现都是老的方法,NCBI页面已经变更,于是看了NCBI的help,并且记录下来新版的sra数据下载方法,要用NCBI的工具SRA Toolkit.另外咨询师兄,总结得到新的wget下载的方法. 方法1 NCBI告知的方法(中断不能继续下载) 下载SRA Tookit https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software:点击software,选择需要的sra t…
本文近期更新地址: http://blog.csdn.net/tanzuozhev/article/details/51078460 前文 http://blog.csdn.net/tanzuozhev/article/details/51077222 介绍了如何採用 sra-toolkit 下载 sra 文件,可是假设你想下载整个项目的全部样本.应该如何批量下载呢.以下參考biostar站点的部分回帖.做简介. R语言 SRAdb 包 參考 https://www.biostars.org/p…
split分割(拆分)文件 需求:指定文件大小拆分文件 # ll -h test/ |grep vmcore -rw-r--r-- 1 root root  12G 12月  7 00:20 vmcore 工具:split 操作过程: # split -b 900M vmcore # ll -h 总用量 23G -rw-r--r-- 1 root root 1.3K 12月  7 00:25 md5.txt -rw-r--r-- 1 root root  12G 12月  7 00:20 vmc…
一.合并和拆分PDF文件的方式 PDF文件使用了工业标准的压缩算法,易于传输与储存.它还是页独立的,一个PDF文件包含一个或多个"页",可以单独处理各页,特别适合多处理器系统的工作.PDF文件结构主要可以分为四个部分:首部.文件体.交叉引用表.尾部.PDF操作类非常多,如下图所示,常用的操作PDF文件的类库有:Spire.Pdf.iTextSharp. 二.使用 Spire.Pdf 合并和拆分PDF文件 使用 Nuget 添加Spire.Pdf 类库,然后添加如下代码: 1 /// &…
<Linux就该这么学>是一本基于最新Linux系统编写的入门必读书籍,内容面向零基础读者,由浅入深渐进式教学,销量保持国内第一,年销售量预期超过10万本.点此免费在线阅读. 15 分钟之后,我要去朋友家聚会.我打算从我的台式机上把一部 700MB 大小的美国大片拷贝出来,带到朋友家去看,可是我的两个优盘都只有 512MB,这让我如何是好? 别急,用 10 分钟赶快来认识一下我们的 split 拆分小能手,一切问题将迎刃而解.当遇到大文件而苦不堪言的时候,split 就会像天使一样解救我们于水…
目录 1.Conda连接不上镜像源问题 2. aspera不能再独立使用 3.使用prefetch搭配aspera 4. prefetch下载方法 记录下下载过程,为自己和后人避坑. 1.Conda连接不上镜像源问题 首先是anaconda安装软件或创建环境时遇到的问题.即使换完清华源和其他镜像源以后依旧报错. CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://mirrors.tuna.tsi 尝试了很多方法:换源,删除.co…
import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; import java.io.RandomAccessFile; import java.io.SequenceInputStream; import java.util.Vector; public class RandonFileAccessTest { public static void main(String[]…
需求:由于文件过大,不方便进行相关的操作,需要将其拆分成大小小于500000B,即488.28125k的文件.同时,为了保证文件的可读性,行内不可以分割,同时,由于内容是块状可读,按照日期进行分割的,因此不能破坏块状因素.例如,db2diag.log日志文件,其格式如下: 2004-10-11-19.01.56.555034-300 I7109918C313 LEVEL: Event PID : 119664 TID : 1 PROC : db2star2 INSTANCE: dimi NODE…
在对vcf的操作有这样三个软件: Vcftools:主要用于群体分析,文本处理的功能不是很强大,虽然这个软件也可以拆分样本,但是这种拆分不涉及文件的处理,只是保留在分析流程里. GATK .x:这个软件最大的问题就是需要参考基因组,而且序列长度各个方面都要与待处理的文件一致这样就给我们的数据处理带来一定的麻烦. Bcftools:涉及文本的处理,功能很强大,后续随着我的分析还要继续介绍. 利用Bcftools按样本拆分文件主要利用了“--view”这个软件包,主要代码如下: bcftools v…
按照所属部门不同将excel文件拆分成多个文件 string excel_path = @"G:\zhyue\backup\2018-08-01 读取腾讯邮箱接口-获取一个月内未接收到外部邮件且已离职的邮箱\address_biz (4).csv"; string save_path = @"G:\zhyue\backup\2018-08-01 读取腾讯邮箱接口-获取一个月内未接收到外部邮件且已离职的邮箱\拆分excel\"; //解决中文乱码 TxtLoadOpt…
从NCBI下载数据本来是一件很简单的事情,但是今天碰到几个坑: 1.paper里没有提供SRA数据号.也没有提供路径: 2.不知道文件在ftp的地址,不能直接用wget下载 所以通过在NCBI官网,直接在SRA搜索栏里: 输入paper的title关键词NIFTY BGI 搜索结果: 选一个文件点击进去 进去之后,再点击SRP 然后: 出现如下内容: 然后选择所有SRR文件: 下载Accession list之后得到文件列表: SRR354208 SRR357358 SRR357397 SRR3…
linux split 命令 功能说明:切割文件. 语 法:split [--help][--version][-<行数>][-b <字节>][-C <字节>][-l <行数>][要切割的文件][输出文件名] 补充说明:split可将文件切成较小的文件,预设每1000行会切成一个小文件. 参 数: -<行数>或-l<行数> 指定每多少行就要切成一个小文件. -b<字节> 指定每多少字就要切成一个小文件.支持单位:m,k -…
1.在很多时候我们在网站上应用的时候都会用到nginx,由于我们是java开发者,不可避免的是我们需要在我们的tomcat的工程中应用到nginx,这里的应用可以是请求转发,负载均衡,反向代理,配置虚拟站点等. 2.当然很多时候我们需要tomcat和nginx更加有深度的整合,比如所有的请求都由nginx进行接受,如果是jsp文件,nginx就会转发到tomcat服务器,如果是静态文件,就直接由nginx进行处理. 3.现在我们来进行nginx和tomcat的整合 步骤1:创建proxy.con…
现有一个28G的txt文件,里面每一行是一个分词过的专利全文文档,一共370多万行.我需要把它按每五万行为单位做成一个json文件,格式大致如下: [{"id":"100000001","quanwen":"你好 张梦"},...] 其中每个quanwen中内容是每一行的文本. # -*- coding: utf-8 -*- import json def func(num): f1 = open("result.t…
1.prefetch SRRxxxxxx         -/ncbi/public/sra 2.fastq-dump --split-files xxxxxxsra 3.SRA.SAM以及Fastq文件高速下载方法 3.1 NCBI-SRA和EBI-ENA数据库 SRA数据库: Sequence Read Archive:隶属NCBI (National Center for Biotechnology Information),它是一个保存高通量测序原始数据以及比对信息和元数据 (metad…
C#将一个excel工作表根据指定范围拆分为多个excel文件 微软Excel没有提供直接的方法来拆分excel文件,因此要拆分一个excel文件最简单的方法可能就是手动剪切和粘贴了,除此之外,还有其他方法如VBA及Visual Studio语言(如C#.VB.NET等)编程的方式.VBA我不是很熟悉,因此这篇文章写的是如何使用C# 将一个excel工作表根据指定的范围拆分为多个excel文件. 下面是一个excel人力资源信息表,里面含有三个部门及一些员工信息: 接下来就开始拆分这个excel…
作为DBA,时不时会遇到将数据导入到数据库的情况,假设业务或研发提供一个包含上百万行INSERT语句的脚本文件,而且这些INSERT 语句没有使用GO来进行批处理拆分,那么直接使用SQLCMD来执行会发现该进程消耗大量物理内存并迟迟没有数据写入,即使脚本中每一行都添加了GO,你依然会发现这插入效率太差,让你无法忍受,怎么搞呢,下面小代码帮你折腾下: $old_file_path= 'C:\SQL001.TXT' $new_file_path='C:\SQL001_New' $tran_rows=…
C#文件的拆分与合并操作示例代码. 全局变量定义 ;//文件大小 //拆分.合并的文件数 int count; FileInfo splitFile; string splitFliePath; FileStream splitFileStream; FileInfo joinFile; string joinFliePath; FileStream joinFileStream; 拆分文件操作 private void CheckSplit_Click(object sender, Event…
引子 大文件拆分问题涉及到io处理.并发编程.生产者/消费者模式的理解,是一个很好的综合应用场景,为此,花点时间做一些实践,对相关的知识做一次梳理和集成,总结一些共性的处理方案和思路,以供后续工作中借鉴. 本文将尝试由浅入深的方式表述大文件拆分的问题及不同解决方案,给出的方案不一定是最优解,也并非线上环境论证过的靠谱方式,目的只是在于通过该问题融会贯通io.多线程等基础知识理论.生产环境请慎用. 本文不会逐行讲解代码实现,而注重在方案设计及思路探讨上,但会在文末附上源码demo git地址. 问…
处理PDF文档时,我们可以通过合并的方式,来任意组几个不同的PDF文件或者通过拆分将一个文件分解成多个子文件,这样的好处是对文档的存储.管理很方便.下面将通过Java程序代码介绍具体的PDF合并.拆分的方法. 工具 Free Spire.PDF for Java 2.0.0 (免费版) 注:2.0.0版本的比之前的1.1.0版本在功能上做了很大提升,支持所有收费版的功能,对于通过Java编程来处理PDF文档非常实用. jar文件导入: 步骤 1:在Java程序中新建一个文件夹可命名为Lib.下载…
一个PDF文件有很多个PDF页面组成,有时候我们只需要单个页面的时候应该怎么做呢,这个时候就需要拆分PDF文件了,那么如何把 PDF文件拆分为多个文件呢,应该有很多的小伙伴都想知道吧,那就让我们一起来看看. 方法一:PDF编辑器http://bianji.xjpdf.com/   1.在网上搜索并下载一款PDF编辑器.之后安装编辑器在电脑中,软件安装完成之后打开运行迅捷PDF编辑器,之后在编辑器中打开PDF文档.   2.文档打开之后我们需要找到软件中的编辑工具.选择菜单栏的文档工具,可以看到文…
成分目录的好习惯,使得代码保持整洁,为以后的代码管理提供方便. 一.概念 一般目录有以下几个: bin:程序入口,存放start文件. conf:存放固定的配置信息,比如:连接redis的配置信息.连接mysql的配置信息等. lib:存放main文件.tools文件等. logs:存放日志 文件: start文件:程序运行开始. main文件:存放主逻辑. tools文件:存放常用工具,比如:db连接.检查小数.等等. 二.引入自己文件夹下的模块 使用from 文件夹名.文件名 import…
引子 大文件拆分问题涉及到io处理.并发编程.生产者/消费者模式的理解,是一个很好的综合应用场景,为此,花点时间做一些实践,对相关的知识做一次梳理和集成,总结一些共性的处理方案和思路,以供后续工作中借鉴. 本文将尝试由浅入深的方式表述大文件拆分的问题及不同解决方案,给出的方案不一定是最优解,也并非线上环境论证过的靠谱方式,目的只是在于通过该问题融会贯通io.多线程等基础知识理论.生产环境请慎用. 本文不会逐行讲解代码实现,而注重在方案设计及思路探讨上,但会在文末附上源码demo git地址. 问…
一.问题: 公司做一个项目,给的用户上报文是一个包含多个sheet页的excel文件, 但是在实际处理报文数据的时候需要拆分excel文件为多个独立的报文excel文件 二.解决: (1)一个一个的复制,新建文件,生成新的sheet文件,sheet多的时候很麻烦 (2)使用office的宏工具来自动化拆分文件 三.操作步骤: 注意:本操作以wps为例,其它的请自行测试 (1)下载[wps vba宏插件] (2)点击 [开发工具]-->[vba编辑器]-->[插入]-->[模块] (3)复…
转:https://shengxin.ren/article/16 https://www.cnblogs.com/lmt921108/p/7442699.html 批量下载SRA http://www.360doc.com/content/18/0428/15/48272598_749456477.shtml  我的下载的数据在/home/username/ncbi/public/sra SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Ill…
简介 SRA数据库是美国国立卫生研究院(NIH)的高通量测序数据的主要归档,是国际核苷酸序列数据库协作(INSDC)的一部分,其中包括NCBI序列读取存档(SRA),欧洲生物信息学研究所(EBI)和DNA数据库 日本(DDBJ). 提交给三个组织中的任何一个的数据都是共享的. SRA数据库数据来自高通量测序平台(Roche 454 GSSystem®,Illumina GenomeAnalyzer®,Applied Biosystems SOLiDSystem®,HelicosHeliscope…