Linux文件排序和FASTA文件操作

文件排序

seq: 产生一系列的数字; man seq查看其具体使用。我们这使用seq产生下游分析所用到的输入文件。

# 产生从1到10的数，步长为1

$ seq 1 10

1

2

3

4

5

6

7

8

9

10

# 产生从1到10的数，步长为1，用空格分割

$ seq -s ' ' 1 10

1 2 3 4 5 6 7 8 9 10

# 产生从1到10的数，步长为2

# 如果有3个数，中间的数为步长，最后一个始终为最大值

$ seq -s ' ' 1 2 10

1 3 5 7 9

$ cat <(seq 0 3 17) <(seq 3 6 18) >test

$ cat test

0

3

6

9

12

15

3

9

15

sort: 排序，默认按字符编码排序。如果想按数字大小排序，需添加-n参数。

# 可能不符合预期的排序，系统首先排0，然后排1, 3, 6, 9

$ sort test

0

12

15

15

3

3

6

9

9

# 按数字大小排序

$ sort -n test

0

3

3

6

9

9

12

15

15

sort -u: 去除重复的行，等同于sort | uniq

$ sort -nu test

0

3

6

9

12

15

sort file | uniq -d: 获得重复的行(d = duplication)

$ sort -n test | uniq -d

3

9

15

sort file | uniq -c: 获得每行重复的次数。

# 第一列为每行出现的次数，第二列为原始的行

$ sort -n test | uniq -c

  1 0

  2 3

  1 6

  2 9

  1 12

  2 15

# 换一个文件看的更清楚

$ cat <<END >test2

> a

> b

> c

> b

> a

> e

> d

> a

> END

# 第一列为每行出现的次数，第二列为原始的行

$ sort test2 | uniq -c

      3 a

      2 b

      1 c

      1 d

      1 e

# 在执行uniq操作前，文件要先排序，不然结果很诡异

$ cat test2 | uniq -c

      1 a

      1 b

      1 c

      1 b

      1 a

      1 e

      1 d

      1 a

整理下uniq -c的结果，使得原始行在前，每行的计数在后。

awk是一个强大的文本处理工具，其处理数据模式为按行处理。每次读入一行，进行操作。OFS: 输出文件的列分隔符 (output file column separtor)；FS为输入文件的列分隔符 (默认为空白字符)。awk中的列从第1到n列，分别记录为$1, $2 … $n。BEGIN表示在文件读取前先设置基本参数；与之相对应的是END，只文件读取完成之后进行操作。不以BEGIN, END开头的{}就是文件读取、处理的部分。

# awk的操作就是镀金上一步的结果，去除多余的空白，然后调换2列

$ sort test2 | uniq -c | awk 'BEGIN{OFS="\t";}{print $2, $1}'

a    3

b    2

c    1

d    1

e    1

对两列文件，安照第二列进行排序, sort -k2,2n。

# 第二列按数值大小排序

$ sort test2 | uniq -c | awk 'BEGIN{OFS="\t";}{print $2, $1}' | sort -k2, 2n

c    1

d    1

e    1

b    2

a    3

# 第二列按数值大小排序

# 第二列相同的再按第一列的字母顺序的逆序排序 (-r)

# 注意看前3行的顺序与上一步结果的差异

$ sort test2 | uniq -c | awk 'BEGIN{OFS="\t";}{print $2,$1}' | sort -k2,2n -k1,1r

e    1

d    1

c    1

b    2

a    3

FASTA序列提取

生成单行序列FASTA文件，提取特定基因的序列，最简单的是使用grep命令。主要用途是匹配文件中的字符串，以此为基础，进行一系列的操作。如果会使用正则表达式，将会非常强大。正则表达式版本很多，几乎每种语言都有自己的规则。

# 生成单行序列FASTA文件

$ cat <<END >test.fasta

> >SOX2

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> >POU5F1

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> >NANOG

> CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT

> END

$ cat test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

>POU5F1

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

>NANOG

CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT

# grep匹配含有SOX2的行

# -A 1 表示输出的行中，包含匹配行的下一行 (A: after)

$ grep -A 1 'SOX2' test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

# 先判断当前行是不是 > 开头，如果是，表示是序列名字行，替换掉大于号，取出名字。

# sub 替换, sub(被替换的部分，要替换成的，待替换字符串)

# 如果不以大于号开头，则为序列行，存储起来。

# seq[name]: 相当于建一个字典，name为key，序列为值。然后就可以使用name调取序列。

$ awk 'BEGIN{OFS=FS="\t"}{if($0~/>/) {name=$0; sub(">", "", name);} else seq[name]=$0;}END{print ">SOX2"; print seq["SOX2"]}' test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

多行FASTA序列提取要麻烦些，一个办法就是转成单行序列，用上面的方式处理。

sed和tr都为最常用的字符替换工具。

$ cat <<END >test.fasta

> >SOX2

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> ACGAGGGACGCATCGGACGACTGCAGGAC

> >POU5F1

> CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT

> CGGAAGGTAGTCGTCAGTGCAGCGAGTCC

> >NANOG

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> ACGAGGGACGCATCGGACGACTGCAGG

> ACGAGGGACGCATCGGACGACTGCAGGACTGTC

> ACGAGGGACGCATCGGACGACTGCAGGACTGT

> END

# 给>号开头的行的行尾加个TAB键，以便隔开名字和序列

# TAB键不可见，直接看看不大

# \(\)表示记录匹配的内容，\1则表示()中记录的匹配的内容

# 后面我们专门讲sed

$ sed 's/^\(>.*\)/\1\t/' test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

ACGAGGGACGCATCGGACGACTGCAGGAC

>POU5F1

CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT

CGGAAGGTAGTCGTCAGTGCAGCGAGTCC

>NANOG

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

ACGAGGGACGCATCGGACGACTGCAGG

ACGAGGGACGCATCGGACGACTGCAGGACTGTC

ACGAGGGACGCATCGGACGACTGCAGGACTGT

#使用cat -A 可以显示文件中所有的符号

# ^I 表示tab键

# $表示行尾

$ sed 's/^\(>.*\)/\1\t/' test.fasta | cat -A

>SOX2^I$

ACGAGGGACGCATCGGACGACTGCAGGACTGTC$

ACGAGGGACGCATCGGACGACTGCAGGACTGTC$

ACGAGGGACGCATCGGACGACTGCAGGAC$

>POU5F1^I$

CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT$

CGGAAGGTAGTCGTCAGTGCAGCGAGTCC$

>NANOG^I$

ACGAGGGACGCATCGGACGACTGCAGGACTGTC$

ACGAGGGACGCATCGGACGACTGCAGG$

ACGAGGGACGCATCGGACGACTGCAGGACTGTC$

ACGAGGGACGCATCGGACGACTGCAGGACTGT$

# 把所有的换行符替换为空格

# 主意第二个参数，引号内为空格

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' '

>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC >POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC >NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT 

# 把最后一个空格替换为换行符

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/'

>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC >POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC >NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT

# 把  ' >'替换为换行符 注意被替换的是 空格+大于号

# 当连用多个替换命令时，使用-e 隔开

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/' -e 's/ >/\n>/g'

>SOX2     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGAC

>POU5F1     CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGT CGGAAGGTAGTCGTCAGTGCAGCGAGTCC

>NANOG     ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGG ACGAGGGACGCATCGGACGACTGCAGGACTGTC ACGAGGGACGCATCGGACGACTGCAGGACTGT

# 把所有的空格替换掉

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/' -e 's/ >/\n>/g' -e 's/ //g'

>SOX2    ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC

>POU5F1    CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGTCGGAAGGTAGTCGTCAGTGCAGCGAGTCC

>NANOG    ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGT

# 把TAB键转换为换行符

$ sed 's/^\(>.*\)/\1\t/' test.fasta | tr '\n' ' ' | sed -e 's/ $/\n/' -e 's/ >/\n>/g' -e 's/ //g' -e 's/\t/\n/g'

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC

>POU5F1

CGGAAGGTAGTCGTCAGTGCAGCGAGTCCGTCGGAAGGTAGTCGTCAGTGCAGCGAGTCC

>NANOG

ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGT

或者简单点，直接用前面的awk略微做下修改。

# 差别只在一点

# 对于单行fasta文件，只需要记录一行，seq[name]=$0

# 对于多好fasta文件，需要把每一行序列都加到前面的序列上，seq[name]=seq[name]$0

$ awk 'BEGIN{OFS=FS="\t"}{if($0~/>/) {name=$0; sub(">", "", name);} else seq[name]=seq[name]$0;}END{print ">SOX2"; print seq["SOX2"]}' test.fasta

>SOX2

ACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGACTGTCACGAGGGACGCATCGGACGACTGCAGGAC

Linux文件排序和FASTA文件操作的更多相关文章

Linux文件排序工具 sort 命令详解
sort是排序工具,它完美贯彻了Unix哲学:"只做一件事,并做到完美".它的排序功能极强.极完整,只要文件中的数据足够规则,它几乎可以排出所有想要的排序结果,是一个非常优质的工具 ...
linux下文件压缩与解压操作
对于刚刚接触Linux的人来说,一定会给Linux下一大堆各式各样的文件名给搞晕.别个不说,单单就压缩文件为例,我们知道在Windows下最常见的压缩文件就只有两种,一是,zip,另一个是.rap.可 ...
【转发】du命令实现Linux 某个文件夹下的文件按大小排序
1. df -lh 2. du -s /usr/* | sort -rn这是按字节排序 3. du -sh /usr/* | sort -rn这是按兆(M)来排序 4.选出排在前面的10个du -s ...
linux命令（5）文件操作：ls命令、显示文件总个数
一:ls命令是最常用的linux命令了:下面是ls --help里面的用法在提示符下输入ls --help ,屏幕会显示该命令的使用格式及参数信息: 先介绍一下ls命令的主要参数: -a 列出目录下 ...
linux下查找文件、排序、查看文件内容
本文介绍下,在linux系统中,查找文件的命令用法,以及按时间排序找到的目标文件的方法. 1.例如:查找当前目录下所有.ini文件,并按时间排序示例: find ./ -name *.ini ...
[Linux]目录x权限对文件操作的影响
问题我们常使用linux以下命令 cd 进入目录 ls 列出目录中的文件或者直接打开目录中的文件以上操作对于目录权限位的设置来说,是有一定迷惑性的,如表格所示 cd进入该目录 cd进入该目录 ...
每天一个linux命令（文件上传下载文件操作）：【转载】gzip命令
减少文件大小有两个明显的好处,一是可以减少存储空间,二是通过网络传输文件时,可以减少传输的时间.gzip是在Linux系统中经常使用的一个对文件进行压缩和解压缩的命令,既方便又好用.gzip不仅可以用 ...
Linux环境下实现对文件读写操作
---- 今天分享一下在linux系统在实现对文件读写一些基本的操作,在这之前我们要掌握一些基本的技能在Linux环境下.比如查看命令和一个函数的具体用法,就是相当于查手册,在Linux下有一个man ...
Linux awk+uniq+sort 统计文件中某字符串出现次数并排序
https://blog.csdn.net/qq_28766327/article/details/78069989 在服务器开发中,我们经常会写入大量的日志文件.有时候我们需要对这些日志文件进行统计 ...

随机推荐

Mariadb 主从
一 mariadb主从多用于网站架构,因为该主从的同步机制是异步的,数据的同步有一定延迟,也就是说有可能会造成数据的丢失,但是性能比较好,因此网站大多数用的是主从架构的数据库,读写分离必须基于主从架构 ...
使用heartbeat+monit实现主备双热备份系统
一.使用背景项目须要实现主备双热自己主动切换的功能,保证系统7*24小时不间断执行.现已有两台双网卡的IBM的server,为了不再添加成本採购独立外部存储设备和双机热备软件.採用了linux下开源 ...
Android开源项目SlidingMenu的学习笔记（一）
SlidingMenu是眼下在应用程序上非常流行的一种UI技术.能够实现一种比較炫的滑动效果,SlidingMenu是Git上托管的一个项目,开源免费的.SlidingMenu作为一个Library的 ...
[翻译角]Learn From George, Not Pinocchio(ESLPOD)
以下转自www.eslpod.com,翻译为本人添加.其余版权均归原网站所有. ESLPOD是一个英语学习网站,我最初知道这个网站,是因为“奶爸”<把你的英语用起来>一书的推荐. ESLP ...
mysql group by 组内排序 group by 原理
mysql group by 组内排序 SELECT * FROM (SELECT MAX(id) AS t,wukong_uid, 1 AS tag FROM toutiao_uid_gath ...
SpringMVC_2
web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi=" ...
cssTest
html <!doctype html> <html> <head> <meta charset="utf-8"> <meta ...
7-80 HTML5新增的JS选择器
7-80 HTML5新增的JS选择器学习要点 HTML5新增的JS选择器在传统的 JavaScript 开发中,原生的 JavaScript 所提供的 DOM 选择方法并不多,仅仅局限于通过 ta ...
luogu 4630 [APIO2018] Duathlon 铁人两项
题目大意: 无向图上找三个点 a b c使存在一条从a到b经过c的路径求取这三个点的方案数思路: 建立圆方树这个圆方树保证没有两个圆点相连或两个方点相连对于每个节点x 设该节点为路径的中间节点 ...
[Codeforces 339D] Xenia and Bit Operations
[题目链接] https://codeforces.com/problemset/problem/339/D [算法] 线段树模拟即可时间复杂度 :O(MN) [代码] #include<bi ...

Linux文件排序和FASTA文件操作

Linux文件排序和FASTA文件操作的更多相关文章

随机推荐

热门专题