使用awk来提取内容】的更多相关文章

1.提取gff文件中的HLA基因的相关bed文件. gff的格式: zcat *gz|gawk 'BGIN{FS="\t";OFS="\t"}$3=="gene"{match($9,/gene_name([^;]+)/,a);if(a[1]~/HLA-/){print $1,$4,$5,a[1]}}' chr6 29722775 29738528 "HLA-F" chr6 29726601 29749049 "HLA…
pyhanlp 共性分析与短语提取内容详解   简介 HanLP中的词语提取是基于互信息与信息熵.想要计算互信息与信息熵有限要做的是 文本分词进行共性分析.在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理.在文末在给出pyhanlp的调用代码. 共性分析 互信息mi,左熵lr,右熵re,详细解释见下文 信息论中的互信息 一般而言,信道中总是存在着噪声和干扰,信源发出消息x,通过信道后信宿只可能收到由于干扰作用引起的某种变形的y.信宿收到y后推测信源发出x的概率,这一过程可由后…
通常: sed 处理列  awk处理行 比较方便 Sed是一个基本的查找替换程序     sed -i   "s/^@//g"     文件  #原地操作原文件,进行替换 cat my.txt|sed s/a/A/ >n.txt    (不指定列数,默认是包含a的第一列)将1.txt文件中包含a的第一列中的a替换为A,并将结果写入n.txt文件中.该语句也可以在shell脚本中使用 cat my.txt|sed s/a/A/2 >n.txt   指定第二列,将1.txt文件…
用VS新建WinForm程序,窗体上是三个文本框和一个按钮.可以自己构造正则表达式,自己修改匹配内容 正则表达是要提取的部分为hewenqitext 代码如下: using System; using System.Text.RegularExpressions; using System.Windows.Forms; namespace HoverTreeBatch.HoverTree { public partial class RegexForm : Form { public Regex…
近期项目需求:1.要用到各种文件上传,下载. 2.并对文件进行搜索. 3.仅仅要文件里包括有搜索的内容,所有显示出来. 今天正好有时间整理一下,方便以后阅读,及对须要用到的朋友提供微薄之力.首先在实现文件上传时,使用的struts2自带的文件上传功能,通过流的方式将文件保存,在下载的时候通过流的方式写出就可以.这个实现起来不是非常难,主要是对各种文件内容的提取比較麻烦,比方word,excel,pdf等文件,不能使用普通的BufferedReader,BufferedWriter等流的方式读写提…
生信数据文件一般是按列分开的,如果我们只想简单的提取一列而不是费尽周折写个程序提取哪一列的话,awk作为一个非常好用的文档处理工具,我们现在来简单看一下他的一些功能: awk '{print $1}' ./Input.txt > ./out.txt 这里' '中是要输出的表达式,$1代表第一列,Input.txt是输入文件. awk '{print $1,$2}' 提取前两列. 提取之后的文件就可以用sort等命令进行操作: sort ./out.txt | uniq out 排序并删除重复行.…
源文件为: [root@luo5 wangxx]# cat -v luo.txt J LuoSoutth jfsaNanjing,china Y ZhangVictory UniversityNejflja,Australia D HouBeijing UniversityMelhouse,china 实现排序 [root@luo5 wangxx]# cat luo.txt |awk -v RS="" '{gsub("\n","@");print…
想要知道 TCPAbortFailed 所在列数 cat /proc/net/netstat  > test awk '/TCPAbortFailed/ {for (i=1;i<=NF;i++) if($i ~ /TCPAbortFailed/) print $i " " i}' test…
var wlan = /([a-zA-Z0-9]+)\s+Scan completed :/ var current_wlan="" if (line.match("Scan completed :")) { current_wlan = (wlan.exec(line)[1]).trim(); continue; }…
JavaScript有两种方式创建一个正则表达式: 第一种方式是直接通过/正则表达式/写出来,第二种方式是通过new RegExp('正则表达式')创建一个RegExp对象. 如: var re1 = /ABC\-001/; var re2 = new RegExp('ABC\\-001');     想要实现功能:从字符串中以多数组方式解析字符串 字符串:"adfsdf:a=1,b=2,c=3,d=-1.3;0;adfasdf" 结果: 代码: controlPara.preCont…