Linux Shell 自动化之让文本飞

一、前言:

​ 作者之前在一家 IDC 从事运维兼职工作,后来因某些原因辞职开始 Python 爬虫数据分析。因为这些经历以及后续时间积累下的经验,发现好像自己对文本分析可以写出点东西了。于是本着记录自己这块已掌握的知识点,开始参考书籍和翻阅手册编写本文。希望本文可以使大家对 Linux 下的文本分析有一个清晰的认识并**提高工作效率 **。



二、介绍:

​ sed 是流编辑器( stream editor )的缩写,众所周知的是用于文本替换(即搜索并修改文本中指定的文本流);awk 是其开发者( Aho、Weinberger、Kernighan )设计用于进行 “行列” 数据流操作的文本**编程语言 **。

​ 当然,sed 和 awk 只是 GNU/Linux 下大部分命令行文本处理工具的俩个神器,相似的还有cutgreptr 等等工具。


三、简用:

I、体验变量替换 ${}

[root@ ~]# var='welcome to linux family'
[root@ ~]# echo ${var/family/home}
welcome to linux home

如上使用 ${} 完成变量替换,当然 ${} 还有文本切片能力。更多点我查看博客园文章

II、编辑器VIM文本处理

  • 文本查找

    • :g/STRING/p

  • 文本替换

    • :%s/CONTECT/STRING/

  • 文本分析

    • :!grep -Eo '( )[a-z]{3}( )' %

III、sed 文本处理

  • 文本显示

    • sed -n '2p;4p'

  • 文本替换

    • sed -s 's/CONTECT/STRING/g'

  • 文本分析

    • sed 's/$/end' (\$/^)

    • sed '/$/^/ STRING

V、awk 文本分析

点我跳转



四、复杂:

感受一下

➜  ~ Time Now 19:44:12 > seq 1 999999 >> /tmp/maths.txt && awk '{ if(6-length($0)==5) print "00000"$0 } { if(6-length($0)==4) print "0000"$0  } { if(6-length($0)==3) print "000"$0 } { if(6-length($0)==2) print "00"$0 } { if(6-length($0)==1) print "0"$0  } { if(6-length($0)==1) print "0"$0 }  { if(6-length($0)==0) print $0   }  ' /tmp/maths.txt

➜  ~ Time Now 19:47:04 > sudo seq 1 999999 >> /tmp/maths.txt && awk '{ if(6-length($0)==5) print "00000"$0 } { if(6-length($0)==4) print "0000"$0  } { if(6-length($0)==3) print "000"$0 } { if(6-length($0)==2) print "00"$0 } { if(6-length($0)==1) print "0"$0  } { if(6-length($0)==1) print "0"$0 }  { if(6-length($0)==0) print $0   }  ' /tmp/maths.txt  | col -b >> /tmp/maths2.txt       

➜  ~ Time Now 19:48:32 > sudo rm -rf /tmp/maths.txt && seq 1 999999 >> /tmp/maths.txt && awk '{ if(6-length($0)==5) print "00000"$0 } { if(6-length($0)==4) print "0000"$0  } { if(6-length($0)==3) print "000"$0 } { if(6-length($0)==2) print "00"$0 } { if(6-length($0)==1) print "0"$0  } { if(6-length($0)==1) print "0"$0 }  { if(6-length($0)==0) print $0   }  ' /tmp/maths.txt  | col -b >> /tmp/maths3.txt

待更新


Linux Shell 自动化之让文本飞的更多相关文章

  1. Linux Shell 文本处理工具集锦 zz

    内容目录: find 文件查找 grep 文本搜索 xargs 命令行参数转换 sort 排序 uniq 消除重复行 用tr进行转换 cut 按列切分文本 paste 按列拼接文本 wc 统计行和字符 ...

  2. Linux Shell 文本处理工具集锦

    本文将介绍Linux下使用Shell处理文本时最常用的工具:find.grep.xargs.sort.uniq.tr.cut.paste.wc.sed.awk:提供的例子和参数都是最常用和最为实用的: ...

  3. linux —— shell 编程(文本处理)

    导读 本文为博文linux —— shell 编程(整体框架与基础笔记)的第4小点的拓展.(本文所有语句的测试均在 Ubuntu 16.04 LTS 上进行) 目录 基本文本处理 流编辑器sed aw ...

  4. [转] Linux Shell 文本处理工具集锦

    内容目录: find 文件查找 grep 文本搜索 xargs 命令行参数转换 sort 排序 uniq 消除重复行 用tr进行转换 cut 按列切分文本 paste 按列拼接文本 wc 统计行和字符 ...

  5. Linux Shell 文本处理工具集锦(转载)

    内容目录: find 文件查找 grep 文本搜索 xargs 命令行参数转换 sort 排序 uniq 消除重复行 用tr进行转换 cut 按列切分文本 paste 按列拼接文本 wc 统计行和字符 ...

  6. linux shell 修改文本 sed

    linux shell 修改文本echo [root@DSI tmp]# echo 'yhqt1 test1' > test1.txt [root@DSI tmp]# cat test1.txt ...

  7. Linux Shell 文本处理工具集锦【转】

    转自:http://www.cnblogs.com/me115/p/3427319.html 内容目录: find 文件查找 grep 文本搜索 xargs 命令行参数转换 sort 排序 uniq ...

  8. Linux shell文本处理工具

    搞定Linux Shell文本处理工具,看完这篇集锦就够了 Linux Shell是一种基本功,由于怪异的语法加之较差的可读性,通常被Python等脚本代替.既然是基本功,那就需要掌握,毕竟学习She ...

  9. Linux Shell交互式自动化运维程序

    Expect是Linux操作系统下的一个用来处理交互操作,系统默认是没有安装expect库,所以执行expect会提示找不到命令,需要手动安装,其它安装也比较简单,可以通过二进制源码包编译配置进行安装 ...

随机推荐

  1. 使用vue-cli创建一个vue项目

    安装vue-cli npm install -g @vue/cli 1, 使用vue创建一个项目 vue create luffy 2, 安装所需的插件 npm install vue-router ...

  2. 互联网大规模数据分析技术(自主模式)第五章 大数据平台与技术 第10讲 大数据处理平台Hadoop

    大规模的数据计算对于数据挖掘领域当中的作用.两大主要挑战:第一.如何实现分布式的计算 第二.分布式并行编程.Hadoop平台以及Map-reduce的编程方式解决了上面的几个问题.这是谷歌的一个最基本 ...

  3. 使用lucene query的CharFilter 去掉字符中的script脚本和html标签

    1.准备数据,这里我从数据库读取一个带有html标签和script脚本的数据

  4. python3--多目录之间的协作的一些必备知识

    # Auther: Aaron Fan # 动态获取执行文件的相对路径路径:print(__file__) #动态获取执行文件的绝对路径:import osfile_path = os.path.ab ...

  5. 使用OpenSSL进行转换

    使用OpenSSL进行转换 摘自:https://cloud.tencent.com/developer/ask/29886 这些命令允许您将证书和密钥转换为不同的格式,以使它们与特定类型的服务器或软 ...

  6. RTC实时时钟-备份区域BKP--原理讲解

    RTC(Real Time Clock):实时时钟 BCD码:用4位2进制来表示10以内的十进制的形式. RTC的时钟源:LSE(32.768KHZ).HSE_RTC.LSI.经过一个精密校准(RTC ...

  7. Oracle Nested table、Record

    1.如何在PL/SQL中创建和使用Nested table;2.如何在PL/SQL中创建和使用Record; 1.如何在PL/SQL中创建和使用Nested table DECLARE /**创建一个 ...

  8. mongodb ---- findAndModify 写法

    db.coll.findAndModify({ query:{x:"ggg"}, update:{$set:{"x":"gggg"}}, f ...

  9. libevent学习

    libevent是一个开源的事件控制机制,如果不想陷入多进程或多线程的困扰,那么libevent将是很合适的工具. libevent提供了很多的API来管理和控制事件,可用于设计读.写.信号.定时等各 ...

  10. (转)TinyHttp源码剖析

    tinyhttpd 是一个不到 500 行的超轻量型 Http Server,用来学习非常不错,可以帮助我们真正理解服务器程序的本质. 看完所有源码,真的感觉有很大收获,无论是 unix 的编程,还是 ...