bash&shell系列文章:http://www.cnblogs.com/f-ck-need-u/p/7048359.html


有时候我们对文档过滤会有这样的需求:

  1. 筛选或删除文档中的不规则字符,比如中文字符。
  2. 把带有音调的字母替换成没有音调的普通字母,特别是拼音转换。

例如,制作一个比较全的姓氏拼音字典。首先去网上找一个常用姓氏拼音表。我随便找了一个:

百家姓全文(按拼音排序)  【A】  安(ān)  敖(áo)  艾(ài)  爱(ài)  【B】  巴(bā)白(bái) 鲍(bào) 包(bāo) 暴(bào) 班(bān) 柏(bǎi) 毕(bì) 卞(biàn) 边(biān)    薄(bó)  伯(bó)  卜(bǔ)  步(bù)   贝(bèi)  贲(bēn)  邴(bǐng) 别(bié) 百里(bǎilǐ)  【C】 蔡(cài)  岑(cén) 曹(cáo) 陈(chén) 程(chéng)  褚(chǔ) 昌(chāng) 常(cháng) 成(chéng) 崔(cuī) 储(chǔ) 车(chē) 池(chí) 从(cóng) 苍(cāng) 柴(chái) 充(chōng) 晁(cháo)     巢(cháo) 淳于(chúnyú) 单于(chányú) 楚(chǔ)   【D】 笪(dá) 戴(dài) 狄(dí) 窦(dòu) 东(dōng) 董(dǒng) 杜(dù) 刁(diāo) 丁(dīng) 邓(dèng) 段(duàn) 党(dǎng) 堵(dǔ) 都(dū) 东方(dōngfāng) 端木(duānmù) 段干(duàngān)  东郭(dōngguō) 东门(dōngmén) 第五(dìwǔ)  【E】 鄂(è)  【F】  法(fǎ) 费(fèi) 范(fàn) 樊(fán) 方(fāng) 房(fáng) 丰(fēng) 封(fēng) 酆(fēng) 冯(féng) 费(fèi) 房(fáng) 傅(fù) 伏(fú) 符(fú) 福(fú) 扶(fú) 富(fù)  【G】 盖(gài) 甘(gān) 干(gān) 高(gāo) 郜(gào) 戈(gē) 葛(gě) 耿(gěng) 谷(gǔ) 古(gǔ) 顾(gù) 郭(guō) 国(guó) 归(guī) 桂(guì) 勾(gōu) 缑(gōu) 关(guān) 管(guǎn) 广(guǎng)     公(gōng)  弓(gōng)  龚(gōng) 宫(gōng) 巩(gǒng) 贡(gòng) 公孙(gōngsūn)  公西(gōngxī) 公羊(gōngyáng) 公冶(gōngyě) 公良(gōngliáng) 榖梁(gǔliáng)     【H】  哈(hǎ) 海(hǎi) 郝(hǎo) 韩(hán) 杭(háng) 何(hé) 和(hé) 贺(hè) 衡(héng) 花(huā)    滑(huá) 桓(huán) 怀(huái) 胡(hú) 扈(hù)    惠(huì) 华(huà) 宦(huàn) 黄(huáng)   侯(hóu) 后(hòu) 洪(hóng) 弘(hóng) 红(hóng) 霍(huò) 赫连(hèlián) 皇甫(huángpǔ)  呼延(hūyán)  【J】  嵇(jī) 姬(jī) 吉(jí) 汲(jí) 籍(jí) 季(jì) 计(jì) 纪(jì) 蓟(jì) 冀(jì) 暨(jì) 金(jīn) 靳(jìn) 家(jiā) 郏(jiá) 贾(jiǎ) 简(jiǎn) 焦(jiāo)   姜(jiāng) 江(jiāng) 蒋(jiǎng) 晋(jìn) 经(jīng) 荆(jīng) 井(jǐng) 景(jǐng) 鞠(jū) 居(jū) 夹谷(jiágǔ)  【K】 寇(kòu) 孔(kǒng) 康(kāng) 柯(kē) 蒯(kuǎi) 隗(kuí) 夔(kuí) 匡(kuāng) 阚(kàn)     空(kōng) 亢(kàng) 况(kuàng)  【L】  李(lǐ) 郎(láng) 鲁(lǔ) 柳(liǔ) 雷(léi) 蓝(lán) 路(lù) 娄(lóu)   林(lín) 栾(luán) 厉(lì) 刘(liú) 柳(liǔ) 黎(lí) 吕(lǚ) 梁(liáng) 廉(lián) 鲁(lǔ) 骆(luò) 罗(luó) 凌(líng) 卢(lú)   陆(lù) 栾(luán) 龙(lóng) 赖(lài) 劳(láo) 郦(lì) 蔺(lìn) 连(lián) 廖(liào) 禄(lù) 利(lì)  隆(lóng) 冷(lěng) 逯(lù) 令狐(lìnghú) 闾丘(lǘqiū) 梁丘(liángqiū)  【M】  马(mǎ) 满(mǎn) 苗(miáo) 母(mǔ) 穆(mù) 毛(máo) 明(míng)  茅(máo) 麻(má)     蒙(méng)  孟(mèng) 糜(mí) 米(mǐ) 宓(mì)  梅(méi) 莫(mò) 墨(mò) 牟(móu) 缪(miào) 牧(mù) 慕(mù) 闵(mǐn) 俟(mòqí) 慕容(mùróng)  【N】  那(nā) 能(nài) 佴(nài) 倪(ní) 年(nián) 宁(nìng) 乜(niè) 聂(niè) 钮(niǔ) 牛(niú)
百家姓全文(按拼音排序) 农(nóng) 南门(nánmén) 南宫(nángōng) 【O】 欧(ōu) 欧阳(ōuyáng) 【P】 潘(pān) 庞(páng) 逄(páng) 裴(péi) 彭(péng) 蓬(péng) 皮(pí) 平(píng) 蒲(pú) 濮(pú) 浦(pǔ) 濮阳(púyáng) 【Q】 戚(qī) 齐(qí) 祁(qí) 乔(qiáo) 谯(qiáo) 强(qiáng) 屈(qū) 璩(qú) 瞿(qú) 钱(qián) 秦(qín) 钦(qīn) 琴(qín) 权(quán) 亓官(qínguān) 漆雕(qīdiāo) 邱(qiū) 秋(qiū) 裘(qiú) 仇(qiú) 曲(qū) 全(quán) 阙(quē) 【R】 冉(rǎn) 饶(ráo) 壤驷(rǎngsì) 任(rèn) 阮(ruǎn) 荣(róng) 容(róng) 芮(ruì) 戎(róng) 融(róng) 茹(rú) 汝(rǔ) 【S】 桑(sāng) 司(sī) 宋(sòng) 松(sōng) 舒(shū) 水(shuǐ) 苏(sū) 宿(sù) 孙(sūn) 索(suǒ) 沈(shěn) 沙(shā) 邵(shào) 施(shī) 师(shī) 石(shí) 史(shǐ) 时(shí) 厍(shè) 束(shù) 殳(shū) 盛(shèng) 单(shàn) 山(shān) 商(shāng) 尚(shàng) 双(shuāng) 韶(sháo) 莘(shēn) 申(shēn) 慎(shèn) 寿(shòu) 司马(sīmǎ) 上官(shàngguān) 申屠(shēntú) 司徒(sītú) 司空(sīkōng) 司寇(sīkòu) 生(shēng) 帅(shuài) 佘(shé) 赏(shǎng) 【T】 邰(tái) 谭(tán) 谈(tán) 陶(táo) 唐(táng) 汤(tāng) 滕(téng) 田(tián) 童(tóng)通(tōng) 佟(tóng) 钭(tǒu) 屠(tú) 涂(tú) 太叔(tàishū) 澹台(tántái) 拓跋(tuòbá) 【W】 万(wàn) 邬(wū) 巫(wū) 乌(wū) 吴(wú) 伍(wǔ) 武(wǔ) 汪(wāng) 王(wáng) 危(wēi) 微(wēi) 韦(wéi) 卫(wèi) 魏(wèi) 蔚(wèi) 温(wēn) 闻(wén) 文(wén) 翁(wēng) 沃(wò) 闻人(wénrén) 巫马(wūmǎ) 【X】 奚(xī) 郗(xī) 席(xí) 习(xí) 郤(xì) 夏(xià) 萧(xiāo) 咸(xián) 宣(xuān) 熊(xióng) 项(xiàng) 须(xū) 胥(xū) 徐(xú) 许(xǔ) 薛(xuē) 荀(xún) 谢(xiè) 解(xiè) 辛(xīn) 邢(xíng) 幸(xìng) ) 向(xiàng) 相(xiàng) 夏侯(xiàhóu) 轩辕(xuānyuán) 鲜于(xiānyú) 西门(xīmén) 【Y】 燕(yān) 鄢(yān) 颜(yán) 言(yán) 闫(yán) 阎(yán) 严(yán)晏(yàn) 姚(yáo) 羊(yáng) 杨(yáng) 阳(yáng) 养(yǎng) 仰(yǎng) 叶(yè) 云(yún) 俞(yú) 袁(yuán) 於(yū) 于(yú) 鱼(yú) 虞(yú) 余(yú) 庾(yǔ) 禹(yǔ) 郁(yù) 喻(yù) 鬱(yù) 乐(yuè) 岳(yuè) 越(yuè) 元(yuán) 伊(yī) 易(yì) 羿(yì) 益(yì) 阴(yīn) 殷(yīn)尹(yǐn)印(yìn) 应(yīng) 尤(yóu) 游(yóu) 有(yǒu) 雍(yōng) 尉迟(yùchí) 宇文(yǔwén) 乐正(yuèzhèng) 羊舌(yángshé) 【Z】 宰(zǎi) 昝(zǎn) 查(zhā) 翟(zhái) 詹(zhān) 湛(zhàn) 张(zhāng) 章(zhāng) 赵(zhào) 訾(zǐ) 支(zhī) 甄(zhēn) 曾(zēng) 周(zhōu) 邹(zōu) 郑(zhèng) 朱(zhū) 诸(zhū) 竺(zhú) 祝(zhù) 臧(zāng) 宗(zōng) 钟(zhōng) 终(zhōng) 仲(zhòng) 祖(zǔ) 左(zuǒ) 卓(zhuó) 庄(zhuāng) 诸葛(zhūgě) 宗政(zōngzhèng) 仲孙(zhòngsūn) 钟离(zhōnglí) 长孙(zhǎngsūn) 仉督(zhǎngdū) 子车(zǐjū) 颛孙(zhuānsūn) 宰父(zǎifǔ) 左丘(zuǒqiū)

通常网上找到的都是些包含音调的字符序列。我们的主要目的包括:

  1. 去掉汉字和其它与拼音无关的字符。
  2. 将音调替换成没有音节的字母。
  3. 去掉重复的拼音。
  4. 排好序,每行一个。

假如上述文件存放在yindiao.txt中。

(1).去掉非拼音相关的字符,只保留拼音字母,并存放到yindiao1.txt文件中。

cat yindiao.txt | tr -s ' ' '\n' | sed -r -n "s/([^a-z])//pg" >yindiao1.txt

将得到如下格式的内容:

xíng
xìng xiàng
xiàng
xiàhóu
xuānyuán
xiānyú
xīmén yān
yān
yán
yán
yán
yán
yányàn
yáo
yáng
yáng
yáng

(2).将带音节的字母替换。

如何处理音节,可能很多人不知道,但仔细阅读过正则表达式语法说明的人想必都知道如何表示。

在正则表达式中,使用[=a=]来表示字母a的各种音节,即āáǎà。其实这不是正则中的语法,而是一种类,它称为等价类

常见的类集还有:

  • 字符类:如[:alpha:][:alnum:]......;
  • 排序类:如[.ab.],排序类明确表示其内字符是一个整体,例如这里的例子表示只能匹配"ab",不能匹配a或b或ba。

回归正题,现在就可以将带有音节的字符进行替换了。

由于26个字母,每个字母都有4个音节,光是音节字符就共有26*4=104个。所以,想要替换文件中的所有音节字符,考虑使用循环。

for i in {a..z};do
sed -i -r "s/[[="$i"=]]/"$i"/g" yindiao1.txt
done

如果不知道sed中的引号为什么这样用,见sed修炼系列(四):sed中的疑难杂症

注意,这里sed必须使用"-i"选项,不能重定向,因为每次循环都只改变一个字母的音节,每次重定向到文件中显然不合适。

至此,得到了下面没有音节的拼音。最后剩下排序和去重。

xu
xu
xu
xu
xue
xun
xie
xie
xin
xing
xing xiang
xiang
xiahou

(3).排序、去重。

sort yindiao1.txt | uniq -u > yindiao.txt

这样就得到了期待的结果。

使用sed删除拼音的音调的更多相关文章

  1. 用sed删除空行

    用sed删除空行 我的代码如下:class Song def initialize(name)        @name = name    end def tell        puts @nam ...

  2. sed 删除换行符

    sed 删除换行符 sed ':label;N;s/\n/:/;b label' filename sed ':label;N;s/\n/:/;t label' filename 上面的两条命令可以实 ...

  3. sed 删除文本

    sed删除文本命令可以将指定行或指定行范围进行删除,sed编辑命令的删除文本符号为 d,删除文本的格式为. [ sed]$ cat input [ sed]$ sed '/8/d' input 删除最 ...

  4. Linux学习笔记:sed删除、插入数据

    一.sed删除文件第一行 sed -i '1d' file.txt -- 删除第一行 sed -i 'nd' file.txt -- 删除第n行 sed -i '$d' file.txt -- 删除最 ...

  5. shell脚本,当用sed删除某一文件里面的内容时,并追加到同一个文件会出现问题。

    shell脚本,当用sed删除某一文件里面的内容时,并追加到同一个文件会出现问题.因为初始文件和写入文件是一个文件这是失败的.需要追加到另一个文件,然后再用mv进行操作.[root@localhost ...

  6. shell编程系列11--文本处理三剑客之sed利用sed删除文本中的内容

    shell编程系列11--文本处理三剑客之sed利用sed删除文本中的内容 删除命令对照表 命令 含义 1d 删除第一行内容 ,10d 删除1行到10行的内容 ,+5d 删除10行到16行的内容 /p ...

  7. sed 删除最后几行 和删除指定行 awk使用

    sed 删除最后几行 和删除指定行   转载原文链接:http://blog.51cto.com/lspgyy/1305489 sed 想删除文件中的指定行,是可以用行号指定也可以用RE来匹配的. 删 ...

  8. sed删除文本第一个匹配行

    源文本如下,要求删除第一个为happy-123456的行. ----------------------------- aaaaaaa happy- bbbbbb asdasawe happy- ds ...

  9. sed删除包含指定字符串的所有行

    1.以删除文件example.txt中包含字符串"=yes"的行为例,example.txt文件有以下内容: dadasdfsadf=yes=sds dsdadasdkfk dsd ...

随机推荐

  1. 常用API

    1 System类 System类包含一些有用的类和字段.它不能被实例化. 属性和方法都是静态的. 1.1 常见方法 返回以毫秒为单位的当前时间 public static long currentT ...

  2. PHP读取XML文件

    xml主键被json取代,大概了解一下就OK了 简要: 加载xml文件:$xml = simplexml_load_file('sa.xml');//$xml是一个对象 读取节点:echo $xml- ...

  3. Bug等级判断标准

    测试的问题大致可分为以下几个类型:致命问题严重问题一般问题轻微问题 判断标准如下1.致命问题:造成系统崩溃.死机.死循环,导致数据库数据丢失,与数据库连接错误,主要功能丧失,基本模块缺失等问题.如:代 ...

  4. 使用locate 的正则查询 查找所有main.c

    locate支持正则查询的功能, 只需输入locate -r 正则表达式     即可. 现在我想查找所有main.c怎么做? 打开终端,输入shell: locate -r main.c$ PS:' ...

  5. 开源中文分词工具探析(五):Stanford CoreNLP

    CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...

  6. Designing Data-Intensive Applications

    下面是这本书序言中的大部分内容,本人的英文水平有限,有理解不到位的地方还请大家指教,这算是自己对这本书的读书笔记和总结. 数据是当今系统设计中许多挑战的中心,一些难以解决的问题如系统的可扩展性,一致性 ...

  7. MySQL学习笔记(二)

    连接与断开服务器 应该以下面的方式连接MySQL服务器,而不是将密码以明文方式输入连接. C:\> mysql -h host -u user -pEnter password: ******* ...

  8. BZOJ 3168: [Heoi2013]钙铁锌硒维生素 [线性基 Hungary 矩阵求逆]

    3168: [Heoi2013]钙铁锌硒维生素 题意:给一个线性无关组A,再给一个B,要为A中每个向量在B中选一个可以代替的向量,替换后仍然线性无关.判断可行和求字典序最小的解 PoPoQQQ orz ...

  9. BZOJ 3572: [Hnoi2014]世界树 [虚树 DP 倍增]

    传送门 题意: 一棵树,多次询问,给出$m$个点,求有几个点到给定点最近 写了一晚上... 当然要建虚树了,但是怎么$DP$啊 大爷题解传送门 我们先求出到虚树上某个点最近的关键点 然后枚举所有的边$ ...

  10. 零基础2018如何系统地学习python?

    首先告诉你的是,零基础学习开始系统学习Python肯定难,Python的专业程度本身就不简单,学习这事本来就是一件非常煎熬的事情,人都不愿意学习,可是没办法,为了生存掌握一个技能,你必须学,如果你认真 ...