0. 背景

之前公司的项目中，需要在嵌入式系统中实现一个http的网页端内容，由于项目历史遗留问题，公司是采用的将html文件转成c语言头文件的方式，每次修改页面端都需要从新编译一下程序，非常的繁琐。

虽然繁琐，但是因为历史遗留问题，历史遗留项目都采用这种方式做后面的升级维护。

入乡随俗嘛，用python写了一个html和h文件互转的小程序，程序编写的过程和原理很简单，以后有时间再另外发帖。（TODO）在此不做深入讨论。

程序也很好用，但是最近将公司自己写的程序使用gitblit本地仓库的形式进行版本管理后，发现一个致命的问题。就是每次转换成的h文件和公司历史遗留的文件进行git diff 时候，满屏都是不一样的地方。这咋利于版本控制和验证呢？

1. 问题分析

究竟是哪里不同呢？后来发现原来我写的转换脚本，和公司惯用的html to c脚本有着严重不同的地方在于：

公司旧版本程序是：

我转换的程序是：

git diff 比对文件的时候是会比对空格的，而且是引号的位置不同，所以就是大段的内容是不一样的。

这怎么办呢？

这时候正则匹配就派上用场了。

2. 寻找方法

上述问题其实总结起来就是：“引号位置放错了”。那么怎么知道应该在哪里放置引号呢？博主想到的笨办法就是在把每行的内容单独拎出来，然后分成三个部分，空格+内容+空格的方式，然后在组合成空格+引号 +内容+引号+空格的方式。然后实际上就是提取出来了内容两边的东西。

talk is cheap , show codes.

假设我们有一个 test.html 文件：

 <!DOCTYPE html>

 <html lang="en">

 <head>

     <meta charset="UTF-8">

     <title>Document</title>

 </head>

 <body>

     <h1>Hello World</h1>

 </body>

 </html>

我们读取它的时候，要注意，每行实际在末尾有一个换行符\n

现在我们编写一个 r.py 脚本

 import re

 with open('test.html') as f:

     lines = f.readlines() # 获取行列表信息

     print(lines) # 打印行信息

我们在ipython中执行是这样的：

 In []: %run r.py

 ['<!DOCTYPE html>\n', '<html lang="en">\n', '<head>\n', '\t<meta charset="UTF-8"

 >\n', '\t<title>Document</title>\n', '</head>\n', '<body>\n', '\t<h1>Hello Wor

 ld</h1>\n', '</body>\n', '</html>']

2,3,4 表示的是每行的信息，和我们上面的 test.html 文件是一致的。

将上面的列表整理一下：

 # 整理列表

 [

 '<!DOCTYPE html>\n',

 '<html lang="en">\n',

 '<head>\n',

 '\t<meta charset="UTF-8">\n',

 '\t<title>Document</title>\n',

 '</head>\n', '<body>\n',

 '\t<h1>Hello World</h1>\n',

 '</body>\n', '</html>'

 ]

可以看出，我们就是逐行打印了文件内容而已：

拿第6行举例，我们需要匹配到\t 和 \n 并在合适的地方加上引号，程序就over了。

查阅正则内容（菜鸟教程Python正则表达式章节），可知道 \s 可以匹配任意空白字符。

于是，我们用行6字符串测试一下我们的处理代码对不对：

In []: s = re.search(r'^(\s*)(.*)(\s*)$','\t"<title>Document</title>"\n')

In []: s.group()

Out[]: '\t"<title>Document</title>"\n'

In []: s.group()

Out[]: '\t"<title>Document</title>"\n'

In []: s.group()

Out[]: '\t'

In []: s.group()

Out[]: '"<title>Document</title>"'

In []: s.group()

Out[]: '\n'

测试和之前的想法是一致的。括弧括起来的内容被捕获出来。

3. 解决问题

由此，上述问题基本已经找到解决的头绪，那么定下代码编写的流程：

读取读文件
行列表信息行处理
读取写文件
写入处理后的行列表信息

于是编写代码：

 import re # 引入正则库

 with open('test.html') as f: # 读取读文件

     lines = f.readlines() # 读取行信息

     r = r'^(\s*)(.*)(\s*)$' # 正则

     lines = [re.search(r,l).group() +'"'+ re.search(r,l).group()+'\\n"'+re.search(r,l).group() for l in lines] # 处理行信息

     with open('test.h','w+') as f2: # 读取写文件

         f2.writelines(lines) # 写入行信息

其中第4行就是我们处理行信息的过程，这里用了一个列表推导式

所谓列表推导式，就是一种for循环的简写形式，可以从一个列表，经过一定的变换，快速生成一个列表。例如：

In[]   :  a = [,,,]

In[]   :  print(a)

Out[]  :  [,,,]

In[]   :  print([i for i in a])

Out[]  :  [,,,]

In[]   :  print([i*+ for i in a])

Out[]  :  [,,,]

也就是，前面第4行的程序实际上就是将lines的数据单个处理，在捕获内容中加入一些我们需要的字符，比如是双引号，然后组成了新的列表。写入到文件中。

问题解决。

4. 总结

这个测试脚本的重点就在于正则的捕获，正则捕获在文本文件、字符串处理中使用广泛，需要不断积累和总结，方能领悟其中的妙用。

python学习：python文件中空格和换行符的捕获和文本文件的转存的更多相关文章

sqlserver数据库去除字段中空格，换行符，回车符(使用replace语句)
SQL中可以使用Replace函数来对某个字段里的某些字符进行替换操作,语法如下: 语法 REPLACE ( original-string, search-string, replace-strin ...
linux下使用vim替换文件中的^M换行符
在linux下打开windows编辑过的文本,会出现由于换行符不一致而导致的内容格式错乱的问题.最常见的就是出现^M . 我出现的问题是:在windows编辑过的文件,传到linux上后再用vim打开 ...
python操作txt文件中数据教程[4]-python去掉txt文件行尾换行
python操作txt文件中数据教程[4]-python去掉txt文件行尾换行觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文章 python操作txt文件中数据教程[1]-使用pyt ...
python操作txt文件中数据教程[1]-使用python读写txt文件
python操作txt文件中数据教程[1]-使用python读写txt文件觉得有用的话,欢迎一起讨论相互学习~Follow Me 原始txt文件程序实现后结果程序实现 filename = '. ...
python学习9—文件基本操作与高级操作
python学习9—文件基本操作与高级操作 1. 文件基本操作打开文件,获得文件句柄:f = open('filename',encoding='utf-8'),open会查询操作系统的编码方式,并 ...
python操作txt文件中数据教程[3]-python读取文件夹中所有txt文件并将数据转为csv文件
python操作txt文件中数据教程[3]-python读取文件夹中所有txt文件并将数据转为csv文件觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考文献 python操作txt文件中 ...
python操作txt文件中数据教程[2]-python提取txt文件
python操作txt文件中数据教程[2]-python提取txt文件中的行列元素觉得有用的话,欢迎一起讨论相互学习~Follow Me 原始txt文件程序实现后结果-将txt中元素提取并保存在c ...
python学习之文件读写,序列化(json,pickle,shelve)
python基础文件读写凡是读写文件,所有格式类型都是字符串形式传输只读模式(默认) r f=open('a.txt','r')#文件不存在会报错 print(f.read())#获取到文件所 ...
使用Python从PDF文件中提取数据
前言数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...

随机推荐

POJ 3580 SuperMemo (FHQ_Treap)
题意:让你维护一个序列,支持以下6种操作: ADD x y d: 第x个数到第y个数加d . REVERSE x y : 将区间[x,y]中的数翻转 . REVOLVE x y t :将区间[x,y] ...
strstr()查找函数,strchr(),strrchr(),stristr()/strpos()，strrpos()查找字符串位置
在一个较长的字符串这查找匹配的字符串或字符,其中strstr()和strchr()是完全一样的. 例: echo strstr('why always you','you'); 输出: you 如果为 ...
C++输出斐波那契数列的几种方法
定义: 斐波那契数列指的是这样一个数列:0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, ... 这个数列从第三项开始,每一项都等于前两项之和. 以输出斐波那 ...
R：正则表达式
正则表达式: 例:sub("a","",c("abcd","dcba")): [1] "bcd" ...
Blocks UVA - 10559
传送门题目大意有n个带有颜色的方块,没消除一段长度为x的连续的相同颜色的方块可以得到x^2的分数,让你用一种最优的顺序消除所有方块使得得分最多. 分析首先不难看出这是一个区间dp,于是我们考虑如 ...
linux设备驱动第四篇：驱动调试方法
http://www.cnblogs.com/donghuizaixian/archive/2015/04/02/4387083.html 上一篇我们大概聊了如何写一个简单的字符设备驱动,我们不是神, ...
pentaho和spark-sql对接
pentaho可以和hive做对接,所以和spark-sql做对接也是妥妥的.结果让人很失望了啊,我配置了很久都搞不定,最后脑袋突然灵机一动打通了. 1:替换pentaho自带的hive驱动. 路径 ...
SQLite操作
创建有主键的表: create table test (pkey varchar(16) primary key, value varchar(10)); 创建有复合(即key由多个字段联合组成)主键 ...
ASP.NET MVC之"重定向/页面跳转"(关键词RedirectToAction,Redirect)
MVC5 API(官方) 1.RedirectToRouteResult RedirectToAction(string actionName); RedirectToRouteResult Redi ...
Ubuntu - 安装hadoop（简约版）
相关版本: VMware ubuntuKylin16.04 JDK :openjdk Hadoop-2.9.1 步骤: 1.SSH 配置 [ 远程登陆 ] [ 配置SSH免码登陆 ] *测试:ssh ...

python学习：python文件中空格和换行符的捕获和文本文件的转存