一、背景:在爬取网络小说生成的文件中,发现有些空格没法替换,使用十六进制编辑器查看,发现这些空格字符的十六进制值是“c2a0”,其来源是网页控制的特殊字符,这是一个叫做Non-breaking space的东西,用于阻止在此处自动换行和阻止多个空格被压缩成一个。就是&nbsp。

二、替换的有效方法:使用str.replace(u'\xa0',u'')命令即可

三、示例
(1)原始文件:1.txt
显示如下:(每一行前面都有四个“c2a0”,显示为4个空格,即显示?之处)
(base) [python@ELK ~]$ vi 1.txt
????第一章预言

????除了没用的肉体自杀和精神逃避,第三种自杀的态度是坚持奋斗,对抗人生的荒谬。

????这是加缪,一个存在主义大师说的,云琅非常的认同这句话。

使用:%!xxd命令进入十六进制编辑状态,显示如下:
(base) [python@ELK ~]$ vi 1.txt
0000000: c2a0 c2a0 c2a0 c2a0 e7ac ace4 b880 e7ab  ................
0000010: a0e9 a284 e8a8 800a 0ac2 a0c2 a0c2 a0c2  ................
0000020: a0e9 99a4 e4ba 86e6 b2a1 e794 a8e7 9a84  ................
0000030: e882 89e4 bd93 e887 aae6 9d80 e592 8ce7  ................
0000040: b2be e7a5 9ee9 8083 e981 bfef bc8c e7ac  ................
0000050: ace4 b889 e7a7 8de8 87aa e69d 80e7 9a84  ................
0000060: e680 81e5 baa6 e698 afe5 9d9a e68c 81e5  ................
0000070: a58b e696 97ef bc8c e5af b9e6 8a97 e4ba  ................
0000080: bae7 949f e79a 84e8 8d92 e8b0 ace3 8082  ................
0000090: 0a0a c2a0 c2a0 c2a0 c2a0 e8bf 99e6 98af  ................
00000a0: e58a a0e7 bcaa efbc 8ce4 b880 e4b8 aae5  ................
00000b0: ad98 e59c a8e4 b8bb e4b9 89e5 a4a7 e5b8  ................
00000c0: 88e8 afb4 e79a 84ef bc8c e4ba 91e7 9085  ................
00000d0: e99d 9ee5 b8b8 e79a 84e8 aea4 e590 8ce8  ................
00000e0: bf99 e58f a5e8 af9d e380 820a            ............

(2)替换代码:1.py
(base) [python@ELK ~]$ vi 1.py
# -*- coding:utf-8 -*-
import os
f=open("1.txt","r")
str=f.read()
str1=str.replace(u"\xa0", u'')   #注意,此处"\xa0"不能输入为"\xc2\xa0"!
g=open("3.txt","w",encoding="utf-8")
g.write(str1)

(3)输出的新文件:3.txt
显示如下:(每一行前面的异常空格已不见了)
(base) [python@ELK ~]$ vi 3.txt
第一章预言

除了没用的肉体自杀和精神逃避,第三种自杀的态度是坚持奋斗,对抗人生的荒谬。

这是加缪,一个存在主义大师说的,云琅非常的认同这句话。

关于替换“c2a0”十六进制字符的方法的更多相关文章

  1. JAVA中替换字符的方法replace和replaceAll 区别

    replace和replaceAll是JAVA中常用的替换字符的方法,它们的区别是:1)replace的参数是char和CharSequence,即可以支持字符的替换,也支持字符串的替换(CharSe ...

  2. Notepad++正则表达式查找替换文本中文字符

    测试需求 测试工具中xml配置文件中注释字段包含中文字符,在Win10系统下使用工具中偶尔会出现中文乱码导致配置文件失效.解决方法将配置文件中的中文注释换成英文注释或者直接替换删除.如何将配置文件中的 ...

  3. python购物&常用字符处理方法

    python 一个购物车的例子 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 '''购物车''' 4 5 goods = [ 6 7 {&quo ...

  4. ASP.NET开发中主要的字符验证方法-JS验证、正则表达式、验证控件、后台验证

    ASP.NET开发中主要的字符验证方法-JS验证.正则表达式.验证控件.后台验证 2012年03月19日 星期一 下午 8:53 在ASP.NET开发中主要的验证方法收藏 <1>使用JS验 ...

  5. 【Linux基础】tr命令替换和删除字符

    1.tr命令 tr可以对来自标准输入的字符进行替换.压缩和删除,可以将一组字符变成另外一组字符.通过使用 tr,您可以非常容易地实现 sed 的许多最基本功能.您可以将 tr 看作为 sed 的(极其 ...

  6. tr 替换或删除字符

    1.命令功能 tr 从标准输入中替换,压缩间隔或者删除字符并从定向到标准输出. 2.语法格式 tr  option  SET1  SET2 参数 参数说明 -c 取代所有SET1中字符串 -d 删除所 ...

  7. linux(centos8):用tr替换或删除字符

    一,tr命令的用途 tr命令可以替换或删除文件中的字符 它从标准输入设备读取数据, 处理完成将结果输出到标准输出设备 说明:刘宏缔的架构森林是一个专注架构的博客,地址:https://www.cnbl ...

  8. python字符串替换的2种有效方法

    python 字符串替换可以用2种方法实现:1是用字符串本身的方法.2用正则来替换字符串 下面用个例子来实验下:a = 'hello word'我把a字符串里的word替换为python1用字符串本身 ...

  9. Java中生成随机字符的方法总结

    package learnExercise; public class RandomCharacter { public static char getRandomCharacter(char ch1 ...

随机推荐

  1. 吴恩达机器学习week2

    1.Mean normalization(均值归一化) 我们可以将均值归一化理解为特征缩放的另一种方法. 特征缩放和均值归一化的作用都是为了减小样本数据的波动使得梯度下降能够更快速的寻找到一条'捷径' ...

  2. jQuery中操作属性的方法attr与prop的区别

    attr 与 prop 都可以对某个属性进行获取和设置的操作,二者的用法相同: <script src = 'jQuery.js'></script> <script&g ...

  3. ASP.Net Core中使用Swagger

    我们先简单介绍下什么是Swagger,主要是用来干嘛?? 在Swagger诞生之前,我们通常在开发接口的过程中,需要前后端共同维护一个接口文档,然后大家按照接口文档的规范进行对接.接口文档俨然成了接口 ...

  4. [Vue warn]: Missing required prop: "value"

    tips vue中遇到这个问题 真的是很苦恼 一点一点排查 ,最后发现是因为我在 select的option中写了个默认值 ,所以才报这个错误 注释:去掉默认值那个option 选项就不报错了

  5. 02JAVA基础-运算符及选择语句

    一.运算符 1.算数运算符 算数运算符 备注 + 可以用作拼接 - * / 整数相除得整数,需要获得小数,需一方为浮点数 % 取余数 ++ 自增 -- 自减 扩展(1) 对于++和--的扩展(以++为 ...

  6. Linux常用命令详解—基于CentOS7

    ## Linux 目录- /:根目录,一般只存放目录,不存放文件- /bin -> /usr/bin:可执行二进制文件的目录,也是常用命令目录,如常用的命令 ls.cat.mv 等- /boot ...

  7. 一个数组求其最长递增子序列(LIS)

    一个数组求其最长递增子序列(LIS) 例如数组{3, 1, 4, 2, 3, 9, 4, 6}的LIS是{1, 2, 3, 4, 6},长度为5,假设数组长度为N,求数组的LIS的长度, 需要一个额外 ...

  8. SonarQube搭建手记

    前提 这篇文章记录的是SonarQube服务搭建的详细过程,应用于云迁移后的PipleLine的代码扫描环节. 笔者有软件版本升级强迫症,一般喜欢使用软件的最新版本,编写此文的时候(2020-05-1 ...

  9. .Net Core3.0 WebApi 项目框架搭建 四:JWT权限验证

    .Net Core3.0 WebApi 项目框架搭建:目录 什么是JWT 根据维基百科定义,JWT(读作 [/dʒɒt/]),即JSON Web Tokens,是一种基于JSON的.用于在网络上声明某 ...

  10. Scrapy 框架 入门教程

    Scrapy入门教程 在本篇教程中,我已经安装好Scrapy 本篇教程中将带您完成下列任务: 创建一个Scrapy项目 定义提取的Item 编写爬取网站的 spider 并提取 Item 编写 Ite ...