Python 读取文件首行多了"\ufeff"字符串

python读取B.txt文件时，控制台打印首行正常，但是若是用首行内容打开文本的话，就会报错：

Traceback (most recent call last):

A

  File "E:/python project/multiProcess/test.py", line 32, in <module>

    with open("%s.txt" % line, 'r', encoding='utf-8') as f1:

FileNotFoundError: [Errno 2] No such file or directory: '\ufeffA.txt'

要打开的路径比预期A.txt多了一串字符"\ufeff", 显然无法正确打开文件.

解决方案：

在读取B.txt 时,指定编码方式为 "utf-8-sig"即可如下：

with open("B.txt", 'r', encoding='utf-8-sig') as f:

    line = f.readline()[0:-1]  #去掉末尾换行符

    print(line)

    with open("%s.txt" % line, 'r', encoding='utf-8') as f1:

        print(f1.readline())

    f1.close()

f.close()

首行出现的”\ufeff“叫BOM("ByteOrder Mark")用来声明该文件的编码信息.

”utf-8“ 是以字节为编码单元,它的字节顺序在所有系统中都是一样的,没有字节序问题,因此它不需要BOM,所以当用"utf-8"编码方式读取带有BOM的文件时,它会把BOM当做是文件内容来处理, 也就会发生类似上边的错误.

"uft-8-sig"中sig全拼为 signature 也就是"带有签名的utf-8", 因此"utf-8-sig"读取带有BOM的"utf-8文件时"会把BOM单独处理,与文本内容隔离开,也是我们期望的结果.

原文：https://blog.csdn.net/wozaizhe56/article/details/82048645

摘要：问题描述:json.loads(text,encoding='utf8')报UnexpectedUTF-8BOM(decodeusingutf-8-sig)错误,将encoding改为'utf-8-sig'仍然报错。原因分析:text包含BOM字符解决方案:将BOM头去掉
问题描述:

json.loads(text,encoding='utf8') 报Unexpected UTF-8 BOM (decode using utf-8-sig)错误,将encoding改为'utf-8-sig'仍然报错。

原因分析:

text包含BOM字符

解决方案:

将BOM头去掉,代码如下:

 if text.startswith(u'/ufeff'):

    text = text.encode('utf8')[3:].decode('utf8')

链接：https://www.jianshu.com/p/f94b3fc04f5b

python 字符串编码，区别 utf-8 和utf-8-sig的更多相关文章

python字符串编码
python默认编码 python 2.x默认的字符编码是ASCII,默认的文件编码也是ASCII. python 3.x默认的字符编码是unicode,默认的文件编码是utf-8. 中文乱码问题无 ...
Python字符串编码——Unicode
ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte).也就是 ...
python 字符串编码
通过字符串的decode和encode方法 1 encode([encoding,[errors]]) #其中encoding可以有多种值,比如gb2312 gbk gb18030 bz2 zlib ...
不得不知道的Python字符串编码相关的知识
开发经常会遇到各种字符串编码的问题,例如报错SyntaxError: Non-ASCII character 'ascii' codec can't encode characters in posi ...
python字符串编码理解（转载）
(转载)字符编码和python使用encode,decode转换utf-8, gbk, gb2312 (http://www.cnblogs.com/jxzheng/p/5186490.html) A ...
【转载】不得不知道的Python字符串编码相关的知识
原文地址:http://www.cnblogs.com/Xjng/p/5093905.html 开发经常会遇到各种字符串编码的问题,例如报错SyntaxError: Non-ASCII charact ...
python 字符串编码 str和unicode 区别以及相互转化 decode('utf-8') encode('utf-8')
Python字符串编码问题
编码问题:Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了. ASCII编码和Unicode编码的区别:ASCII编码是1个字节,而Unicode编码通常是2个字节.字母A用ASC ...
Python字符串编码转换
使用encode()方法编码 str.encode([encoding="utf-8"][,errors="strict"]) str:表示需要转换的字符串 e ...

随机推荐

ZH奶酪：PHP抓取网页方法总结
From:http://www.jb51.net/article/24343.htm 在做一些天气预报或者RSS订阅的程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过ht ...
pager-taglib分页处理的使用
pager-taglib是java中一个用于分页的小的框架.下面简单介绍一下它的具体使用. 一.环境的搭建: 将pager-taglib-2.0.war包拷贝到Tomcat的webapps下.启动To ...
使用MAVEN打JAR，直接使用
一.简单的方法: 首先在pom.xml里面添加: <build> <plugins> <plugin> <artifactId>maven-assemb ...
python反编译chm文件并生成pdf文件
# -*- coding: utf-8 -*- import os import os.path import logging import pdfkit original_chm = r'C:\Us ...
psql 查询表大小
select schemaname,tablename,pg_relation_size(schemaname||'.'||tablename) as tabsize from pg_tables o ...
CentOS安装Oracle 11gR2(x64)
本文主要步骤是参考:https://www.linuxidc.com/Linux/2014-02/97374.htm 后来自己加入了一些安装过程中遇到的问题和解决方法.使用图形界面安装Oracle已经 ...
JS或AS中处理ARGB、RGBA颜色值时要小心
(0xffffffff)>>24; //-1 (0xffffffff / 2)>>23; argb颜色需要一个无符号整数uint才能存储,如果首位是F,那么第一个二进制位就是1 ...
\G 用法：查询结果按列打印
\G 用法:查询结果按列打印 \G 放到sql语句后,可以使每个字段打印到单独的行, 如: mysql \G; mysql> select * from t \G;*************** ...
java第九节网络编程的基础知识
/** * * 网络编程的基础知识 * 网络协议与TCP/IP * IP地址和Port(端口号) * 本地回路的IP地址:127.0.0.1 * 端口号的范围为0-65535之间,0-1023之间的端 ...
开源分布式搜索平台ELK(Elasticsearch+Logstash+Kibana)入门学习资源索引
from: http://www.w3c.com.cn/%E5%BC%80%E6%BA%90%E5%88%86%E5%B8%83%E5%BC%8F%E6%90%9C%E7%B4%A2%E5%B9%B ...

python 字符串编码 ，区别 utf-8 和utf-8-sig

Python 读取文件首行多了"\ufeff"字符串

解决方案：

python 字符串编码 ，区别 utf-8 和utf-8-sig的更多相关文章

随机推荐

热门专题

python 字符串编码，区别 utf-8 和utf-8-sig

python 字符串编码，区别 utf-8 和utf-8-sig的更多相关文章