使用python转换编码格式

之前有写过一个使用powershell转换文档格式的方法，然而因为powershell支持不是很全，所以并不好用。这里使用python再做一个。

思路

检测源码格式，如果不是utf8，则进行转换，否则跳过

代码

import chardet

import sys

import codecs

def findEncoding(s):

    file = open(s, mode='rb')

    buf = file.read()

    result = chardet.detect(buf)

    file.close()

    return result['encoding']

def convertEncoding(s):

    encoding = findEncoding(s)

    if encoding != 'utf-8' and encoding != 'ascii':

        print("convert %s%s to utf-8" % (s, encoding))

        contents = ''

        with codecs.open(s, "r", encoding) as sourceFile:

            contents = sourceFile.read()

        with codecs.open(s, "w", "utf-8") as targetFile:

            targetFile.write(contents)

    else:

        print("%s encoding is %s ,there is no need to convert" % (s, encoding))

if __name__ == "__main__":

    if len(sys.argv) != 2:

        print("error filename")

    else:

        convertEncoding(sys.argv[1])

实际测试，可以成功转换。

知识点

chardet，这个模块是用来检测编码格式的。检测完成之后返回一个dict类型。dict的key又两个，一个是encode，一个是confidence，参数函数顾名思义。
with as 这个语法很好用，特别是在打开文件的时候，可以处理忘记关闭文件导致文件一直被占用等异常。

批量转换

import chardet

import sys

import codecs

import os

def findEncoding(s):

    file = open(s, mode='rb')

    buf = file.read()

    result = chardet.detect(buf)

    file.close()

    return result['encoding']

def convertEncoding(s):

    if  os.access(s,os.W_OK):

        encoding = findEncoding(s)

        if encoding != 'utf-8' and encoding != 'ascii':

            print("convert %s%s to utf-8" % (s, encoding))

            contents = ''

            with codecs.open(s, "r", encoding) as sourceFile:

                contents = sourceFile.read()

            with codecs.open(s, "w", "utf-8") as targetFile:

                targetFile.write(contents)

        else:

            print("%s encoding is %s ,there is no need to convert" % (s, encoding))

    else:

        print("%s read only" %s)

def getAllFile(path, suffix='.'):

    "recursive is enable"

    f = os.walk(path)

    fpath = []

    for root, dir, fname in f:

        for name in fname:

            if name.endswith(suffix):

                fpath.append(os.path.join(root, name))

    return fpath

def convertAll(path):

    fclist = getAllFile(path, ".c")

    fhlist = getAllFile(path, ".h")

    flist = fclist + fhlist

    for fname in flist:

        convertEncoding(fname)

if __name__ == "__main__":

    path = ''

    if len(sys.argv) == 1:

        path = os.getcwd()

    elif len(sys.argv) == 2:

        path = sys.argv[1]

    else:

        print("error parameter")

        exit()

    convertAll(path)

可以指定目录，也可以在当前目录下用，递归遍历。

知识点

os.walk，遍历所有文件
os.access，检查文件属性

使用python转换编码格式的更多相关文章

Python 的编码格式
[前言] Python的编码格式对于初学者来说是很头疼的一件事,不过如果接触的多了,就会发现,只要在恰当的时候使用了恰好的编码,就不会出现太多的问题. [编码介绍] python 的编码格式2.x 和 ...
python转换已转义的字符串
python转换已转义的字符串有时我们可能会获取得以下这样的字符串: >>> a = '{\\"name\\":\\"michael\\"} ...
python——代码编码格式转换
最近刚换工作不久,没太多的时间去整理工作中的东西,大部分时间都在用来熟悉新公司的业务,熟悉他们的代码框架了,最主要的是还有很多新东西要学,我之前主要是做php后台开发的,来这边之后还要把我半路出家的前 ...
Python 爬虫编码格式问题 gb2312转换utf8
遇到的问题是:爬取网页得到的结果如下(部分) 里面的中文出现乱码. <!DOCTYPE html> <html lang='zh-CN'> <head> < ...
Python: 转换文本编码
最近在做周报的时候,需要把csv文本中的数据提取出来制作表格后生产图表. 在获取csv文本内容的时候,基本上都是用with open(filename, encoding ='UTF-8') as f ...
python系统编码格式
python在安装的时候默认的编码格式是ASCII,当程序中出现非ASCII编码时,python的处理常常会报这样的错UnicodeDecodeError,python没办法处理非ASCII编码的,此 ...
python转换html到pdf文件
1.安装wkhtmltopdf Windows平台直接在 http://wkhtmltopdf.org/downloads.html 下载稳定版的 wkhtmltopdf 进行安装,安装完成之后把该程 ...
windows下用python转换markdown到html
方法一: 安装markdown, pip install markdown, 安装好后,python -m markdown xxx.md -f xxx.html 方法二:安装markdown2, p ...
protobuf基础类以及python 转换pb2.py文件
一 protobuf-前端解析js 前端解析思路: 1.问后端要数据模型文件,比如名为MODEL.proto 2.使用谷歌官方的工具生成MODEL.js 3.把项目中引用的MODEL.js 和谷歌官方 ...

随机推荐

常用jar包之commons-digester使用
常用jar包之commons-digester使用学习了:https://blog.csdn.net/terryzero/article/details/4332257 注意了, digester. ...
手机APP自动化持续集成方案
自动化测试流程自动化测试框架
json-path解析json方便可靠
JsonPath is to JSON what XPATH is to XML, a simple way to extract parts of a given document. JsonPat ...
出自 HTML4 规范的可用颜色字符串值列表（常用颜色名称及对应的十六进制值）
据称由于 HTML5 没有修改专属的颜色,HTML4 的颜色都可以在 HTML5 中正确显示. 出自 HTML4 规范的可用颜色字符串值列表如下,此表来源是 http://www.lovean.com ...
hibernate uuid
Centos7 安装 Maven 3.5.*
下载 Apache Maven 访问 Maven官方网站,打开后找到下载链接,如下: 解压 tar zxvf apache-maven-3.5.3-bin.tar.gz 添加环境变量打开 /etc/ ...
Hadoop--设置单一节点集群
目的这篇文档描述如何安装和配置一个单一节点的Hadoop,以便你可以快速使用hadoop mapreduce和Hadoop Distributed File System (HDFS)的一些简单操作 ...
Netty（五）：Netty中如何序列化数据
JDK提供了ObjectOutputStream和ObjectInputStream,用于通过网络对POJO的基本数据类型和图进行序列化和反序列化.该API并不复杂,而且可以被应用于任何实现了java ...
hibernate 配置文件无自动提示
在编辑 *.hbm.xml 文件时,myeclipse 带有自动提示功能,但 eclipse 是没有自动提示功能的.需要自己手工加上: 1.打开项目中任意一个 *.hbm.xml ...
Maven的安装以及在IDEA中的配置
Maven的安装之前的一篇博客中已经写到过了Maven的安装.这里就只给出链接了. http://www.cnblogs.com/tuhooo/p/5905569.html 版本虽然不同,但是安装的 ...

使用python转换编码格式

思路

代码

知识点

批量转换

知识点

使用python转换编码格式的更多相关文章

随机推荐

热门专题