title author date CreateTime categories
C# 判断文件编码
lindexi
2018-08-10 19:16:52 +0800
2018-2-13 17:23:3 +0800
C#

我们的项目中会包含有很多文件,但是可能我们没有注意到的,我们的文件的编码不一定是utf-8,所以可能在别人电脑运行时出现乱码。最近在做一个项目,这个项目可以把我们的文件夹里的所有文本,判断他们是什么编码,如果不是用户规定的编码,那么就告诉用户,是否要把它规范为设置的编码。

故事

编码问题是历史带来的,所以需要说下文件编码的历史。

一开始程序员认为 Ascii 就可以表达一切,于是一开始就只有 Ascii 编码。后来 中国 这样强大的国家加入 IT 于是就需要表达自己国家的编码,于是中国就出了GBK,这个一个伟大的编码,因为他最难判断。

最开始我们不客气地把那些127号之后的符号们直接取消掉, 取消之后规定:小于127的和原来一样,但两个大于127的字符连在一起时,就表示一个汉字,于是使用两个字节前面的一个字节(0xA1- 0xF7),后面一个字节(0xA1-0xFE),这样我们就可以组合出大约7000多个简体汉字了。在这些编码里,我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了,连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的”全角”字符,而原来在127号以下的那些就叫 “半角” 字符了。 中国人民看到这样很不错,于是就把这种汉字方案叫做 “GB2312“。GB2312 是对 ASCII 的中文扩展。

但是汉字是很多的,所以 GB2312 不够用了,于是就规定了,在后面一个字节,不再是大于127的了,直接是一个大于127的字符加上另一个字符就表示一个字,这个叫 GBK 。GBK兼容 GB2312 ,添加好多新汉字和字符,支持很多民族的字符。

在中国做出自己的编码的时候,中国台湾地区也做出自己的编码, 这就是 BIG-5 ,但是历史原因,大陆把 GBK 包含了 繁体字,于是两个方案就无法准确识别了。现在没有一个方法可以识别 一个文件是 GB2312 还是 Big-5 。

中国都除了两个编码,不能识别的编码,其他国家更是出了好多编码,于是程序员无法识别其他国家的编码。

于是这时,出现了 unicode ,他是一个国际标准,但是没有人使用它。后来在 网络的发展,人们为可以在世界使用自己的网站,就使用了 unicode ,但是他的传输性能比较差,好在有了 Utf-8 。

关于字符编码的故事,可以去看:http://www.jianshu.com/p/326795dab773

因为文件编码太多,最好是让文件自己说自己是什么编码,于是 WR 就说,在文件开始使用两个字节来说明文件是什么编码。于是这就叫文件带签名,这样可以根据文件自己描述,来读取文件。

下面来说下如何识别各种字符。

我们常用的编码有 UTF-8 和 GBK ,所以这就是我们的重点关注编码,可惜现在没有一个好的办法区别 UTF-8 和 GBK 。

如果是带 BOM 的文件,带 BOM 就是带签名,我们可以看到在 VisualStudio 的 文件-高级保存 有 UTF-8 带签名和 UTF-8 编码。

那么带签名的意思是什么,这个和历史有关,我们做出了太多编码,有时无法解析文件的编码,如我们在记事本写上联通,再次打开会是乱码的原因一样,为了让文件自己告诉是什么编码,我们就取文件的前四个 byte ,用于让文件说出自己的编码。

对带签名文件,我们可以简单得到他的编码。See:http://lindexi.oschina.io/lindexi/post/win10-uwp-%E8%AF%BB%E5%8F%96%E6%96%87%E6%9C%ACGBK%E9%94%99%E8%AF%AF/

        private static Encoding AutoEncoding(byte[] bom)
{
if (bom.Length != 4)
{
throw new ArgumentException("EncodingScrutator.AutoEncoding 参数大小不等于4");
} // Analyze the BOM if (bom[0] == 0x2b && bom[1] == 0x2f && bom[2] == 0x76)
return Encoding.UTF7; //85 116 102 55 //utf7 aa 97 97 0 0
//utf7 编码 = 43 102 120 90 if (bom[0] == 0xef && bom[1] == 0xbb && bom[2] == 0xbf)
return Encoding.UTF8; //无签名 117 116 102 56
// 130 151 160 231
if (bom[0] == 0xff && bom[1] == 0xfe)
return Encoding.Unicode; //UTF-16LE if (bom[0] == 0xfe && bom[1] == 0xff)
return Encoding.BigEndianUnicode; //UTF-16BE if (bom[0] == 0 && bom[1] == 0 && bom[2] == 0xfe && bom[3] == 0xff) return Encoding.UTF32; return Encoding.ASCII; //如果返回ASCII可能是GBK、无签名 utf8
}

那么对于没有带签名的文件,我们如何判断?其实我找了现在很多大神的博客,他们都认为这个是没有一个可行的方法,精确判断。所以我们只能通过一个近似的方法来判断。

找了很久,发现了一个很好的算法,对于文件长度不是3的倍数,和包含有中文、ASCII字符的 GBK 编码文件,几乎不会与UTF8混淆。

我们统计属于 GBK 的 byte 个数和属于UTF8的byte个数,比较两个个数,如果countGBK 大于 countUtf8 那么编码就是 GBK,否则是 UTF8。如果相同,gg,所以我们需要一个置信度变量。

看起来我们需要好多变量,于是写一个类

  using System.IO;
using System.Text; namespace EncodingNormalior.Model
{
/// <summary>
/// 包括文件和编码
/// </summary>
public class EncodingScrutatorFile
{
/// <summary>
/// 文件
/// </summary>
public FileInfo File { set; get; } /// <summary>
/// 编码
/// </summary>
public Encoding Encoding { set; get; } /// <summary>
/// 置信度
/// 范围0-1,1表示确定,0表示不确定,注意:ASCII编码的置信度为0
/// </summary>
public double ConfidenceCount { set; get; } = 0;
}
}

那么如何统计文件中属于 GBK的 byte 个数

我们需要知道 GBK 的编码,对于一般的 ASCII 字符,使用一个 byte 和ASCII一样,如果一个文件都是 ASCII 字符,那么GBK 编码和 ASCII 的都一样,我们统计得到属于 GBK的byte个数为0。对于其他的字符,使用两个 byte 表示。

我找到了一个大神写的判断,https://gist.github.com/neesenk/956765

<script src="https://gist.github.com/neesenk/956765.js"></script>

实际上试过了,不如使用firstByte >= 161 && firstByte <= 247 && secondByte >= 161 && secondByte <= 254判断。

那么知道了如何判断一个字符是属于GBK,那么我们可以开始写函数CountGbk

        /// <summary>
/// 统计文件属于 GBK 的 byte数
/// </summary>
/// <returns></returns>
private int CountGbk()
{
var count = 0; //存在GBK的byte
if (CountBuffer == null)
{
ReadStream();
}
var length = CountBuffer.Length; //总长度 var buffer = CountBuffer;
const char head = (char) 0x80; //小于127 通过 &head==0 for (var i = 0; i < length; i++)
{
var firstByte = buffer[i]; //第一个byte,GBK有两个
if ((firstByte & head) == 0) //如果是127以下,那么就是英文等字符,不确定是不是GBK
{
continue; //文件全部都是127以下字符,可能是Utf-8 或ASCII
}
if (i + 1 >= length) //如果是大于127,需要两字符,如果只有一个,那么文件错了,但是我也没法做什么
{
break;
}
var secondByte = buffer[i + 1]; //如果是GBK,那么添加GBK byte 2
if (firstByte >= 161 && firstByte <= 247 &&
secondByte >= 161 && secondByte <= 254)
{
count += 2;
i++;
}
}
return count;
}

统计文件中属于 utf8 的byte个数

        /// <summary>
/// 属于 UTF8 的 byte 数
/// </summary>
/// <returns></returns>
private int CountUtf8()
{
var count = 0;
if (CountBuffer == null)
{
ReadStream();
} var length = CountBuffer.Length; var buffer = CountBuffer; // new byte[length];
const char head = (char) 0x80;
//while ((n = stream.Read(buffer, 0, n)) > 0)
{
for (var i = 0; i < length; i++)
{
var temp = buffer[i];
if (temp < 128) // !(temp&head)
{
//utf8 一开始如果byte大小在 0-127 表示英文等,使用一byte
//length++; 我们记录的是和CountGBK比较
continue;
}
var tempHead = head;
var wordLength = 0; //单词长度,一个字使用多少个byte while ((temp & tempHead) != 0) //存在多少个byte
{
wordLength++;
tempHead >>= 1;
} if (wordLength <= 1)
{
//utf8最小长度为2
continue;
} wordLength--; //去掉最后一个,可以让后面的 point大于wordLength
if (wordLength + i >= length)
{
break;
}
var point = 1; //utf8的这个word 是多少 byte
//utf8在两字节和三字节的编码,除了最后一个 byte
//其他byte 大于127
//所以 除了最后一个byte,其他的byte &head >0
for (; point <= wordLength; point++)
{
var secondChar = buffer[i + point];
if ((secondChar & head) == 0)
{
break;
}
} if (point > wordLength)
{
count += wordLength + 1;
i += wordLength;
}
}
}
return count;
}

我们判断如果是不带签名的文件,判断为 UTF8 或GBK,可以使用判断属于 GBK 的 byte 多还是 UTF8 多。

                var countUtf8 = CountUtf8();
if (countUtf8 == 0)
{
encoding = Encoding.ASCII;
}
else
{
var countGbk = CountGbk();
if (countUtf8 > countGbk)
{
encoding = Encoding.UTF8;
EncodingScrutatorFile.ConfidenceCount = (double) countUtf8/(countUtf8 + countGbk);
}
else
{
encoding = Encoding.GetEncoding("GBK");
EncodingScrutatorFile.ConfidenceCount = (double) countGbk/(countUtf8 + countGbk);
}
}

下面是我看到的大神的博客,如果希望了解编码的问题,可以参见下面的博客。

我把项目开源,希望能帮到大家。

https://github.com/lindexi/EncodingNormalior

听说项目的名字拼错了,大家不要笑。

参见:http://blog.csdn.net/wwlhsgs/article/details/45641997

http://blog.csdn.net/wgw335363240/article/details/41700045

http://www.ruanyifeng.com/blog/2010/02/url_encoding.html

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

http://blog.codingnow.com/2010/06/detect_utf-8_gbk.html

https://msdn.microsoft.com/en-us/library/dd374101(VS.85).aspx

http://www.jianshu.com/p/326795dab773

http://blog.sina.com.cn/s/blog_63426ff90100he20.html

https://my.oschina.net/1pei/blog/390663

最近发现我的方法在国内可以使用,如果使用的软件会在很多个国家使用,还需要去想如何识别他们国家的编码,于是我找到一个好的库

errepi/ude: A C# port of Mozilla Universal Charset Detector.

但是他不太好用,于是用了大神写的 NuGet Gallery | SimpleHelpers.FileEncoding (C# - Source file) 1.4.0

实际测试这个方法,对GBK的支持不太好,有一些是GBK的文件会识别为其他格式,所以使用判断默认编码是GBK,如果是,就使用上面提供的方法。

UWP 检测编码可以使用这个库

如何检测或判断一个文件或字节流(无BOM)是什么编码类型 - 路过秋天 - 博客园

2018-8-10-C#-判断文件编码的更多相关文章

  1. C#判断文件编码——常用字法

    使用中文写文章,当篇幅超过一定程度,必然会使用到诸如:“的”.“你”.“我”这样的常用字.本类思想便是提取中文最常用的一百个字,使用中文世界常用编码(主要有GBK.GB2312.GB18030.UTF ...

  2. C# 判断文件编码

    我们的项目中会包含有很多文件,但是可能我们没有注意到的,我们的文件的编码不一定是utf-8,所以可能在别人电脑运行时出现乱码.最近在做一个项目,这个项目可以把我们的文件夹里的所有文本,判断他们是什么编 ...

  3. C# 判断文件编码

    无耐网上各种方法都有缺陷,此方法为原创,暂问发现问题.如发现请指正 public static Encoding GetFileEncodingByContent(string path) { var ...

  4. 判断文件的编码 python

    import chardet import string path1= r'C:\Users\25456\Desktop' path = path1 + r'\深度学习.txt' with open( ...

  5. MultipartFile文件编码判断

    MultipartFile文件编码判断 搜索:Java 判断文件的字符集编码 https://blog.csdn.net/top_code/article/details/8891796 但是在Mul ...

  6. 用UltraEdit判断打开文件的编码类型 用UltraEdit或notepad记事本查看文件编码格式 用UltraEdit查看当前文件编码

    用UltraEdit查看当前文件编码 想判断文件的编码类型? 用强大的UltraEdit-32软件: UltraEdit-32的状态栏可以显示文件的编码类型,详细情况如下: ANSI/ANSCI--- ...

  7. 利用js判断文件是否为utf-8编码

    常规方案 使用FileReader以utf-8格式读取文件,根据文件内容是否包含乱码字符�,来判断文件是否为utf-8. 如果存在�,即文件编码非utf-8,反之为utf-8. 代码如下: const ...

  8. [sh]md5sum接变量,find排除,sh判断文件存在

    1.md5sum md5sum `cat path_to_file|dos2unix` 注: 发现有些linux是gbk编码, 导致md5或ls 接变量后报错.需要dos2unix处理 2.find排 ...

  9. Python编程笔记(第三篇)【补充】三元运算、文件处理、检测文件编码、递归、斐波那契数列、名称空间、作用域、生成器

    一.三元运算 三元运算又称三目运算,是对简单的条件语句的简写,如: 简单条件处理: if 条件成立: val = 1 else: val = 2 改成三元运算 val = 1 if 条件成立 else ...

随机推荐

  1. excel怎么制作三维圆环图表

    excel怎么制作三维圆环图表 excel怎么制作三维圆环图表?excel中想要制作一个三维圆环图表,该怎么制作呢?下面我们就来看看详细的教程,很简单,在Excel中,可以通过自带的圆环图功能生成二维 ...

  2. C++学习笔记----4.5 C++继承时的对象内存模型

    推荐阅读:http://blog.csdn.net/randyjiawenjie/article/details/6693337 最近研究了一下,C++继承的内存对象模型.主要是读了读http://b ...

  3. C++ 实现十大排序算法

    教你手撕排序,这里有一个概念就是稳定排序.假定在待排序的记录序列中,存在多个具有相同的关键字的记录,若经过排序,这些记录的相对次序保持不变,即在原序列中,r[i]=r[j],且r[i]在r[j]之前, ...

  4. 会话技术之cookie(记录当前时间、浏览记录的记录和清除)

    cookie 会话技术: 当用户打开浏览器的时候,访问不同的资源,直到用户将浏览器关闭,可以认为这是一次会话. 作用: 因为http协议是一个无状态的协议,它不会记录上一次访问的内容.用户在访问过程中 ...

  5. pytest fixture 利用 params参数实现用例集合

    @pytest.fixture有一个params参数,接受一个列表,列表中每个数据都可以作为用例的输入.也就说有多少数据,就会形成多少用例.如下面例子,就形成3条用例 test_parametrizi ...

  6. addEventListener-第三个参数 useCapture

    转载自:http://www.cftea.com/c/2008/10/MQ0U26KP565GNM5Q.aspaddEventListener-开始 addEventListener-事件流 addE ...

  7. 【JZOJ4896】【NOIP2016提高A组集训第16场11.15】兔子

    题目描述 在一片草原上有N个兔子窝,每个窝里住着一只兔子,有M条路径连接这些窝.更特殊地是,至多只有一个兔子窝有3条或更多的路径与它相连,其它的兔子窝只有1条或2条路径与其相连.换句话讲,这些兔子窝之 ...

  8. 小爬爬5:scrapy介绍2

    1.scrapy:爬虫框架 -框架:集成了很多功能且具有很强通用性的一个项目模板 -如何学习框架:(重点:知道有哪些模块,会用就行) -学习框架的功能模板的具体使用. 功能:(1)异步爬取(自带buf ...

  9. flask 与celery

    在flask 中使用celery 是特别简单的,celery官网都没有特别介绍如何使用. 使用celery首先要知道怎么配置celery.   1. 实例化celery celery = Celery ...

  10. pycharm 的简单操作

    pycharm常用 快捷键 ctrl + q 快速查看文档 ctrl + 鼠标左键 进入代码定义 CTRL + F1 显示错误描述或警告信息 F3 下一个 Shift + F3 前一个 Ctrl + ...