1、今天（20181101）发现 g文件中的 xml头和文件编码不一致，最后发现貌似是我搞错了，人家的文件编码方式写的是对的。

　　我发现的现象是：XML里面写的是"GBK"，EditPlus里面看到的是文件编码是 UTF-8。可能是我做了保存动作自己没注意不记得了？

2、如果真的存在这个现象的话，那我就需要一个检测文件编码方式的手段。

　　查了，发现有些编码方式是有文件头标识的（文件开头的2/3个byte），但是比较难处理的就是不规范的UTF8和GBK文件它们不好判断

　　2.1、不规范的UTF8和GBK文件，都没有文件头标识开始就是文件的数据。

　　　　网上也有说用UTF8对 Unicode字符的编码规则来判断，但是个人觉得又不太可靠，比如又有UTF16呢规则又是怎么样呢？

　　　　想找一个现成的库，直接已调用就能返回结果的，于是找到了一个词"chardet"

3、chardet

　　3.1、找了好久基本都是 python使用的，java的也有，就是没有C++的找到了一篇还是在 linux上编译生成 dll 再供Windows使用（cywein 编译 libchardet-1.0.4 用于windows - baidu_29569765的博客 - CSDN博客.html【https://blog.csdn.net/baidu_29569765/article/details/52239383?utm_source=blogxgwz6】）

　　　　步骤有点多，不可控的环节有点多，怕怕，就没弄，以后有时间再弄...

　　3.2、谷歌上搜"libchardet-1.0.4"，看到2篇相关文章：

　　　　（1）、1.0.4-1 _ libchardet package _ Ubuntu.html（https://launchpad.net/ubuntu/+source/libchardet/1.0.4-1）

　　　　　　ZC：这里我下载到了 libchardet_1.0.4.orig.tar.bz2（E:\chrome_download_180215\ZC_文件编码自动检测）

　　　　（2）、libchardet-1.0.5-4.fc27.x86_64.rpm Fedora 27 Download.html（https://fedora.pkgs.org/27/fedora-x86_64/libchardet-1.0.5-4.fc27.x86_64.rpm.html）

　　　　　　ZC：libchardet provides an interface to Mozilla's universal charset detector,which detects the charset used to encode data.

　　　　　　ZC：这里，貌似是 libchardet-1.0.5的Linux里面的安装包（应该是编译好了直接安装就可以使用？）

4、上面3.1中的文章的备份：

　　ZC：遗憾：文章中说的小例子现在已经失效了，文章中也没说编译好 libchardet.dll 怎么使用它... 它里面有什么导出函数都不知道，看来要用起来的话还有很多东西要了解，还有很多路要走...

　　4.1、文章内容备份：

cywein 编译 libchardet-1.0.4 用于windows

2016年08月18日 11:36:50 baidu_29569765 阅读数：258更多

个人分类： vc

记录一下，免得以后忘记。

进入libchardet-1.0.4目录,执行如下命名。

PATH=/usr/local/i686-w64-mingw32/bin:$PATH
   export PATH
   ./configure --host=i686-pc-mingw32 --prefix=/usr/local/i686-w64-mingw32 \
     CC="i686-w64-mingw32-gcc" \
     CXX="i686-w64-mingw32-g++" \
     CPPFLAGS="-Wall -I/usr/local/i686-w64-mingw32/include" \
     LDFLAGS="-L/usr/local/i686-w64-mingw32/lib"

其中 i686-w64-mingw32 ，i686-w64-mingw32-gcc 和安装的 mingw有关系。

上面完了后，make

make 执行完了，进入src 目录

执行如下命名

i686-w64-mingw32-g++ -o libchardet.dll libchardet_la-CharDistribution.o libchardet_la-JpCntx.o libchardet_la-LangBulgarianModel.o libchardet_la-LangCyrillicModel.o libchardet_la-LangGreekModel.o libchardet_la-LangHebrewModel.o libchardet_la-LangHungarianModel.o libchardet_la-LangThaiModel.o libchardet_la-nsBig5Prober.o libchardet_la-nsCharSetProber.o libchardet_la-nsEUCJPProber.o libchardet_la-nsEUCKRProber.o libchardet_la-nsEUCTWProber.o libchardet_la-nsEscCharsetProber.o libchardet_la-nsEscSM.o libchardet_la-nsGB2312Prober.o libchardet_la-nsHebrewProber.o libchardet_la-nsLatin1Prober.o libchardet_la-nsMBCSGroupProber.o libchardet_la-nsMBCSSM.o libchardet_la-nsSBCSGroupProber.o libchardet_la-nsSBCharSetProber.o libchardet_la-nsSJISProber.o libchardet_la-nsUTF8Prober.o libchardet_la-nsUniversalDetector.o libchardet_la-chardet.o -shared -static -fPIC -Wl,--out-implib,libchardet.lib

编译出win 下面用的dll

这个链接是我编译出来的，有小例子
https://yun.baidu.com/share/link?shareid=757367141&uk=3523244269

5、

文件编码检测.ZC的更多相关文章

文件编码检测.ZC一些资料（包含java的）
1.IMultiLanguage3 或者 IMultiLanguage2 1.1.怎么判断XML 的编码格式(UTF-8或GB2312等)-CSDN论坛.html(https://bbs.csdn.n ...
zip格式文件编码检测
解压后文件名乱码由于zip格式文件无编码存储的结构,因此解压时无法知道原先的编码. 当解压zip格式文件时使用的编码和原编码不一致时,就可能会出现解压后文件名乱码问题. 猜测编码基于上述问题,需要 ...
Python编程笔记（第三篇）【补充】三元运算、文件处理、检测文件编码、递归、斐波那契数列、名称空间、作用域、生成器
一.三元运算三元运算又称三目运算,是对简单的条件语句的简写,如: 简单条件处理: if 条件成立: val = 1 else: val = 2 改成三元运算 val = 1 if 条件成立 else ...
Python中文件编码的检测
前言: 文件打开的原则是“ 以什么编码格式保存的,就以什么编码格式打开 ”,我们常见的文件一般是以“ utf-8 ”或“ GBK ”编码进行保存的,由于编辑器一般设置了默认的保存和打开方式,所以我们在 ...
php -- php检测文件编码的方法示例
<?php /** * 检测文件编码 * @param string $file 文件路径 * @return string|null 返回编码名或 null */ function det ...
java实现文件编码监测(转)
chardet是mozilla自动字符集探测算法代码的java移植.这个算法的最初作者是frank Tang,C++源代码在http://lxr.mozilla.org/mozilla/source/ ...
java实现文件编码监测
java实现文件编码监测最近在做一个文档的翻译项目,可文档的编码不知道,听头疼的.尝试了很多方法最后发现JCharDet这个工具可以轻松解决这个问题.于是作此笔记希望日后提醒自己以及帮助又需要的人. ...
修改VISUAL STUDIO EXPRESS 2012新建C++文件编码
本站文章除注明转载外,均为本站原创或者翻译. 本站文章欢迎各种形式的转载,但请18岁以上的转载者注明文章出处,尊重我的劳动,也尊重你的智商: 本站部分原创和翻译文章提供markdown格式源码,欢迎使 ...
［译］如何定义python源文件的文件编码
简介这篇文章是为了介绍定义python源文件文件编码的方法.python解释器可以根据所指定的编码信息对当前文件进行解析.通常来说,这种方法可以提高解析器对Unicode编码的源文件的识别,并且支持 ...

随机推荐

java提供的线程池的使用
应用场景,比如你有个业务模块,非常耗时,并且还需要重复调用5次. 如果你写个for循环调用5次,调用一次3秒,那么5次就15秒,不是很友好. 这时,如果你用线程池就方便了,多线程跑,都跑完,收集到结果 ...
self: 限制并发量asyncio
#coding:utf-8 import time,asyncio a=time.time() id=1 async def hello(id,semaphore): async with semap ...
Linux三剑客grep、sed、awk
grep grep file grep -i file grep -v file
关于er模型中的identifying relationship or non-identifying relationship
最近,主要负责项目管理和领域模型设计方面的工作,昨天在将UML类图转换为ER模型的时候,发现有identifying relationship or non-identifying relations ...
mysql不常用但很有用的语句整理
mysqld_multi多实例停止.启动 mysqld_multi --defaults-file=/etc/my.cnf start 1,2 mysqld_multi --defaults-file ...
left join加上where条件的困惑
eft join的困惑:一旦加上where条件,则显示的结果等于inner join将where 换成 and 用where 是先连接然后再筛选用and 是先筛选再连接数据库在通过连接两张或多 ...
（2编写网络）自己动手，编写神经网络程序，解决Mnist问题，并网络化部署
基于<神经网络和深度学习>这本绝好的教材提供的相关资料和代码,我们自己动手编写"随机取样的梯度下降神经网络".为了更好地说明问题,我们先从简单的开始: 1.sigmod ...
Codeforces 827E Rusty String - 快速傅里叶变换 - 暴力
Grigory loves strings. Recently he found a metal strip on a loft. The strip had length n and consist ...
Django缓存系统
在动态网站中,用户每次请求一个页面,服务器都会执行以下操作:查询数据库,渲染模板,执行业务逻辑,最后生成用户可查看的页面. 这会消耗大量的资源,当访问用户量非常大时,就要考虑这个问题了. 缓存就是为了 ...
动态规划之97 Interleaving String
题目链接:https://leetcode-cn.com/problems/interleaving-string/description/ 参考链接:https://blog.csdn.net/u0 ...

文件编码检测.ZC

cywein 编译 libchardet-1.0.4 用于windows

文件编码检测.ZC的更多相关文章

随机推荐

热门专题