要搞清楚这个问题,先要弄明白编码。但是编码问题实在太复杂,这里肯定讲不开。

我先找一个例子,比如:“中文” 的 Unicode 码点/UTF8编码/GBK 分别是多少。

先去这个网站,输入 “中文” 查询对应的 Unicode 码点/UTF8编码: 
http://www.mytju.com/classcode/tools/encode_utf8.asp

Unicode的码点分别是(十进制):中(20013),文(25991)。 
对应的UTF8编码分别(16进制): 中(E4B8AD),文(E69687)。

然后再去下面这个网站,输入 “中文” 查询对应的 GBK 编码: 
http://www.mytju.com/classcode/tools/encode_gb2312.asp

GBK编码16进制(GBK内码)分别是:中(D6D0),文(CEC4)。

现在已经知道了"中文"的UTF8和GBK编码的具体值。 
我们再看看VC2010是怎么处理的。

1. 先看 无 BOM 的 UTF8 编码的代码 (utf8_no_bom.cpp)

01 // utf8 no bom
02 // 文件中包含不能在当前代码页(936)中表示的字符
03 #include <stdio.h>
04  
05 int main() {
06     const char* str = "中文";
07     for(int i = 0; i < sizeof(str); ++i) {
08         printf("0x%x ", str[i]&0xFF);
09     }
10     return 0;
11     // Output:
12     // 0xe4 0xb8 0xad 0xe6
13 }

输出是:0xe4 0xb8 0xad 0xe6。 
感觉好像是对的。

但是,先别急:VC编译时输出了一条警告信息: 
utf8_no_bom.cpp : warning C4819: 该文件包含不能在当前代码页(936)中表示的字符。 
请将该文件保存为 Unicode 格式以防止数据丢失。

潜台词就是,你这个代码有GBK不能表示的字符,请用Unicode方式保存。 
VC根本就没把 代码(utf8_no_bom.cpp) 当作UTF8,VC只是把它作为GBK处理罢了。

那为什么又输出了正确的结果呢?

因为 VC 把 (utf8_no_bom.cpp) 当作 GBK,而编译时也要转换为本地编码(也是GBK)。 
因此,UTF8编码的 “中文”,被VC当作编码为 “0xe4 0xb8 0xad 0xe6” 的其他中文处理了。 
VC已经不知道 “0xe4 0xb8 0xad 0xe6” 是对应 “中文” 字面值了。

但是在GBK(实际是无BOM的UTF8)转GBK的过程中,发现了一些UTF8编码的字符并不是 
GBK能表达的合理方式,因此就出现了那个C4819编译警告。

2. 再看带BOM的UTF8是怎么处理的 (utf8_with_bom.cpp)

01 // utf8 with bom
02 #include <stdio.h>
03  
04 int main() {
05     const char* str = "中文";
06     for(int i = 0; i < sizeof(str); ++i) {
07         printf("0x%x ", str[i]&0xFF);
08     }
09     return 0;
10     // Output:
11     // 0xd6 0xd0 0xce 0xc4
12 }

编译没有警告,但是输出有问题:0xd6 0xd0 0xce 0xc4。

源文件明明是 UTF8 编码的格式"0xe4 0xb8 0xad 0xe6”, 
怎么变成了 “0xd6 0xd0 0xce 0xc4” (这个是GBK编码)?

这就是VC私下干的好事:它自作聪明的将UTF8源代码转换为GBK处理了!

VC为何要做这样蠢事?

原因是为了兼容老的VC版本。 
因为以前的VC不能处理UTF8,都是用本地编码处理的。

3. 在看看真的GBK是怎么处理的 (gbk.cpp)

01 // gbk
02 #include <stdio.h>
03  
04 int main() {
05     const char* str = "中文";
06     for(int i = 0; i < sizeof(str); ++i) {
07         printf("0x%x ", str[i]&0xFF);
08     }
09     return 0;
10     // Output:
11     // 0xd6 0xd0 0xce 0xc4
12 }

没有编译错误,输出也和源代码一致:“0xd6 0xd0 0xce 0xc4”。

因为源文件就是GBK,cl在编译时GBK转化为GBK,没有改变字符串。

只是,现在很多人不想用GBK了(因为只能在中国地区用,不能表示全球字符)。

到这里,可以初步小结一下:

  1. VC编辑器和VC编译器是2个概念,VC编辑器支持UTF8并不能表示VC编译器也支持UTF8
  2. VC编辑器从2008?开始支持带BOM的UTF8(不带BOM的暂时没戏,因为会本地编码冲突)
  3. VC编译器从2010开始重要可以支持UTF8了(虽然支持方式很不优雅)

4. 看看VC2010是怎么处理带BOM的UTF8的 (utf8_with_bom_2010.cpp)

VC2010重要增加了UTF8的编译支持(#pragma execution_character_set("utf-8")), 
具体查看:

http://social.msdn.microsoft.com/Forums/en-US/vcgeneral/thread/2f328917-4e99-40be-adfa-35cc17c9cdec

01 // utf8 with bom (VC2010), 这句是重点!
02 #pragma execution_character_set("utf-8")
03  
04 #include <stdio.h>
05  
06 int main() {
07     const char* str = "中文";
08     for(int i = 0; i < sizeof(str); ++i) {
09         printf("0x%x ", str[i]&0xFF);
10     }
11     return 0;
12     // Output:
13     // 0xe4 0xb8 0xad 0xe6
14 }

没有编译错误,输出也和源代码一致:“0xe4 0xb8 0xad 0xe6”。

UTF8编码,UTF8输出。完美!

回到 Qt5 的中文输出问题。

Qt默认支持 VS2010/MinGW/Gcc 等编译器,而它们现在都已经真正支持UTF8了。

当然,VS2010 对UTF8的支持会入侵代码(#pragma execution_character_set("utf-8"))。

看看Qt官方论坛别人是怎么说的: 
http://qt-project.org/forums/viewthread/17617

Nothing special need to do, it will works by default. 
If the exec-charset of your your compiler is UTF-8.

简单的说,从Qt5开始,源代码就是默认UTF8编码的。

当然,VC2010编辑器对带BOM的UTF8也是认识,只可惜VC2010编译器根本承认它是UTF8!

在继续看官方论坛的回复:

You can write a simple example like this

01 #include <QApplication>
02   #include <QLabel>
03  
04   #if _MSC_VER >= 1600
05   #pragma execution_character_set("utf-8")
06   #endif
07  
08   int main(int argc, char *argv[])
09   {
10       QApplication a(argc, argv);
11       QLabel label("ąśćółęńżź");
12       label.show();
13  
14       return a.exec();
15   }

If other people can reproduce your problem, you can file a bug.

教完整的解决方案(增加了Qt4/Qt5和非VC环境的判断):

01 // Coding: UTF-8(BOM)
02 #if defined(_MSC_VER) && (_MSC_VER >= 1600)
03 # pragma execution_character_set("utf-8")
04 #endif
05  
06 #include <QApplication>
07 #include <QTextCodec>
08 #include <QLabel>
09  
10 int main(int argc, char* argv[])
11 {
12     QApplication app(argc, argv);
13  
14 #if QT_VERSION < QT_VERSION_CHECK(5,0,0)
15 #if defined(_MSC_VER) && (_MSC_VER < 1600)
16     QTextCodec::setCodecForTr(QTextCodec::codecForName("GB18030-0"));
17 #else
18     QTextCodec::setCodecForTr(QTextCodec::codecForName("UTF-8"));
19 #endif
20 #endif
21  
22     QLabel *label = new QLabel(QObject::tr("你好!"));
23     label->show();
24  
25     return app.exec();
26 }

有以下几种类型(源代码必须是带BOM的UTF8):

  • Qt5+/VC2010+: 包含了 # pragma execution_character_set("utf-8") 已经支持中文
  • Qt5/VC2008-: 这个暂时误解(我还没找到方法)
  • Qt4+/VC2008-: 采用以前老的方式, 指定代码为 “GB18030-0” 编码
  • Qt4/Qt5/Linux: 只要是默认的UTF8环境, 应该都没问题

其实这个问题不是Qt特有的, 追根溯源还是C/C++和编译器的问题.

即使是支持UTF16的Java也同样难逃此问题.

不过还好, Go语言 算是彻底了解决了这个问题. 
以后转向 Go语言 了 !

转自开源中国 http://my.oschina.net/chai2010/blog/119833

我在电脑上找了一个显示中文.ttf文件加到了QtSDk->Simulator->Application->fonts中就可以解决了

VC2010下Qt5的中文乱码问题的更多相关文章

  1. IE下get传中文乱码的问题 -- 解决方案 (js)

    W3school 函数 JavaScript 全局对象 定义和用法 encodeURI() 函数可把字符串作为 URI 进行编码. 语法 encodeURI(URIstring) 参数 描述 URIs ...

  2. Linux 解决Linux下火狐浏览器中文乱码成方块显示问题

    解决Linux下火狐浏览器中文乱码成方块显示问题 by:授客 QQ:1033553122   测试环境: CentOS-6.0-x86_64 问题描述: 浏览器页面显示如下   解决方法: 安装中文支 ...

  3. windows下git bash中文乱码解决办法

    一.解决办法1:(直接上图) 1.在git bash下,右键 出现下图,选择options: 2.选择“Text” 3.将“Character set”设置为  UTF-8 转:windows下git ...

  4. [转]Git for windows 下vim解决中文乱码的有关问题

    Git for windows 下vim解决中文乱码的问题 原文链接:Git for windows 下vim解决中文乱码的有关问题 1.右键打开Git bash: 2.cd ~ 3.vim .vim ...

  5. VS2013+QT5.3 中文乱码和中文路径不识别

    http://blog.csdn.net/brave_heart_lxl/article/details/7186631 ubun图中文乱码 https://blog.csdn.net/u013007 ...

  6. 两种解决Qt5显示中文乱码的方法(使用QStringLiteral和#pragma execution_character_set("utf-8")两种方法)

    升级到Qt5.X之后,原先解决的Qt显示中文乱码的方法突然不适用了,找了很多方式来解决这个问题第一种:在公司代码里看到的方法,先将对应的cpp文件用windows自带的记事本打开,另存为UTF-8格式 ...

  7. Ubuntu环境下 matplotlib 图例中文乱码

    最近做了一个最小二乘法的代码编写并用 matplotlib 绘制了一张图,但是碰到了中文乱码问题.简单搜索之后,发现有人总结出了比较好的方案,亲测可行.推荐给大家. 本文前提条件是 已经 安装好 ma ...

  8. 解决windows下FileZilla server中文乱码问题

    最利用cuteftppro FTP做文件夹同步,发现中文的文件夹及文件名都出现了乱码问题, 一开始以为是cuteftppro的问题,谷哥度娘找了一堆的解决方案都没有解决乱码问题,真是头疼啊! 后来终于 ...

  9. [oracle]解决centos 7下oracle的中文乱码问题

    首先在形成中文乱码的原因是由于字符集不统一导致的,不同的字符集在转换的过程中必然要出现乱码,当然不排除可以转换.所以要解决中文乱码问题,思路是将输入.存储.显示等流程中涉及到字符集都统一为一种,对于o ...

随机推荐

  1. Canvas简述

    HTML Canvas API有两方面优势可以弥补:首先,不需要将所绘制图像中的每个图元当做对象存储,因此执行性能非常好:其次,在其他编程语言现有的优秀二维绘图API的基础上实现Canvas API相 ...

  2. spring启动方式

    spring有三种启动方式,使用ContextLoaderServlet,ContextLoaderListener和ContextLoaderPlugIn.看一下ContextLoaderListe ...

  3. Eventually Consistent(最终一致性)(转)

    应该说搞分布式系统必读的文章了,转过来,这是2008年12月Werner revise过的版本,先贴上内容简介:分布式系统的CAP理论 CAP理论(data consistency, system a ...

  4. MVC时间对比及时间范围判断

    方法一:使用DateTime.Compare 方法 public static int Compare( DateTime t1, DateTime t2 ) t1 早于 t2:小于零t1 与 t2  ...

  5. linux 系统文件的特殊权限

    文件权限与归属 Linux系统中的一切都是文件,但每个文件的类型不尽相同,并且Linux系统会用不同的符号来加以区分,常见的包括有 -:普通文件,d:目录文件,l:链接文件,b:块设备文件,c:字符设 ...

  6. LNMP的的编译安装全过程

    一.对系统进行更新 yum update -y lsb_release -a 二.禁用SELINUX sed -i '/SELINUX/s/enforcing/disabled/' /etc/seli ...

  7. 使用SafeIP隐藏自己的IP

    资料:http://www.cnblogs.com/KeenLeung/p/3482241.html 1.到网上下载SafeIP这个工具,安装,打开 2.选择自己熟悉的语言: 3.到www.ip138 ...

  8. HDUOJ------2398Savings Account

    Savings Account Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)T ...

  9. Eclipse折叠代码 coffee bytes code folding

    提供一个插件下载地址,博客园的: http://files.cnblogs.com/wucg/com.cb.eclipse.folding_1.0.6.jar.zip  将下载的zip文件解压出来的j ...

  10. android LinearLayout设置selector不起作用解决

    设置方法 : android:background="@drawable/fen_selector" 如果只有这个的话,是不起作用的.还必须加上: android:clickabl ...