VS2010 下C++使用UTF8编码

cnless.sh:改进版less,可自动识别GBK编码或UTF-8编码。

#!/bin/bash #功能:让GBK编码的文件可以使用less正常显示中文(自动识别GBK和UTF-8编码) #v0. 在LINUX下,使用UTF-8编码,less UTF-8的文件时显示中文正常,而less GBK的文件时将显示乱码, #本脚本使用enca识别编码(enca识别编码的能力较弱,经常会有不识别的情况,对于这种情况,认为是GBK文件),如果是UTF-8编码, #直接显示:如果是GBK编码,先转换成UTF-8编码,再显示. #v0. 增加对标准输入重定向的支持 #@todo 怎么…

linux下配置mysql默认编码utf8

linux下配置mysql默认编码utf8 下面是需要在对应地方加入的配置 [client] default-character-set=utf8 [mysqld] character-set-server=utf8 collation-server=utf8_general_ci 重启mysql之后,妥妥的了 mysql> status -------------- mysql Ver 14.14 Distrib 5.1.41, for debian-linux-gnu (i486) usin…

关于 MySQL UTF8 编码下生僻字符插入失败/假死问题的分析

原文:http://my.oschina.net/leejun2005/blog/343353 目录[-] 1.问题:mysql 遇到某些中文插入异常 2.原因:此 utf8 非彼 utf8 3.解决方案 3.1 升级 mysql 版本,并将utf8字符集升级到utf8mb4 3.1.1 直接修改表结构 3.1.2 修改数据库默认配置 3.2 强行过滤掉生僻字符串 3.2.1 shell 过滤 3.2.2 java 中的过滤操作 3.3 避开客户端乱码:二进制存储与查询 4.应用.系统对 utf…

中文系统下，UTF-8编码文本文件读取导致的错误

一.UTF-8编码文件读取导致的错误有个txt文件,里面内容为: aaa bbb ccc 以UTF-8编码方式打开txt文件,顺序读取,将里面的值放到一个hashset中,并判断aaa是否在在hashset中 class { public static void main(String[] args) { try { HashSet<String> specialCateSet= new HashSet<String>(); FileInputStream a = new Fil…

Linux下将UTF8编码批量转换成GB2312编码的方法

Linux下将UTF8编码批量转换成GB2312编码的方法在sqlplus中导入UTF8编码的sql脚本就会出现乱码错误,这时就需要将UTF8编码转换成GB2312编码,下面为大家介绍下在Linux下如何进行转换 UTF8编码和GB2312编码是有区别的,在sqlplus中导入UTF8编码的sql脚本就会出现乱码错误,这时就需要将UTF8编码转换成GB2312编码,可是一个个的转换十分麻烦,下面小编就教你如何在Linux下将UTF8编码批量转换成GB2312编码. 背景本人在使用ora…

MySQL中UTF8编码的数据在cmd下乱码

MySQL中UTF8编码的数据在cmd下乱,在数据库ide中看到的却是中文. 其实,原因是cmd用gbk的格式来显示数据,那么我们只需要将utf-8存储的数据用gbk的格式输出到cmd即可. 解决方法: 打开mysql->输入set names gbk; ps.千万别设置cmd用utf8的格式来显示数据,因为涉及到微软的设置,最好还是别动.…

UTF-8编码下'\u7528\u6237'转换为中文汉字'用户'

UTF-8编码下'\u7528\u6237'转换为中文'用户' 一.前言有过多次,在开发项目中遇见设置文件编码格式为UTF-8,但是打开该文件出现类似\u7528这样的数据,看也看不懂,也不是平常见到的乱码.这里的\u7528类似的数据,其中'\u'表示UNICODE编码,其实数据就是对应的UTF-8下的汉字. 二.问题处理下面文件的编码已被设置为UTF-8,但打开这里的原文件部分内容如下: #use 1,2 #admin_login 100001=\u7528\u6237\u540D\u6…

转：浅析windows下字符集和文件编码存储/utf8/gbk

最近老猿在学习文件操作及网络爬虫相关知识,发现字符集及编码的处理非常重要,而老猿原来对此了解并不多,因此找了几篇文章看了一下,将老猿认为比较的相关文章转载一下.感谢各位原创大神! 1,字符集这里主要讲两种字符集,DBCS和UCS DBCS即双字节编码字符集,最初的计算机只有ASCII码,发展至今,不能表示中文怎么办,于是中国人制定了GBK2312,以及后面陆续扩展并向下兼容的GBK,GB18030. Unicode学名是"Universal Multiple-Octet Coded Chasr…

UTF-8编码中BOM的检测与删除[linux下命令]

Posted on 2011-05-14 所谓BOM,全称是Byte Order Mark,它是一个Unicode字符,通常出现在文本的开头,用来标识字节序(Big/Little Endian),除此以外还可以标识编码(UTF-8/16/32),如果出现在文本中间,则解释为zero width no-break space. 注:Unicode相关知识的详细介绍请参考UTF-8, UTF-16, UTF-32 & BOM. 对于UTF-8/16/32而言,它们名字中的8/16/32指的是编码单位…

jquery ajax到servlet出现中文乱码（utf-8编码下）

个人遇到的该问题有两大类: 第一类很普遍,就是jsp页面编码没有规定,servlet中接收参数没有转码,response没有使用setContentType()和setCharacterEncoding等等原因造成的,这种问题网上有很多帖子互相抄袭,我只谈第二类: 第二类是使用jquery的ajax功能向后台发送中文参数,后台接收到乱码,我出现这个问题就是拜网上的各种所谓完美解决方案所赐. 产生这种问题的前提是:你的前台使用utf-8编码,后台接收ajax参数时还从ISO-8859-1向utf-…

萌新笔记——用KMP算法与Trie字典树实现屏蔽敏感词（UTF-8编码）

前几天写好了字典,又刚好重温了KMP算法,恰逢遇到朋友吐槽最近被和谐的词越来越多了,于是突发奇想,想要自己实现一下敏感词屏蔽. 基本敏感词的屏蔽说起来很简单,只要把字符串中的敏感词替换成"***"就可以了.对于子串的查找,就KMP算法就可以了.但是敏感词这么多,总不能一个一个地遍历看看里面有没有相应的词吧! 于是我想到了前几天写的字典树.如果把它改造一下,并KMP算法结合,似乎可以节约不少时间. 首先说明一下思路: 对于KMP算法,这里不过多阐述.对于敏感词库,如果把它存进字典树,并在…

截取UTF-8编码的汉字，最后一个字出现乱码的问题

问题描述原来字串内容name为下面内容: ######name=杨乃文做DJ,微信公众号FunRadio.什么样的姿态是小丑姿态?2016046###### 需要截取成大小为64的name_rm[64]的数组内容,出现如下乱码: ######name=杨乃文做DJ,微信公众号FunRadio.什么样的姿态斣##### 问题分析 UTF-8编码,汉字占3个字节,英文占一个字节,标点符号占领3个字节. 汉子:15*3=45 英文:10*1=10 标点符号:2*3=6 共61,64-61=3还可…

UTF-8编码规则（转）

from:http://www.cnblogs.com/chenwenbiao/archive/2011/08/11/2134503.html UTF-8是Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E00到0x9FA5,是指unicode值,至于放在utf-8的编码里去就是由三个字节来组织,所以可以看出unicode是给出一个字符的范围,定义了这个字是码值是多少,至于具体的实现方式可以有多种多样来实现. UTF-8是一种变长字节编码方式.对于某一…

[转]utf8编码原理详解

from : http://blog.csdn.net/baixiaoshi/article/details/40786503 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们认为8个开关状态作为原子单位很好,于是他们把这称为"字节". 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出更多的状态,状态开始变来变去.他们看到这样是好的,于是它们就这机器称为"计算机". 开始计算机只在美国用.…

萌新笔记——C++里将string类字符串（utf-8编码）分解成单个字（可中英混输）

最近在建词典,使用Trie字典树,需要把字符串分解成单个字.由于传入的字符串中可能包含中文或者英文,它们的字节数并不相同.一开始天真地认为中文就是两个字节,于是很happy地直接判断当前位置的字符的ASCII码是否处于0~127之间,如果是就提取一个字符,否则提取两个.在测试分字效果的时候,这种方法出了问题.比如我传一个"abcde一二三四五"进去,abcde可以正常分解成 a b c d e,而后面的"一二三四五"则成了乱码. 于是我开启了谷歌之旅,搜索"…

做网站用UTF-8编码还是GB2312编码？

经常我们打开外国网站的时候出现乱码,又或者打开很多非英语的外国网站的时候,显示的都是口口口口口的字符, WordPress程序是用的UTF-8,很多cms用的是GB2312. 经常我们打开外国网站的时候出现乱码,又或者打开很多非英语的外国网站的时候,显示的都是口口口口口的字符, WordPress程序是用的UTF-8,很多cms用的是GB2312. ● 为什么有这么多编码? ● UTF-8和GB2312有什么区别? ● 我们在国内做网站是用UTF-8编码格式还是GB2312编码格式好? 一. 各…

MyEclipse使用总结——在MyEclipse中设置jsp页面为默认utf-8编码

在MyEclispe中创建Jsp页面,Jsp页面的默认编码是“ISO-8859-1”,如下图所示: 在这种编码下编写中文是没有办法保存Jsp页面的,会出现如下的错误提示: 因此可以设置Jsp默认的编码为utf-8,具体步骤如下: 启动MyEclipse,点击菜单上的window--->preferences 在弹出的对话框中点击MyEclise--->Files and Editors--->JSP,如下图所示: 此时就可以看到JSP编码设置面板,如下图所示: 在Encoding那个下拉…

CMD魔法堂：支持显示UTF8编码的中文

一.前言在Unbuntu中用sqlite3-command-line操作sqlite3还好好的,到了windows下查询表内容时发现中文全部乱码了!马上想到sqlite3内部使用utf-8对字符进行编码,而windows的默认编码时gbk,cmd命令环境自然也是gbk了,乱码是正常不过的事.解决办法自然就是修改cmd命令环境的编码方式. 二.动手吧 1. 进入cmd命令环境 // 改用utf-8编码 chcp 2. 修改字体在命令行标题栏上点击右键,选择"属性"-…

简单聊下Unicode和UTF-8

今晚听同事分享提到这个,简单总结下. ## Unicode字符集 Unicode的出现是因为ASCII等其他编码码不够用了,比如ASCII是英语为母语的人发明的,只要一个字节8位就能够表示26个英文字母了,但是当跨区域进行信息交流的时候,尤其是Internet的出现,除了“A”,“B”,“C",还有“你”,“我”,“他”需要表示,一个字节8位显然不够用,因此Unicode就被发明出来,Unicode的最大码位0x10FFFF,有21位.中文对应的Unicode编码见http://www.chi2…

python 之 utf-8编码的秘密

python3的默认编码方案是utf-8编码,看了些资料,来做总结. 要说utf-8,就要说说unicode,要说unicode,就要说ASCII,我们还是慢慢来. 1.ASCII ASCII编码最初是由老美搞出来的,满足了英文在计算机中的的表达和存储.开始呢,ASCII使用一个字节的后7位来进行编码. 每位有0,1 两种状态,那么就有2^7个数(十进制从0~127)来代表128个不同的字符.后来人们又对ASCII码进行了扩展,把最高位也用上了,那么就又多了128个可编码的空间. 可是,全世界难…

修改Netbeans默认使用UTF-8编码

NetBeans是一款优秀的开源集成开发环境,可以用于Java,C/C++,PHP等语言的开发.同时它也是一个可扩展的开发平台,可以通过插件来扩展官方版本没有的功能.自从被Oracle这个开源杀手收购以后,发展一直很缓慢,7.0到现在才发布.NetBeans有一个很弱智的地方,打开文件时不能自动识别文件编码,更弱智的是,发现编码错误出现乱码时,不能直接改变编码.例如默认设置打开一个UTF-8编码的文件,会出现乱码. 如果要NetBeans用UTF-8对文件进行解码,需要修改配置文件,具体方法如下…

【Java】如何检测、替换4个字节的utf-8编码（此范围编码包含emoji表情）

> 参考的优秀文章 1.十分钟搞清字符集和字符编码 2.Java中byte与16进制字符串的互相转换 3.[异常处理]Incorrect string value: '\xF0\x90\x8D\x83...' for column... Emoji表情字符过滤的Java实现 4.Why a surrogate java regexp finds hypen-minus > 如何检测.替换4个字节的utf-8编码(此范围编码包含emoji) 项目有个需求,是保存从手机端H5页面提交的信息. 大家…

php计算字符串长度：utf8编码，包含中文

php计算字符串长度:utf8编码中文当作1个字符处理(strlen默认当作两个字符) 上函数: /** * 计算 UTF-8 字符串长度 * * @param string $str * @return int */ function strlen_utf8($str) { $i = 0; $count = 0; $len = strlen($str); while ($i < $len) { $chr = ord($str[$i]); $count++; $i++; if ($i >=…

linux secureCRT utf-8编码显示

secureCRT 会话选项-终端-外观-字符编码: 下拉选择UTF-8 关闭当前secureCRT,另开一个新的让设置生效,显示正常.…

转】MyEclipse使用总结——在MyEclipse中设置jsp页面为默认utf-8编码

原博文出自于:http://www.cnblogs.com/xdp-gacl/p/3496161.html 感谢! 在MyEclispe中创建Jsp页面,Jsp页面的默认编码是"ISO-8859-1",如下图所示: 在这种编码下编写中文是没有办法保存Jsp页面的,会出现如下的错误提示: 因此可以设置Jsp默认的编码为utf-8,具体步骤如下: 启动MyEclipse,点击菜单上的window--->preferences 在弹出的对话框中点击MyEclise--->File…

调用支付宝PHP接口API实现在线即时支付功能（UTF-8编码）

这次在项目中要实现订单功能,所以要完成在线支付,在线支付一般有网银支付和第三方支付(支付宝.paypal等)这两种途径,未简单起见,先完成支付宝在线支付功能,由于项目基于Yii框架,且使用UTF-8编码,所以显然要用支付宝接口中的PHP UTF-8相关API来实现. 在正式测试之前,先准备好几个字段:支付宝帐号,与该支付宝帐号绑定的合作身份者id以及安全校验码key. 测试之前要先到 http://club.alipay.com/read.php?tid=9976972 这里取下载最新的相关接口…

Linux 下查看文件字符编码和转换编码

Linux 下查看文件字符编码和转换编码如果你需要在Linux中操作windows下的文件,那么你可能会经常遇到文件编码转换的问题.Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8.下面介绍一下,在Linux中如何查看文件的编码及如何进行对文件进行编码转换. 一,查看文件编码: 在Linux中查看文件编码可以通过以下几种方式: 1.在Vim中可以直接查看文件编码 :set fileencoding 即可显示文件编码格式. 如果你只是想查看其它编码格式的文件…

UTF-8编码规则

UTF-8是Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E00到0x9FA5,是指unicode值,至于放在utf-8的编码里去就是由三个字节来组织,所以可以看出unicode是给出一个字符的范围,定义了这个字是码值是多少,至于具体的实现方式可以有多种多样来实现.http://wenku.baidu.com/link?url=mElqPI6O4U-qjtiD7W7yv4FvH7FjAhc_2vbnXBN5gMOFxSJAD6JNZ_mtih5c4A…