unicode、utf8、字符串字面值

35 编码 ASCII Unicode UTF-8 ,字符串的编码、io流的编码

* 编码表: * 信息在计算机上是用二进制表示的,这种表示法让人理解就很困难.为保证人类和设备,设备和计算机之间能进行正确的信息交换,人们编制的统一的信息交换代码,这就是ASCII码表 *ASCII 用十进制来存储二进制字符. 缺点:字符个数有限(只有字母数字符号,没有中文) * GB2312 有中文. 缺点:中国自己的,不够通用 * ----升级为 GBK. * Unicode 多个国家统一编码缺点:每个字符都占两个字节,资源浪费 * ---升级为 UTF-8 * ANSI:本地编码表 (…

unicode、utf8、字符串字面值

发现好多新人都不明白,或者说没有直观的感受,其实很简单. 简单的说,unicode是一种将全球文字都涵盖的字典 - 可以认为每个字符都有一个数字索引. 比如可以这样(假设):'a' 的索引是13,'我' 的索引是11245,'の' 的索引是 50789等等. 这样,任何人只要拿着数字就可以找到对应的字符. 那么,UTF8又是怎么回事? 还是要从unicode说起,我们可以认为unicode只是字符与数字的对应关系,至于怎么保存这个数字(保存了数字,也就等于保存了字符),那就是unicode用户的…

ASCII、Unicode、UTF-8 字符串和编码

字符编码我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节.比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295. 由于计算机是美国人发明的,因此,最早只有1…

Ansi、Unicode、UTF8字符串之间的转换和写入文本文件

转载请注明出处http://www.cppblog.com/greatws/archive/2008/08/31/60546.html 最近有人问我关于这个的问题,就此写一篇blog Ansi字符串我们最熟悉,英文占一个字节,汉字2个字节,以一个\0结尾,常用于txt文本文件 Unicode字符串,每个字符(汉字.英文字母)都占2个字节,以2个连续的\0结尾,NT操作系统内核用的是这种字符串,常被定义为typedef unsigned short wchar_t;所以我们有时常会见到什么char…

C++ 字符串字面值

C++ 字符串字面值 C++ 基本字符串类型 C++ 字符串类型 char 和 wchar_t c11 新增了 char16_t 和 char32_t 例子: wchat_t title[] = L"char_t"; // w_char string char16_t name[] = u"char16"; // char16 string char32_t car[] = U"char 32"; // char32 string C11新增类型…

UTF-8编码的字符串拆分成单字、获取UTF-8字符串的字符个数的代码及原理

一.字符编码简介 1. ASCII码在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte).也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111.上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定.这被称为ASCII码,一直沿用至今.ASCII码一共规定了128个字符的…

关于python中的编码:unicode, utf-8, gb2312

计算机早期是只支持ASCII码的,经过long long的发展,出现了这些支持世界上各种语言字符的编码:unicode, utf-8, gb2312. 对于unicode, utf-8, gb2312,虽然都能表示各种字符,但是各种字符在各种编码方式下的码是不一样的.可以把utf-8, gb2312理解为unicode这种编码思想(支持各种字符)的各种实现. python中的函数unicode(str, "UTF-8"),可以返回"UTF-8"编码的字符串str的u…

标准库 - unicode/utf8/utf8.go 解读

// Copyright 2009 The Go Authors. All rights reserved. // Use of this source code is governed by a BSD-style // license that can be found in the LICENSE file. // go/src/unicode/utf8/utf8.go // version 1.7 // 关于 UTF-8 编码方式请参考:http://www.cnblogs.com/go…

浅显总结ASCII Unicode UTF-8的区别

如果觉得此地排版不好,欢迎访问我的博客浅显总结ASCII Unicode UTF-8的区别制作表单时,为了追求更好的用户交互体验,常常会有提示性的内容,比如提醒用户字符的限制.由于英文,中文字符的问题,涉及到编码的转换调整. ASCII码计算机的早期使用者大多使用英文,而计算机则以二进制来储存:ASCII规定128个英文字符与二进制的对应关系,通常占据一个字节.ASCII编码包括大写英文,小写英文,英文符号等256个字符. Unicode编码随着计算机的普及,各个国家都使用,原来的只限于…

ASCII,unicode, utf8 ,big5 ,gb2312,gbk,gb18030等几种常用编码区别（转载）

原文出处:http://www.blogjava.net/xcp/archive/2009/10/29/coding2.html 最近老为编码问题而烦燥,下定决心一定要将其弄明白!本文主要总结网上一些朋友提供的 ascii,ISO-8859-1,unicode, utf8,gb2312,big5,gbk,gb18030等几种常区别. 1. ASCII码目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(American Standard Code f…

intellj(idea) 编译项目时在warnings 页签框里报 “xxx包不存在” 或 “找不到符号” 或 “未结束的字符串字面值” 或 “需要)” 或 “需要；”等错误提示

如上图: 环境是刚换的系统,重装的Intellj,直接双击老的皇帝项目中的idea的 .iml文件,结果打开 intellj 后,进行 ctrl +shift +F9 编译时尽然报错误提示,提示内容有: “xxx包不存在” .“找不到符号”.“未结束的字符串字面值”.“需要:” .“需要)” 等错误,可以我看了项目中右边根本就没有红X ,即项目中根本就没有报错误提示,只是下边的warnings页签框报一大推错误而已,不知道为啥这边报错,报错点对应代码右边为啥又没有红x提示错误? 还有…

Haskell语言学习笔记（89）Unicode UTF8

unicode-show $ cabal install unicode-show Installed unicode-show-0.1.0.2 Prelude> :m +Text.Show.Unicode Prelude Text.Show.Unicode> unicode-show 这个库可用于向控制台窗口输出 Unicode 字符. Prelude Text.Show.Unicode> ("Хорошо!",["哈斯克尔7.6.1的力量",&…

转载：从程序员的角度看ASCII, GB2312, UNICODE, UTF-8

以下内容转自博客:http://blog.chinaunix.net/uid-22670933-id-1771613.html. 一.字符编码是怎么回事 0. 概念字节是计算机的最基本存储单位,一个字节包括8个位. 字符是一种文字的基本单位,比如'A' 是一个字符,'汉' 也是一个字符. 1. 计算机被发明之后,程序员们编写了很多复杂的计算让计算机运行. 但是一个问题是,计算机如何把辛苦计算的结果告知程序员? 假设计算机把计算结果放在某个寄存器,内容是 1010010 总不能让程序员去检测每个…

Python2.X如何将Unicode中文字符串转换成 string字符串

Python2.X如何将Unicode中文字符串转换成 string字符串普通字符串可以用多种方式编码成Unicode字符串,具体要看你究竟选择了哪种编码:unicodestring = u"Hello world" # 将Unicode转化为普通Python字符串:"encode" utf8string = unicodestring.encode("utf-8") asciistring = unicodestring.encode…

字符编码 ASCII unicode UTF-8

字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节.比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295. 由于计算机是美国人发明的,因此,最早只有127个字符被编码到计算机里…

c语言判断是否是utf8字符串，计算字符个数

#include <stdio.h> #include <string.h> #include <stdlib.h> /**************************************************************************** Unicode符号范围 | UTF-8编码方式 (十六进制) | (二进制) 0000 0000-0000 007F:0xxxxxxx 0000 0080-0000 07FF:110xxxxx 10x…

【转】Unicode utf8等编码类型的原理

原文地址http://www.cnblogs.com/daxiong2014/p/4768681.html Unicode utf8等编码类型的原理 1.ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte).也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111. 上个世纪60年代…

Unicode ,UTF-8,assic, gbk, latin1编码的区别

1. ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte).也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111. 上个世纪60年代,美国制定了一套字符编码,对英语字符与二进制位之间的关系,做了统一规定.这被称为ASCII码,一直沿用至今. ASCII码一共规定了128个字符的编码…

[寒江孤叶丶的Cocos2d-x之旅_36]用LUA实现UTF8的字符串基本操作 UTF8字符串长度，UTF8字符串剪裁等

原创文章,欢迎转载,转载请注明:文章来自[寒江孤叶丶的Cocos2d-x之旅系列] 博客地址:http://blog.csdn.net/qq446569365 一个用于UTF8字符串操作的类.功能比較齐全,包含: string.utf8len UTF8字符串长度 string.utf8sub 对UTF8字符串进行分割 string.utf8upper 大写转换 string.utf8lower 小写转换 string.utf8reverse 字符串逆转 Github下载地址: https://g…

3、Unicode\UTF-8\GBK 区别和联系

字符编码:Unicode和UTF-8之间的关系可以参考下面blog:https://blog.csdn.net/xiaolei1021/article/details/52093706/ 这篇文章写得不错 (1)java中字符为什么是2个字节? (2)为什么常说unicode是2个字节? (3)UTF-8的中文字符串中,中文一个字可能占2-3个字节,变成char数组时候,为什么char可以存放一个汉字. 这三个问题其实算是一个问题. 在JVM中,统一都是用unicode编码的.所以在运行过程中…

idea（or maven）未结束字符串字面值非法的表达式开始

[ERROR] *.java:[38,27] 未结束的字符串字面值 [ERROR] *.java:[38,53] 需要 ';' [ERROR] *.java:[41,19] 需要 ')' [ERROR] *.java:[41,12] 不是语句 [ERROR] *.java:[41,23] 需要 ';' [ERROR] *.java:[41,26] 不是语句 [ERROR] *.java:[41,33] 需要 ';' [ERROR] *.java:[53,27] 未结束的字符串字面值 [ERROR…

编码占用的字节数 1 byte 8 bit 1 sh 1 bit 中文字符编码 2. 字符与编码在程序中的实现变长编码 Unicode UTF-8 转换在网络上传输保存到磁盘上 bytes

小结: 1.UNICODE 字符集编码的标准有很多种,比如:UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等: 2 服务器->网页 utf-8 文本->内存 unicode 3 python ord-chr作用 def chr(*args, **kwargs): # real signature unknown """ Return a Unicode string of one character with or…

字符编码详解及由来(UNICODE,UTF-8,GBK)[转帖]

相信許多人對字符編碼都不是很了解,透過下文可以清晰的理解各种字符编码方式详解及由来. 一直对字符的各种编码方式懵懵懂懂,什么ANSI.UNICODE.UTF-8.GB2312.GBK.DBCS.UCS……是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们.Let's go! http://www.phpweblog.net/fuyongjie/archive/2009/03/11/6374.html 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上…

中文字符串转换为十六进制Unicode编码字符串

package my.unicode; import java.util.regex.Matcher; import java.util.regex.Pattern; public class UnicodeSwitchChinese { /** * * 转:http://blog.csdn.net/z69183787/article/details/25742307 * * 将字符串(不限于中文)转换为十六进制Unicode编码字符串 */ public static String strin…

字符编码详解及由来(UNICODE,UTF-8,GBK)

一直对字符的各种编码方式懵懵懂懂,什么ANSI.UNICODE.UTF-8.GB2312.GBK.DBCS.UCS--是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们.Let's go! 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节". 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去.他们看到这样…

【转】【编码】ANSI,ASCII,Unicode,UTF8之一

不同的国家和地区制定了不同的标准,由此产生了 GB2312.GBK.GB18030.Big5.Shift_JIS 等各自的编码标准.这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码.在简体中文Windows操作系统中,ANSI 编码代表 GBK 编码:在繁体中文Windows操作系统中,ANSI编码代表Big5:在日文Windows操作系统中,ANSI 编码代表 Shift_JIS 编码.不同 ANSI 编码之间互不兼容,当信息在国际间交流时,无法将属于两种…

mac 文本编辑器文本编码Unicode utf-8 不适用的问题

在mac上使用默认的文本编辑器打开下载的xx.txt文件,如果文本是gbk的编码可能会出现文本编码Unicode utf-8 不适用的打开错误,如下图解决方式: 文本编辑---偏好设置-----打开和存储 ---纯文本文件编码----打开文件:选项里面的自动改为中文GB18030 如下设置最后再打开出错文本即可…

[C++] zlatlcv: ATL字符串转换辅助库。能很方便的将UTF-8字符串转为TCHAR等字符串

作者:zyl910 如今,UTF-8字符串的使用频率越来越多了.但是在VC中,不能直接处理UTF-8字符串,得专门去写UTF-8与窄字符串.宽字符串.TCHAR字符串相互转换的代码.不仅费时费力,而且稍不留心就容易造成内存泄露问题.于是我便想专门编写个库来解决UTF-8字符串编码问题. 特性——支持 TCHAR,能随时切换项目字符集配置.兼容 32位(x86)与64位(x64)Windows环境.兼容 VC2005 及更高版本的 VC. 一.设计思路 ATL中的字符串转换宏用起来很方便,于是我打…

Perl中文/unicode/utf8/GB2312之间的转换

参考:http://daimajishu.iteye.com/blog/959239不过具测试,也有错误:原文如下: # author: jiangyujieuse utf8; ##在最后一个例子,这里面不能有use utf8;use Encode;use URI::Escape; $\ = "\n"; #从unicode得到utf8编码$str = '%u6536';$str =~ s/\%u([0-9a-fA-F]{4})/pack("U",hex($1))/…

细说：Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4

1. Unicode与ISO 10646 全世界很多个国家都在为自己的文字编码,并且互不想通,不同的语言字符编码值相同却代表不同的符号(例如:韩文编码EUC-KR中“한국어”的编码值正好是汉字编码GBK中的“茄惫绢”).因此,同一份文档,拷贝至不同语言的机器,就可能成了乱码,于是人们就想:我们能不能定义一个超大的字符集,它可以容纳全世界所有的文字字符,再对它们统一进行编码,让每一个字符都对应一个不同的编码值,从而就不会再有乱码了. 如果说“各个国家都在为自己文字独立编码”是百家争鸣,那么“建立世…

【unicode、utf8、字符串字面值】的更多相关文章