UTF-8里包括GB2312

用最易懂的说法就是UTF-8里包括GB2312.UTF-8是国际通用的标准(包括世界所有的语言),而GB2312(只是简体中文)只适合做中文的网站. 假设你想做个中文网页,但是还可以翻成英文的话,就得用UTF-8. 如果用GB2312做的话,只能给中国人看看拉. 在网页编码.进行xml数据传输时.socket传输数据时,若出现乱码现象,则可能是“编码格式”问题(比如:发送端的“编码格式”与接收端的“编码格式”不兼容),…

给一个非常长的字符串str 另一个字符集比方{a,b,c} 找出str 里包括{a,b,c}的最短子串。要求O(n)

给一个非常长的字符串str 另一个字符集比方{a,b,c} 找出str 里包括{a,b,c}的最短子串.要求O(n). 比方,字符集是a,b,c,字符串是abdcaabcx,则最短子串为abc. 设置Front和Rear,使用对象记录字符集已有值的个数和位置,通过Front和Rear遍历字符串. 遍历过程为Rear在前,当遇到字符集中字符时,该字符个数加1,记录该字符位置. 出现字符集都出现时,计算字串长度:然后,front前移一位,假设此位在字符集中,清空对象记录字符集的状态. 最后获得字串的…

Http:UTF-8与GB2312之间的关系

UTF-8里包括GB2312.UTF-8是国际通用的标准(包括世界所有的语言),而GB2312(只是简体中文)只适合做中文的网站.假设你想做个中文网页,但是还可以翻成英文的话,就得用UTF-8.如果用GB2312做的话,只能给中国人看看拉.…

编码格式简介：ASCII码、ANSI、GBK、GB2312、GB18030和Unicode、UTF-8，BOM头

编码格式简介:ASCII码.ANSI.GBK.GB2312.GB18030和Unicode.UTF-8,BOM头二进制: 只有0和1. 十进制.十六进制.八进制: 计算机其实挺笨的,它只认识0101这样的字符串(二进制),当然了我们看这样的01串时肯定会比较头晕的. 所以很多时候为了描述简单都用十进制,十六进制,八进制表示.实际上都是等价的,没啥太多不一样. 位(bit) 计算机中存储一个0,或者一个1的位置空间,叫做位. 字节(byte) 计算机中,我们把连续的8个位空间,叫做一个字节. A…

转载：从程序员的角度看ASCII, GB2312, UNICODE, UTF-8

以下内容转自博客:http://blog.chinaunix.net/uid-22670933-id-1771613.html. 一.字符编码是怎么回事 0. 概念字节是计算机的最基本存储单位,一个字节包括8个位. 字符是一种文字的基本单位,比如'A' 是一个字符,'汉' 也是一个字符. 1. 计算机被发明之后,程序员们编写了很多复杂的计算让计算机运行. 但是一个问题是,计算机如何把辛苦计算的结果告知程序员? 假设计算机把计算结果放在某个寄存器,内容是 1010010 总不能让程序员去检测每个…

js里cookie操作

原生js操作cookie 创建和存储 cookie 在这个例子中我们要创建一个存储访问者名字的 cookie.当访问者首次访问网站时,他们会被要求填写姓名.名字会存储于 cookie 中.当访问者再次访问网站时,他们就会收到欢迎词. 首先,我们会创建一个可在 cookie 变量中存储访问者姓名的函数: function setCookie(c_name,value,expires){ var exdate=new Date(); exdate.setTime(exdate.getTime()+e…

Android ScrollView嵌套HorizontalScrollView 滑动问题 ScrollView包括GridView显示问题

今天项目使用到ScrollView嵌套HorizontalScrollView,ScrollView里包括GridView,发现几个问题非常经典.在此记录: 问题1.ScrollView嵌套HorizontalScrollView跳变问题.ScrollView.HorizontalScrollView自己主动下拉到最后一行: 设置到初始坐标(0,0)解决方法: (时机:数据解析完而且刷新notifyDataSetChanged()之后进行以下代码设置) scrollview.smoothScro…

2019-01-28 [日常]Beyond的歌里最多是"唏嘘"吗? - Python分词+词频

看了一个Beyond的纪录片, 提到这个. 觉得心有不甘, 于是搜集了24首歌词, 用Python做了简单分词和词频统计. 源码(包括歌词)在: program-in-chinese/study 统计了总出现次数(词频列表)和词出现在歌曲的数目(词所在文件数列表). 前者算进了所有重复歌词, 后者是算某个词出现在了几首歌中. 源码: import jieba import os 所有词 = [] 词频表 = {} 词所在文件 = {} 词所在文件数 = {} 路径 = "数据" for…

如何在Visual Studio（VS）2012里使用libsvm工具箱

原文:http://blog.csdn.net/u014691453/article/details/40393137 软件版本: Visual Studio版本:VS2012 (注:使用方法在 VS2010 上面亲测同样可用,只是可能会出现的问题是: VS2010 和 VS2012 之间有些函数写法不同,需在编译前做改动,譬如 VS2010 的 scanf 对比 VS2012 的 scanf_s ) libsvm版本:libsvm-3.18 声明: 如果你找到了我这篇标题的文章,那很大程度上意…

曹工说Spring Boot源码（6）-- Spring怎么从xml文件里解析bean的

写在前面的话相关背景及资源: 曹工说Spring Boot源码(1)-- Bean Definition到底是什么,附spring思维导图分享曹工说Spring Boot源码(2)-- Bean Definition到底是什么,咱们对着接口,逐个方法讲解曹工说Spring Boot源码(3)-- 手动注册Bean Definition不比游戏好玩吗,我们来试一下曹工说Spring Boot源码(4)-- 我是怎么自定义ApplicationContext,从json文件读取bean de…

C语言:GB2312编码和GBK编码，将中文存储到计算机

计算机是一种改变世界的发明,很快就从美国传到了全球各地,得到了所有国家的认可,成为了一种不可替代的工具.计算机在广泛流行的过程中遇到的一个棘手问题就是字符编码,计算机是美国人发明的,它使用的是 ASCII 编码,只能显示英文字符,对汉语.韩语.日语.法语.德语等其它国家的字符无能为力.为了让本国公民也能使用上计算机,各个国家(地区)也开始效仿 ASCII,开发了自己的字符编码.这些字符编码和 ASCII 一样,只考虑本国的语言文化,不兼容其它国家的文字.这样做的后果就是,一台计算机上必须安装多套…

转：Unicode字符集和多字节字符集关系

原文地址: http://my.oschina.net/alphajay/blog/5691 unicode.ucs-2.ucs-4.utf-16.utf-32.utf-8 http://stallman.blogbus.com/logs/41709878.html Unicode是为整合全世界的所有语言文字而诞生的.任何文字在Unicode中都对应一个值, 这个值称为代码点(code point).代码点的值通常写成 U+ABCD 的格式. 而文字和代码点之间的对应关系就是UCS-2(Univ…

python 编码转换(转)

主要介绍了python的编码机制,unicode, utf-8, utf-16, GBK, GB2312,ISO-8859-1 等编码之间的转换. 常见的编码转换分为以下几种情况: 自动识别字符串编码可以使用 chardet 模块自动识别字符创编码 chardet 使用方法 unicode 转换为其它编码(GBK, GB2312等) 例如:a为unicode编码要转为gb2312.a.encode('gb2312') # -*- coding=gb2312 -*- a = u"中文&qu…

[No0000137]字符编码详解

摘要本文主要介绍了字符编码的基础知识,以及常见的字符编码类型,比如ASCII,Unicode,UTF-8,ISO 8859等,以及各种编码之间的关系,同时专门解释了中文字符相关的编码标准,包括GB2312,GBK,GB18030,也专门解释了Windows系统中的Code Page,以及相关的BOM等内容缩略词 ASCII (ASCII) American Standard Code for Information Interchange 美国信息交换标准代码 BMP (BMP) Basic…

深度剖析java编码，彻底解决java乱码问题_1

理解: 1,Java编译器(即编译成class文件时) 用的是unicode字符集. 2,乱码主要是由于不同的字符集相互转换导致的,理论上各个字符的编码规则是不同的,是不能相互转换的,所以根本解决乱码的方法就是不要转换编码方式,编码方式前后统一. 3,ASCII.GB2312.GBK.GB18030.Big5.Unicode都是字符集的名称.它们定义了采用1~2个字节的编码规范,为每个字符赋予了一个独一无二的编号.这个编号就是我们所说的“字符编码”. 4, Unic…

Ansi,UTF8,Unicode,ASCII编码的区别 ---我看完了明白了很多

来自:http://blog.csdn.net/xiongxiao/article/details/3741731 ------------------------------------------------------------------------ 近日需要不同的编码,关于上述编码,一直迷迷糊糊,查了些资料,总算大致了解了,下面全是从网上搜来的: 1. ASCII和Ansi编码字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码…

Unicode字符集和多字节字符集关系

在计算机中字符通常并不是保存为图像,每个字符都是使用一个编码来表示的,而每个字符究竟使用哪个编码代表,要取决于使用哪个字符集(charset). 在最初的时候,Internet上只有一种字符集——ANSI的ASCII字符集,它使用7 bits来表示一个字符,总共表示128个字符,其中包括了英文字母.数字.标点符号等常用字符.之后,又进行扩展,使用8 bits表示一个字符,可以表示256个字符,主要在原来的7 bits字符集的基础上加入了一些特殊符号例如制表符. 后来,由于各国语言的加入,AS…

python 编码转换专题

Unicode规范中的BOM 和 ISO8891-1编码

Unicode规范中的BOM Unicode规范中有一个BOM的概念.BOM——Byte Order Mark,就是字节序标记.在这里找到一段关于BOM的说明: 在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF.而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中.UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE".这样如果接收者收到FEFF,就表明这…

Unicode和多字节字符集

今天自己写的发现一个输出路径程序使用unicode字符集只能输出单个的首字符,问了一下同事,改为使用多字节字符集,问题解决了于是上网看了他们的区别: 很多没看完,但起码了解到字符集的演变过程, 转载: 1.https://blog.csdn.net/SarahZhang0104/article/details/51346999 2.https://blog.csdn.net/stephen1315/article/details/7476236 在程序正确编译运行的情况下,结果出现以下情况:…

Ansi,UTF8,Unicode,ASCII编码的区别

Ansi,UTF8,Unicode,ASCII编码的区别近日需要不同的编码,关于上述编码,一直迷迷糊糊,查了些资料,总算大致了解了, 下面全是从网上搜来的: 1. ASCII和Ansi编码字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为单字节内码 -- Single-Byte character sets (SBCS),可以支持256个字符编码. 双字节内码 -- Double-Byte characte…

gvim的菜单乱码解决方法

gvim的菜单乱码解决方法: (乱码是由于系统内码不兼容导致,系统内码包括gb2312 gb18030 utf-8 utf-16[unicode]等) 生成文件 ~/.gvimrc 并添加如下语句:set encoding=chineseset langmenu=zh_CN.GBKset imcmdlineset guifont="Serif 14"source $VIMRUNTIME/delmenu.vimsource $VIMRUNTIME/menu.vim 保存后即可解决乱码问题…

ISAPI_Rewrite中文手册

参考:http://blog.csdn.net/fanxiaojie119/article/details/5353186 第一章:软件介绍ISAPI_Rewrite 是一款适用于IIS的功能强大的基于正则表达式的URL处理模块.它兼容Apache的mod_rewrite的语法,从而使仅仅复制.htaccess文件就把配置从appach移植到IIS中或者从IIS移值到appach中变成可能.请参阅3.2兼容性图表这一节.ISAPI_Rewrite最重要的功能:? ISAPI_Rewrite提供了…

PYTHON学习总结

升级 python 版本的问题升级 python 一般会建立软连接,使系统默认的python指向高版本的 python,如: mv /usr/bin/python /usr/bin/python2.6.6 ln -s /usr/local/bin/python2.7 /usr/bin/python 但由于 yum 命令是基于原版本的 python 来执行的,为解决修改软链接后,yum 不能正常工作的问题(可能版本不兼容,尤其是3.X): 编辑 /usr/bin/yum: #!/usr/bin…

Linux 下查看文件字符编码和转换编码

Linux 下查看文件字符编码和转换编码如果你需要在Linux中操作windows下的文件,那么你可能会经常遇到文件编码转换的问题.Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8.下面介绍一下,在Linux中如何查看文件的编码及如何进行对文件进行编码转换. 一,查看文件编码: 在Linux中查看文件编码可以通过以下几种方式: 1.在Vim中可以直接查看文件编码 :set fileencoding 即可显示文件编码格式. 如果你只是想查看其它编码格式的文件…

vim字符编码设置

vim 编码方式的设置和所有的流行文本编辑器一样,Vim 可以很好的编辑各种字符编码的文件,这当然包括UCS-2.UTF-8 等流行的 Unicode 编码方式.然而不幸的是,和很多来自 Linux 世界的软件一样,这需要你自己动手设置. Vim 有四个跟字符编码方式有关的选项: encoding.fileencoding.fileencodings.termencoding (这些选项可能的取值请参考 Vim 在线帮助 :help encoding-names),它们的意义如下: encod…

iconv内容,convmv文件名,unix2dos,dos2unix文件格式转换,od/cut/wc/dd/diff/uniq/nice/du等命令，linux文件名乱码，文件名,文件内容，vim编码设置

1.enconv文件名编码转换,比如要将一个GBK编码的文件转换成UTF-8编码,操作如下 enconv -L zh_CN -x UTF-8 filename enconv -L GB2312 -x UTF-8 test.txt 2.convmv文件名编码转换: 从Linux往windows拷贝文件或者从windows往Linux拷贝文件,有时会出现中文文件名乱码的情况,出现这种问题的原因是因为,windows的文件名中文编码默认为GBK,而Linux中默认文件名编码为UTF8,由于编码不一致,…