一.URL简介    URL是网页的地址,比如 http://www.cnblogs.com.Web 浏览器通过 URL 从 web 服务器请求页面.    由于URL字符串常常会包含非ASCII字符,URL在传输过程中,往往出现错误.因此,可以将非字符串字符,让一些特殊ASCII字符组合,代替非ASCII字符.这就是编码转换,当字符串传输后,可以返回原RUL字符串(解码).    URL只能使用 ASCII 字符集来通过因特网进行发送.URL编码,就是会将RUL字符转换为可通过因特网传输的格式…
做完了flask-web应用,这几天想用爬虫做个好玩的电影链接整合器,平时找电影都是在dytt或者dy2018之类的网站,在用dytt搜索电影<美国队长时>,发现他的搜索链接是这样的:http://s.dydytt.net/plus/search.php?kwtype=0&searchtype=title&keyword=%C3%C0%B9%FA%B6%D3%B3%A4 很明显就能看出来美国队长被编码成了%C3%C0%B9%FA%B6%D3%B3%A4这个,这个是url链接用的…
利用zxing制作彩色,高容错,支持中文等UTF编码的QR二维码图片.代码如下 import java.awt.Color;import java.io.File;import java.util.HashMap;import java.util.Map; import com.google.zxing.BarcodeFormat;import com.google.zxing.EncodeHintType;import com.google.zxing.MultiFormatWriter;im…
在编程当中经常出现乱码的问题,而由此一般会引发很多惨剧,如读文件不成功.用户名显示乱码等,所以端午节抽了一小点时间好好看了一下编码问题,以备遗忘. 首先是中文编码,除了台湾和香港常用的BIG5,国内大概都用的是gb2312,这个可以从各大门户的首页源码中找到一些线索.还有一种叫gbk,这是微软对gb2312的拓展.主要由于gb2312只能表示6763个简体汉字,682个符号,具体可见字符区别. 然后是编程当中常见的utf编码,相信很多程序员都晕.比如我们最近在做android的NDK编程时,就发…
最近工作上正好需要进行UTF编码检测,自己写了一个,分享给大家,希望可以帮得上有需要用的朋友 public bool isUtf8(byte[] rawText) { bool result = true; if (rawText == null) { return !result; } ; while (pos < rawText.Length && result) { if ((rawText[pos] & 0x7F) == rawText[pos]) { pos++;…
对编码内容多次UrlDecode,并不会影响最终结果. 尝试阅读了微软的源代码,不过不容易读懂. 网址:https://referencesource.microsoft.com/#System/net/System/Net/WebUtility.cs,73c04b8a4fde5039 以下为从网址上复制下来的一些关键代码,不过没看懂. public static string UrlDecode(string encodedValue) { if (encodedValue == null)…
sha1.md5.base64 mac $ echo -n foo|shasum 0beec7b5ea3f0fdbc95d0dd47f3c5bc275da8a33 - $ 2c26b46b68ffc68ff99b453c1d30413413422d706483bfa0f98a5e886266e7ae - $ echo -n foo|openssl dgst -sha1 0beec7b5ea3f0fdbc95d0dd47f3c5bc275da8a33 $ echo -n foo|openssl d…
先明确几个概念 基础概念部分 1.字符编码方式CEF(Character Encoding Form) 对符号进行编码,便于处理与显示 常用的编码方式有 GB2312(汉字国标码 2字节) ASCII (标准交换字符 1字节) UNICODE(统一码, 4字节;现常用2字节编码方式,即使用第0组第0面(BMP字符),不包含扩充字符) 2.码点(Code Point) 二维表中行与列相交的点,称之为码点,也称之为码位(Code position):每个码点分配一个唯一的编号,称之为码点值或码点编号…
//delphi DecodeUtf8Str解决系统自带UTF8解码缺陷 function DecodeUtf8Str(const S: UTF8String): WideString; var lenSrc, lenDst  : Integer; begin   lenSrc  := Length(S);   if(lenSrc=0)then Exit;   lenDst  := MultiByteToWideChar(CP_UTF8, 0, Pointer(S), lenSrc, nil,…
URL编码其实就是对一些字符转义为%加上该字符对应ASCII码的二位十六进制形式. 如: 字符 特殊字符的含义 URL编码 # 用来标志特定的文档位置 % % 对特殊字符进行编码 % & 分隔不同的变量值对 % + 在变量值中表示空格 %2B \ 表示目录路径 %2F = 用来连接键和值 %3D ? 表示查询字符串的开始 %3F so: function decodeURI(s) s = )) end) return s end function encodeURI(s) s = string.…