爬虫技术 -- 基础学习（五）解决页面编码识别（附c#代码）

　　实现从Web网页提取文本之前，首先要识别网页的编码，有时候还需要进一步识别网页所使用的语言。因为同一种编码可能对应多种语言，例如UTF-8编码可能对应英文或中文等语言。

　　识别编码整体流程如下：
　　（1）从WEB服务器返回的content type头信息中提取编码，如果是GB2312的编码要当GBK处理。
　　（2）从网页mate标签中识别字符编码，如果content type中的编码不一致，以meta中声明的编码为准。
　　（3）如果仍然无法确定网页所使用的字符集，需要从返回流的二进制格式判断。
　　（4）确定网页所使用的语言，往往采用统计的方法来估计网页的语言。

判断编码的完整过程如下：（c#代码）

         /// <summary>

         /// 函数名称：GetDataFromUrl

         /// 功能说明：获取url指定的网页的源码

         /// 参数：string url用于指定 url

         /// 参数：ref Encoding encode用来获取网页中的字符集编码

         /// </summary>

         public static string GetDataFromUrl(string url, ref Encoding encode)

         {

             string str = string.Empty;

             HttpWebRequest request = (HttpWebRequest)HttpWebRequest.Create(url);

             //设置http头

             request.AllowAutoRedirect = true;

             request.AllowWriteStreamBuffering = true;

             request.Referer = "";

             request.Timeout =  * ;

             request.UserAgent = "";

             HttpWebResponse response = null;

             response = (HttpWebResponse)request.GetResponse();

             //根据http应答的http头来判断编码

             string characterSet = response.CharacterSet;

             //Encoding encode;

             if (characterSet != "")

             {

                 if (characterSet == "ISO-8859-1")

                 {

                     characterSet = "gb2312";

                 }

                 encode = Encoding.GetEncoding(characterSet);

             }

             else

             {

                 encode = Encoding.Default;

             }

             //声明一个内存流来保存http应答流

             Stream receiveStream = response.GetResponseStream();

             MemoryStream mStream = new MemoryStream();

             byte[] bf = new byte[];

             int count = receiveStream.Read(bf, , );

             while (count > )

             {

                 mStream.Write(bf, , count);

                 count = receiveStream.Read(bf, , );

             }

             receiveStream.Close();

             mStream.Seek(, SeekOrigin.Begin);

             //从内存流里读取字符串

             StreamReader reader = new StreamReader(mStream, encode);

             char[] buffer = new char[];

             count = reader.Read(buffer, , );

             while (count > )

             {

                 str += new String(buffer, , count);

                 count = reader.Read(buffer, , );

             }

             //从解析出的字符串里判断charset，如果和http应答的编码不一直

             //那么以页面声明的为准，再次从内存流里重新读取文本

             Regex reg =

                new Regex(@"<meta[\s\S]+?charset=(.*?)""[\s\S]+?>",

                           RegexOptions.Multiline | RegexOptions.IgnoreCase);

             MatchCollection mc = reg.Matches(str);

             if (mc.Count > )

             {

                 string tempCharSet = mc[].Result("$1");

                 if (string.Compare(tempCharSet, characterSet, true) != )

                 {

                     encode = Encoding.GetEncoding(tempCharSet);

                     str = string.Empty;

                     mStream.Seek(, SeekOrigin.Begin);

                     reader = new StreamReader(mStream, encode);

                     buffer = new char[];

                     count = reader.Read(buffer, , );

                     while (count > )

                     {

                         str += new String(buffer, , count);

                         count = reader.Read(buffer, , );

                     }

                 }

             }

             reader.Close();

             mStream.Close();

             if (response != null)

                 response.Close();

             return str;

         }

爬虫技术 -- 基础学习（五）解决页面编码识别（附c#代码）的更多相关文章

爬虫技术 -- 基础学习（四）HtmlParser基本认识
利用爬虫技术获取网页源代码后,针对网页抽取出它的特定文本内容,利用正则表达式和抽取工具,能够更好地抽取这些内容. 下面介绍一种抽取工具 -- HtmlParser HtmlParser是一个用来解析H ...
爬虫技术 -- 基础学习（一）HTML规范化（附特殊字符编码表）
最近在做网页信息提取这方面的,由于没接触过这系列的知识点,所以逛博客,看文档~~看着finallyly大神的博文和文档,边看边学习边总结~~ 对网站页面进行信息提取,需要进行页面解析,解析的方法有以下 ...
爬虫技术 -- 基础学习（三）理解URL和URI的联系与区别
网络爬虫的基本操作是抓取网页.首先要了解下URL~~ 在理解URL之前,先了解下URI,这两个概念我曾经混淆过~@_@|| 什么是URI? Web上每种可用的资源,如:html文档.视频,图片等都由一 ...
Python基础学习五
Python基础学习五迭代 for x in 变量: 其中变量可以是字符串.列表.字典.集合. 当迭代字典时,通过字典的内置函数value()可以迭代出值:通过字典的内置函数items()可以迭代出 ...
解决页面初始化vue加载代码问题
<style type="text/css"> /* 解决页面初始化vue加载代码问题 */ [v-cloak] { display: none; } </sty ...
爬虫技术 -- 进阶学习（十）网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）
最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/Scrapy ...
爬虫技术 -- 进阶学习（九）使用HtmlAgilityPack获取页面链接（附c#代码及插件下载）
菜鸟HtmlAgilityPack初体验...弱弱的代码... Html Agility Pack是一个开源项目,为网页提供了标准的DOM API和XPath导航.使用WebBrowser和HttpW ...
爬虫技术 -- 进阶学习（七）简单爬虫抓取示例（附c#代码）
这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string&g ...
爬虫技术（六）-- 使用HtmlAgilityPack获取页面链接（附c#代码及插件下载）
菜鸟HtmlAgilityPack初体验...弱弱的代码... Html Agility Pack是一个开源项目,为网页提供了标准的DOM API和XPath导航.使用WebBrowser和HttpW ...

随机推荐

如何处理Win7连接vpn时报错789的问题
[转]VPN错误提示: vpn连接出错789:L2TP连接尝试失败,因为安全层在初始化与远程计算机的协商时遇 (2014-08-11 15:09:10)转载▼标签: it xp连接VPN错误提示: v ...
linux 下查找大于100M的文件(转)
命令行如下 find . -type f -size +1000000k Linux系统下查找大文件或目录的技巧当硬盘空间不够时,我们就很关心哪些目录或文件比较大,看看能否干掉一些了,怎么才能知道呢 ...
转：RTMPdump使用相关
在FFMPEG中使用libRTMP的经验 FFMPEG在编译的时候可以选择支持RTMP的类库libRTMP.这样ffmpeg就可以支持rtmp://, rtmpt://, rtmpe://, rtmp ...
Objective C for Windows
You can use Objective C inside the Windows environment. If you follow these steps, it should be work ...
SVN(TortoiseSVN)提交时忽略bin跟obj目录
SVN(TortoiseSVN)提交时忽略bin和obj目录一般协作开发情况下,有意思无意将bin和obj目录添加到版本管理中是很烦人的事儿,在VS中不断地编译程序集和提交将带来版本暴增问题.如果你 ...
JAVA自动化测试数据设计
数据管理是很重要的,数据管理与方法一样,依然是有层次的,我们在测试的过程中,可能会有多个环境,每个环境的URL啊,登录名啊,数据库连接地址啊等等不一样,我们可以把这些环境每个都配置一个数据文件,里面写 ...
ASP.NET Core 获取控制器上的自定义属性
/// <summary> /// 参考代码Microsoft.AspNetCore.Mvc.Internal.AuthorizationApplicationModelProvider ...
互联网的寒冬来了，BAT都不社招了
一总理上次来到创业街,是四个月,要不就是五个月前了. 之后,全国创业形势一路走红,锣鼓喧天鞭炮齐鸣.大众创业万众创新,颇有大炼钢铁亩产万斤之势,尤其在媒体上. 再之后,2015 进入下半年,风投圈的 ...
DropDownList 获取不了选择的值这种错误
有时候做项目的时候发现DropDownList 获取不了选择的值这个原因很可能是你初始化DropDownList的时候没有进行 ispostback的判断导致提交的时候又初始化了一次... ...
MyEclipse中拷贝J2EE项目，发布到tomcat中名字一样的解决办法
修改Eclipse工作空间下新拷贝项目下.settings文件夹中org.eclipse.wst.common.component的两个属性值. 为新项目名字: <?xml version=&q ...

爬虫技术 -- 基础学习（五）解决页面编码识别（附c#代码）

爬虫技术 -- 基础学习（五）解决页面编码识别（附c#代码）的更多相关文章

随机推荐

热门专题