asp.net 利用HttpWebRequest自动获取网页编码并获取网页源代码

     /// <summary>

    /// 获取源代码

    /// </summary>

    /// <param name="url"></param>

    /// <returns></returns>

    public static string GetHtml(string url, Encoding encoding)

    {

        HttpWebRequest request = null;

        HttpWebResponse response = null;

        StreamReader reader = null;

        try

        {

            request = (HttpWebRequest)WebRequest.Create(url);

            request.Timeout = ;

            request.AllowAutoRedirect = false;

            response = (HttpWebResponse)request.GetResponse();

            if (response.StatusCode == HttpStatusCode.OK && response.ContentLength <  * )

            {

                if (response.ContentEncoding != null && response.ContentEncoding.Equals("gzip", StringComparison.InvariantCultureIgnoreCase))

                    reader = new StreamReader(new GZipStream(response.GetResponseStream(), CompressionMode.Decompress), encoding);

                else

                    reader = new StreamReader(response.GetResponseStream(), encoding);

                string html = reader.ReadToEnd();

                return html;

            }

        }

        catch

        {

        }

        finally

        {

            if (response != null)

            {

                response.Close();

                response = null;

            }

            if (reader != null)

                reader.Close();

            if (request != null)

                request = null;

        }

        return string.Empty;

    }

    public static string GetEncoding(string url)

    {

        HttpWebRequest request = null;

        HttpWebResponse response = null;

        StreamReader reader = null;

        try

        {

            request = (HttpWebRequest)WebRequest.Create(url);

            request.Timeout = ;

            request.AllowAutoRedirect = false;

            response = (HttpWebResponse)request.GetResponse();

            if (response.StatusCode == HttpStatusCode.OK && response.ContentLength <  * )

            {

                if (response.ContentEncoding != null && response.ContentEncoding.Equals("gzip", StringComparison.InvariantCultureIgnoreCase))

                    reader = new StreamReader(new GZipStream(response.GetResponseStream(), CompressionMode.Decompress));

                else

                    reader = new StreamReader(response.GetResponseStream(), Encoding.ASCII);

                string html = reader.ReadToEnd();

                Regex reg_charset = new Regex(@"charset\b\s*=\s*(?<charset>[^""]*)");

                if (reg_charset.IsMatch(html))

                {

                    return reg_charset.Match(html).Groups["charset"].Value;

                }

                else if (response.CharacterSet != string.Empty)

                {

                    return response.CharacterSet;

                }

                else

                    return Encoding.Default.BodyName;

            }

        }

        catch

        {

        }

        finally

        {

            if (response != null)

            {

                response.Close();

                response = null;

            }

            if (reader != null)

                reader.Close();

            if (request != null)

                request = null;

        }

    }

 using System;

 using System.Net;

 using System.Text;

 using System.Text.RegularExpressions; 

 class Program

 {

   // 获取网页的HTML内容，根据网页的charset自动判断Encoding

   static string GetHtml(string url)

   {

     return GetHtml(url, null);

   } 

   // 获取网页的HTML内容，指定Encoding

   static string GetHtml(string url, Encoding encoding)

   {

     byte[] buf = new WebClient().DownloadData(url);

     if (encoding != null) return encoding.GetString(buf);

     string html = Encoding.UTF8.GetString(buf);

     encoding = GetEncoding(html);

     if (encoding == null || encoding == Encoding.UTF8) return html;

     return encoding.GetString(buf);

   } 

   // 根据网页的HTML内容提取网页的Encoding

   static Encoding GetEncoding(string html)

   {

     string pattern = @"(?i)\bcharset=(? <charset>[-a-zA-Z_0-9]+)";

     string charset = Regex.Match(html, pattern).Groups["charset"].Value;

     try { return Encoding.GetEncoding(charset); }

     catch (ArgumentException) { return null; }

   } 

   // 根据网页的HTML内容提取网页的Title

   static string GetTitle(string html)

   {

     string pattern = @"(?si) <title(?:\s+(?:""[^""]*""|'[^']*'|[^""'>])*)?>(? <title>.*?) </title>";

     return Regex.Match(html, pattern).Groups["title"].Value.Trim();

   } 

   // 打印网页的Encoding和Title

   static void PrintEncodingAndTitle(string url)

   {

     string html = GetHtml(url);

     Console.WriteLine("[{0}] [{1}]", GetEncoding(html), GetTitle(html));

   } 

   // 程序入口

   static void Main()

   {

     PrintEncodingAndTitle("http://www.msdn.net/");

     PrintEncodingAndTitle("http://www.cnblogs.com/");

     PrintEncodingAndTitle("http://www.cnblogs.com/skyiv/");

     PrintEncodingAndTitle("http://www.csdn.net/");

     PrintEncodingAndTitle("http://news.163.com/");

   }

 }

 /* 程序输出：

 [] [MSDN: Microsoft Developer Network]

 [System.Text.UTF8Encoding] [博客园 - 程序员的网上家园]

 [System.Text.UTF8Encoding] [空间/IV - 博客园]

 [System.Text.UTF8Encoding] [CSDN.NET - 中国最大的IT技术社区，为IT专业技术人员提供最全面的信息传播和服务平台]

 [System.Text.DBCSCodePageEncoding] [新闻中心_网易新闻]

 */

asp.net 利用HttpWebRequest自动获取网页编码并获取网页源代码的更多相关文章

使用 idHTTP 获取 UTF-8 编码的中文网页
uses IdHTTP; const Url = 'http://del.cnblogs.com'; procedure TForm1.Button1Click(Sender: TObject); v ...
解决Chrome网页编码显示乱码的问题
解决Chrome网页编码显示乱码的问题记得在没多久以前,Google Chrome上面出现编码显示问题时,可以手动来调整网页编码问题,可是好像在Chrome 55.0版以后就不再提供手动调整编码,所 ...
c#利用HttpWebRequest获取网页源代码
c#利用HttpWebRequest获取网页源代码,搞了好几天终于解决了,直接获取网站编码进行数据读取,再也不用担心乱码了! 命名空间:Using System.Net private static ...
利用HttpWebRequest和HttpWebResponse获取Cookie
之前看过某个同学的一篇有关与使用JSoup解析学校图书馆的文章,仔细一看,发现竟然是同校!!既然对方用的是java,那么我也就来个C#好了,虽然我的入门语言是java. C#没有JSoup这样方便的东 ...
利用HttpWebRequest和HttpWebResponse获取Cookie并实现模拟登录
利用HttpWebRequest和HttpWebResponse获取Cookie并实现模拟登录 tring cookie = response.Headers.Get("Set-Cookie ...
ASP.NET 获取来源网站的网址,获取上一网页的网址,获取来源网页的URL,获取上一网页的URL
ASP.NET 获取来源网站的网址,获取上一网页的网址,获取来源网页的URL, 获取上一网页的URL Uri Url = HttpContext.Current.Request.UrlReferrer ...
微信公众号开发《一》OAuth2.0网页授权认证获取用户的详细信息，实现自动登陆
原创声明:本文为本人原创作品,绝非他处转账,转载请联系博主从接触公众号到现在,开发维护了2个公众号,开发过程中遇到很多问题,现在把部分模块功能在这备案一下,做个总结也希望能给其他人帮助工欲善其事, ...
【真相揭秘】requests获取网页编码乱码本质
有没有被网页编码抓狂,怎么转都是乱码. 通过查看requests源代码,才发现是库本身历史原因造成的. 作者是严格http协议标准写这个库的,<HTTP权威指南>里第16章国际化里提到,如 ...
减少HTTP请求之将图片转成二进制并生成Base64编码,可以在网页中通过url查看图片(大型网站优化技术)
在网站开发过程中,对于页面的加载效率一般都想尽办法求快.那么,怎么让才能更快呢?减少页面请求是一个优化页面加载速度很好的方法.上一篇博文我们讲解了 “利用将小图标合成一张背景图来减少HTTP请求”, ...

随机推荐

FileBuffer-ImageBuffer 模拟PE
这节课的重点是:模拟PE加载过程,按照运行的要求给FileBuffer拉伸放到内存当中,从 FileBuffer 到 ImageBuffer 再到运行Buffer. PE 加载过程: 根据si ...
java浅拷贝和深拷贝(基础也是很重要的)
对象的copy你兴许只是懵懂,或者是并没在意,来了解下吧. 对于的github基础代码https://github.com/chywx/JavaSE 最近学习c++,跟java很是相像,在慕课网学习c ...
windows下srand48()和drand48()的问题
前几天在windows下用MINGW编译一段代码时,出现了错误提示说srand48()和drand48()的未定义,去网上搜了下,发现好多人也遇到了同样的问题,大约有两种解决方案: 第一个就是说gcc ...
（bc 1001） hdu 6015 skip the class
Skip the Class Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others) T ...
Codeforces 196 E. Tricky and Cleve Password
$>Codeforces \space 196\ E. Tricky\ and\ Cleve\ Password<$ 题目大意 : 给出一个有 $n$ 个结点,$m$ 条边的连 ...
51nod1203 JZPLCM 线段树 + 扫描线
不算很难的一道题原题的数据虽然很小,但是我们不能欺负它,我们就要当$S[i] \leqslant 10^9$来做这题最小公倍数 = 所有的质因数取可能的最大幂相乘对于$> \sqrt S$ ...
PHP文件上传学习
PHP文件上传学习 <?php // 判断是否有文件上传 if (!isset($_FILES['upfile'])) { die('No uploaded file.'); } // 判断是否 ...
hdu 5224 Tom and paper 水题
Tom and paper Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://acm.uestc.edu.cn/#/contest/show/6 ...
PAT甲级1066. Root of AVL Tree
PAT甲级1066. Root of AVL Tree 题意: 构造AVL树,返回root点val. 思路: 了解AVL树的基本性质. AVL树 ac代码: C++ // pat1066.cpp : ...
Struts2 学习笔记 09 访问Web元素
我们想要访问Map类型request,session,application.真实类型HttpServletRequest,HttpSession,ServletContext的引用,并对它们进行操作 ...

asp.net 利用HttpWebRequest自动获取网页编码并获取网页源代码

asp.net 利用HttpWebRequest自动获取网页编码并获取网页源代码的更多相关文章

随机推荐

热门专题