C#获取网页内容，并且处理正确编码

控制台调用
static void Main(string[] args)

        {

            string code = GetEncodings("http://www.cnblogs.com");

            Encoding pp = Encoding.GetEncoding(code);

            string pl = GetHtml("http://www.cnblogs.com", pp);

        }

下面的代码不重要，只是可以获取标题或其它内容

// 获取网页的HTML内容，根据网页的charset自动判断Encoding

        static string GetHtml(string url)

        {

            return GetHtmls(url, null);

        }

        // 获取网页的HTML内容，指定Encoding

        static string GetHtmls(string url, Encoding encoding)

        {

            byte[] buf = new WebClient().DownloadData(url);

            if (encoding != null) return encoding.GetString(buf);

            string html = Encoding.UTF8.GetString(buf);

            encoding = GetEncoding(html);

            if (encoding == null || encoding == Encoding.UTF8) return html;

            return encoding.GetString(buf);

        }

        // 根据网页的HTML内容提取网页的Encoding

        static Encoding GetEncoding(string html)

        {

            string pattern = @"(?i)\bcharset=(? <charset>[-a-zA-Z_0-9]+)";

            string charset = Regex.Match(html, pattern).Groups["charset"].Value;

            try { return Encoding.GetEncoding(charset); }

            catch (ArgumentException) { return null; }

        }

        // 根据网页的HTML内容提取网页的Title

        static string GetTitle(string html)

        {

            string pattern = @"(?si) <title(?:\s+(?:""[^""]*""|'[^']*'|[^""'>])*)?>(? <title>.*?) </title>";

            return Regex.Match(html, pattern).Groups["title"].Value.Trim();

        }

        // 打印网页的Encoding和Title

        static void PrintEncodingAndTitle(string url)

        {

            string html = GetHtml(url);

            Console.WriteLine("[{0}] [{1}]", GetEncoding(html), GetTitle(html));

        }

里面的代码不重要，只是获取其它的内容

/// <summary>

        /// 获取源代码

        /// </summary>

        /// <param name="url"></param>

        /// <returns></returns>

        public static string GetHtml(string url, Encoding encoding)

        {

            HttpWebRequest request = null;

            HttpWebResponse response = null;

            StreamReader reader = null;

            try

            {

                request = (HttpWebRequest)WebRequest.Create(url);

                request.Timeout = ;

                request.AllowAutoRedirect = false;

                response = (HttpWebResponse)request.GetResponse();

                if (response.StatusCode == HttpStatusCode.OK && response.ContentLength <  * )

                {

                    if (response.ContentEncoding != null && response.ContentEncoding.Equals("gzip", StringComparison.InvariantCultureIgnoreCase))

                        reader = new StreamReader(new GZipStream(response.GetResponseStream(), CompressionMode.Decompress), encoding);

                    else

                        reader = new StreamReader(response.GetResponseStream(), encoding);

                    string html = reader.ReadToEnd();

                    return html;

                }

            }

            catch

            {

            }

            finally

            {

                if (response != null)

                {

                    response.Close();

                    response = null;

                }

                if (reader != null)

                    reader.Close();

                if (request != null)

                    request = null;

            }

            return string.Empty;

        }

        public static string GetEncodings(string url)

        {

            HttpWebRequest request = null;

            HttpWebResponse response = null;

            StreamReader reader = null;

            try

            {

                request = (HttpWebRequest)WebRequest.Create(url);

                request.Timeout = ;

                request.AllowAutoRedirect = false;

                response = (HttpWebResponse)request.GetResponse();

                if (response.StatusCode == HttpStatusCode.OK && response.ContentLength <  * )

                {

                    if (response.ContentEncoding != null && response.ContentEncoding.Equals("gzip", StringComparison.InvariantCultureIgnoreCase))

                        reader = new StreamReader(new GZipStream(response.GetResponseStream(), CompressionMode.Decompress));

                    else

                        reader = new StreamReader(response.GetResponseStream(), Encoding.ASCII);

                    string html = reader.ReadToEnd();

                    string pp = html.Substring(html.IndexOf("charset"),);

                    int p2 = pp.IndexOf(">");

                    pp=pp.Substring(,p2);

                    pp = pp.Replace("\\", "").Replace("\"", "").Replace("charset=","").Replace(">","")..Replace("/","").Replace(" ","");;

                    string p3 = pp;

                    return p3;

                    //Regex reg_charset = new Regex(@"charset\b\s*=\s*(?<charset>[^""]*)");

                    //if (reg_charset.IsMatch(html))

                    //{

                    //    return reg_charset.Match(html).Groups["charset"].Value;

                    //}

                    //else if (response.CharacterSet != string.Empty)

                    //{

                    //    return response.CharacterSet;

                    //}

                    //else

                    //    return Encoding.Default.BodyName;

                    ////XmlDocument xml = new XmlDocument();

                    ////xml.LoadXml(html);

                }

                return null; 

            }

            catch

            {

                return null;

            }

            finally

            {

                if (response != null)

                {

                    response.Close();

                    response = null;

                }

                if (reader != null)

                    reader.Close();

                if (request != null)

                    request = null;

            }

        }

这里才是真正的代码，这里一个是获取正确的编码，一个是根据编码解析源码

C#获取网页内容，并且处理正确编码的更多相关文章

C#获取网页内容 (WebClient、WebBrowser和HttpWebRequest/HttpWebResponse)
获取网页数据有很多种方式.在这里主要讲述通过WebClient.WebBrowser和HttpWebRequest/HttpWebResponse三种方式获取网页内容. 这里获取的是包括网页的所有信息 ...
C#获取网页内容的三种方式
C#通常有三种方法获取网页内容,使用WebClient.WebBrowser或者HttpWebRequest/HttpWebResponse... 方法一:使用WebClient (引用自:http: ...
基于apache —HttpClient的小爬虫获取网页内容
今天(17-03-31)忙了一下午研究webmagic,发现自己还太年轻,对于这样难度的框架(类库) 还是难以接受,还是从基础开始吧,因为相对基础的东西教程相多一些,于是乎我找了apache其下的 H ...
C#获取网页内容的三种方式(转)
搜索网络,发现C#通常有三种方法获取网页内容,使用WebClient.WebBrowser或者HttpWebRequest/HttpWebResponse... 方法一:使用WebClient (引用 ...
【C#】获取网页内容及HTML解析器HtmlAgilityPack的使用
最近经常需要下载一些东西,而这个下载地址又会经过层层跳转,每个页面上都有很多广告,烦不胜烦,所以做了一个一键获得最终下载地址的小工具.使用C#,来获取网页内容,然后通过HtmlAgilityPack获 ...
JS获取url参数及url编码、解码
完整的URL由这几个部分构成:scheme://host:port/path?query#fragment ,各部分的取法如下: window.location.href:获取完整url的方法:,即s ...
定义一个方法get_page(url),url参数是需要获取网页内容的网址，返回网页的内容。提示（可以了解python的urllib模块）
定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容.提示(可以了解python的urllib模块) import urllib.request def get_ ...
使用Jsoup获取网页内容超时设置
使用Jsoup获取网页内容超时设置最近使用Jsoup来抓取网页,并对网页进行解析,发现很好用.在抓取过程中遇到一个问题,有些页面总是报Timeout异常,开始想是不是被抓取网站对IP进行了限制,后来 ...
使用selenium和phantomJS浏览器获取网页内容的小演示
# 使用selenium和phantomJS浏览器获取网页内容的小演示 # 导入包 from selenium import webdriver # 使用selenium库里的webdriver方法调 ...
[PHP学习教程 - 网络]002.获取网页内容(URL Content)
引言:获取网页内容是我们实现网页操作的基本之基本,今天这一讲,我们和大家讲一下基本请求网页内容的几种方法. 我们似乎每天都要做这样一件事情,打开一个浏览器,输入网址,回车,一个空白的页面顿时有了东西, ...

随机推荐

查询SQL优化
SQL优化的一般步骤通过show status命令了解各种SQL的执行频率定位执行效率较低的SQL语句,重点select通过explain分析低效率的SQL确定问题并采取相应的优化措施优化措施 s ...
【LOJ】#2068. 「SDOI2016」探险路线
题解少考虑了情况,导致我以为是暴力讨论一次角落移动 de了两天才反应过来--简直降智事实上,我们把移动分三类,一种是在边界跳过一段,一种是在左上角上左上左上左这样撞墙,在右下角下右下右下右这么撞墙 ...
USACO 6.5 Betsy's Tour （插头dp）
Betsy's TourDon Piele A square township has been divided up into N2 square plots (1 <= N <= 7) ...
Bootstrap--响应式图片轮播
<div class="row"> <div class="span12"> <section id="carousel ...
webview内部跳转判断
重写webview内的方法 webView.setWebViewClient(new WebViewClient() { @Override // 在点击请求的是链接是才会调用,重写此方法返回true ...
String 与不可变对象
什么是不可变对象 ?不可变对象指的是在创建一个对象之后 ,不能再改变它的状态 ,那么这个对象就是不可变的 .不能改变状态的意思是 ,不能改变对象内的成员变量 ,包括基本数据类型的值不能改变 ,引用类型 ...
美团客户端响应式框架EasyReact开源啦
前言 EasyReact 是一款基于响应式编程范式的客户端开发框架,开发者可以使用此框架轻松地解决客户端的异步问题. 目前 EasyReact 已在美团和大众点评客户端的部分业务中进行了实践,并且持续 ...
【基础知识】.Net基础加强第三天
一. 里氏替换原则--类型转换 1. 里氏替换原则:当需要一个父类类型对象的时候,可以给一个子类类型的对象. 2. 里氏替换原则实际也就是发生了隐身转换 3. a.>把子类类型赋值给父类类型, ...
切换 NPM 镜像源
转载:快速切换NPM源我们介绍过cnpmjs.org和淘宝 npm 两个 NPM 镜像.除此之外,还有一些国外的 NPM 镜像.不同地区访问不同的镜像速度可能有差异,因此有时候需要切换 NPM 镜像 ...
怎么处理stdClass::__set_state
处理后处理方法 function object2array_pre(&$object) { if (is_object($object)) { $arr = (array)($object) ...

C#获取网页内容，并且处理正确编码

C#获取网页内容，并且处理正确编码的更多相关文章

随机推荐

热门专题