使用HttpGet协议与正则表达实现桌面版的糗事百科

写在前面

最近在重温asp.net，找了一本相关的书籍。本书在第一章就讲了，在不使用浏览器的情况下生成一个web请求，获取服务器返回的内容。于是在网上搜索关于Http请求相关的资料，发现了很多资料都是讲述基于HttpGet和HttpPost请求服务器的资源，然根据Get和Post的单词意思就大概知道Get（得到）意为从服务中获取资源，而Post（发送）意为先发送数据包返还给服务器再获取服务器资源。当然他们之间还有一些其他的区别，但是本文主要讲的不是这个。当知道如何使用Get和Post的请求去访问服务器的数据，我就迫不及待找一些网页来做测试，于是就有了糗事百科的Winform版啦。

下面给大家看看效果。

下面我将这个过程分为以下几个部分来进行讲解，并在文章的最后提供下载链接。

1、分析糗事百科的网页，构造web请求。

2、分析网页html源代码，提取需要的信息。

3、数据绑定。

1、分析糗事百科的网页，构造web请求

打开糗事百科笑话的主页，在这里我只取糗事笑话中文字这一板块，点击文字这一菜单栏。如下图。

1.1 获取糗事百科内容的url

从上图可以看出，文字版本的url链接为：http://www.qiushibaike.com/textnew/page/2/?s=4869039。根据链接的内容可以看出http://www.qiushibaike.com为该网页的主机部分是不变的，/textnew/page代表是文字笑话这一主题的页面也是不变的，而后面的数字2和？s=4869039是url中变换不同页面内容的关键，通过分析得知数字2代表不同的文字笑话的页数，而？s=4869039没有弄得很清楚，估计是标识符啥的，但是并不影响，我们就把它固定下来，不做改变。综上所述在http://www.qiushibaike.com/textnew/page/2/?s=4869039中我们只需要变动数字2就可以获取不同页面的文字笑话内容。

1.2 构造HttpGet请求的头信息

上一步我们获取了文字内容页面的url，下面我需要模拟浏览器针对这个url构造一个Get请求，从而获取糗百的页面数据。打开浏览器的开发者工具，从中可以看到浏览器构造的详细的http请求的报头信息如下图。然后我们在代码中仿照这样的请求报头信息去请求服务器资源。

注意：其中红线标示的部分在实例化一个Http请求类时都需要被设置，否则会得到错误的返回结果。

1.3 c#实现糗百网页的抓取

根据上面的分析，我使用c#语言并利用System.Net程序集中的HttpWebRequest和HttpWebResponse这两个类去实现网页内容的抓取。

源代码如下：

const string qsbkMainUrl = "http://www.qiushibaike.com";

//获取糗百文字笑话页的url

 private static string GetWBJokeUrl(int pageIndex)

  {

            StringBuilder url = new StringBuilder();

            url.Append(qsbkMainUrl);

            url.Append ("/textnew/page/");

            url.Append(pageIndex.ToString ());

            url.Append("/?s=4869039");

            return url.ToString();

    }

//根据网页的url获取网页的html源码

 private static string  GetUrlContent(string url)

 {

            try

            {

                HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);

                request.UserAgent = "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/4.4.8.1000 Chrome/30.0.1599.101 Safari/537.36";

                request.Method = "GET";

                request.ContentType = "text/html;charset=UTF-8";

                HttpWebResponse response = (HttpWebResponse)request.GetResponse();

                Stream myResponseStream = response.GetResponseStream();

                StreamReader myStreamReader = new StreamReader(myResponseStream, Encoding.GetEncoding("utf-8"));//因为知道糗百网页的编码方式为utf-8

                string retString = myStreamReader.ReadToEnd();

                myStreamReader.Close();

                myResponseStream.Close();

                return retString;

            }

            catch { return null; }

  }

2、分析网页html源代码，提取需要的信息

在1中我们已经根据page页索引的不同而获取不同的页面内容，而这一步的任务就是如何从返回的html源代码中获取我们想要的笑话内容。

我们提取网页文字的笑话内容包括三个部分：发布笑话者的头像，发布笑话者的昵称，发布内容。

2.1 分析网页构造正则表达式

首先我们对html源码进行分析并找出我们想要的内容所在的标签位置，以及它们的html的结构。

这上面是我分析的我们所需要的内容所在html源码中的标签位置，由于一个页面中每条笑话的html显示标签都是一样的，所以只要能偶提取一条笑话的内容，那么该页的其它笑话也可以同样提取。由于这种结构基本是固定的，每个笑话的各部分内容都是用相同的html标签表示，并且位置也是相同的，因此在写正则表达的时候，可以用很多常量字符去固定，这样能够加快正则的匹配效率。下面给出匹配笑话内容的正则表达，（通过分组实现捕获一个笑话的不同内容）。当然这个正则表达式可能存在一些不能完全精确匹配的情况。

正则：<img src="([^"]*")\s*alt="([^"]*)"/>\s</a>\s<a href="([^"]*)"[^>]*>\s<h2>[^>]*>\s</a>\s</div>\s*<div class="content">\s*((.*|<br/>)*)

其中，第一个括号里面的内容代表“头像地址”，第二个括号里面的内容代表“昵称”，第三个括号里面的内容代表“笑话内容”

2.2 编码获取页面的所有笑话

a、首先建一个笑话的实体类

public class JokeItem

    {

        private string nickName;

        /// <summary>

        /// 昵称

        /// </summary>

        public string NickName

        {

            get { return nickName; }

            set { nickName = value; }

        }

        private Image headImage;

        /// <summary>

        /// 头像

        /// </summary>

        public Image HeadImage

        {

            get { return headImage; }

            set { headImage = value; }

        }

        private string jokeContent;

        /// <summary>

        /// 笑话内容

        /// </summary>

        public string JokeContent

        {

            get { return jokeContent; }

            set { jokeContent = value; }

        }

        private string jokeUrl;

        /// <summary>

        /// 笑话地址

        /// </summary>

        public string JokeUrl

        {

            get { return jokeUrl; }

            set { jokeUrl = value; }

        }

}

b、利用正则获取笑话内容

/// <summary>

        /// 获取笑话列表

        /// </summary>

        /// <param name="htmlContent"></param>

        public static  List<JokeItem> GetJokeList(int pageIndex)

        {

            string htmlContent=GetUrlContent(GetWBJokeUrl(pageIndex));

            List<JokeItem> jokeList = new List<JokeItem>();

            Regex rg = new Regex(@"<img src=""([^""]*"")\s*alt=""([^""]*)""/>\s</a>\s<a href=""([^""]*)""[^>]*>\s<h2>[^>]*>\s</a>\s</div>\s*<div class=""content"">\s*((.*|<br/>)*)", RegexOptions.IgnoreCase);

            JokeItem joke;

            MatchCollection matchResults = rg.Matches(htmlContent);

            foreach (Match result in matchResults)

            {

                joke = new JokeItem();

                joke.HeadImage = GetWebImage(result.Groups[].Value);

                joke.HeadImage = joke.HeadImage != null ? new Bitmap(GetWebImage(result.Groups[].Value), , ) : null;

                joke.NickName = result.Groups[].Value;

                joke.JokeUrl = qsbkMainUrl + "/" + result.Groups[].Value; ;

                joke.JokeContent = result.Groups[].Value.Replace("<br/>", "\r\n").Replace("<br>", "\r\n");

                joke.JokeContent = Regex.Replace(joke.JokeContent, @"(\r\n)+", "\r\n");//去掉多余的空行

                jokeList.Add(joke);

            }

            return jokeList;

        }

c、根据头像url地址获取头像

 private static Image GetWebImage(string webUrl)

        {

            try

            {

                Encoding encode = Encoding.GetEncoding("utf-8");//网页编码==Encoding.UTF8  

                HttpWebRequest req = (HttpWebRequest)WebRequest.Create(new Uri(webUrl));

                HttpWebResponse ress = (HttpWebResponse)req.GetResponse();

                Stream sstreamRes = ress.GetResponseStream();

                return System.Drawing.Image.FromStream(sstreamRes); 

            }

            catch { return null; }

        }

3、数据绑定

数据都获取了，数据绑定是最容易的一步，由于数据获取这一步牵涉到web请求，会发生几秒的网络延迟，因此需要使用一个后台的工作线程去请求数据。在此处采用backgroundWorker控件来实现异步请求数据。其中UI部分借用了两个第三方控件，一个是加载的等待条，另一个是数据绑定控件。数据绑定代码就不贴出来了。可以在下面下载我的源码。

4、总结

在这个过程中，我对http的请求方式有了进一步的理解，也终于把平常学习的正则表达式发挥了用处。

把平常学习到的技术综合起来再结合一个好的想法就会做出让自己意想不到的小程序，希望自己以后能多把自己学习的技术与实践结合起来。

开发环境：vs2013,.net2.0

源码地址：http://download.csdn.net/detail/mingge38/9504931

使用HttpGet协议与正则表达实现桌面版的糗事百科的更多相关文章

HttpGet协议与正则表达
使用HttpGet协议与正则表达实现桌面版的糗事百科写在前面最近在重温asp.net,找了一本相关的书籍.本书在第一章就讲了,在不使用浏览器的情况下生成一个web请求,获取服务器返回的内容.于 ...
python+正则提取+ip代理爬取糗事百科文字信息
很多网站都有反爬措施,最常见的就是封ip,请求次数过多服务器会拒绝连接,如图: 在程序中设置一个代理ip,可有效的解决这种问题,代码如下: # 需要的库 import requests import ...
Python+Requests+Re（正则）爬取某糗事百科图片（数据分析一）
1.博客目前在学习爬虫课程,使用正则表达式来爬取网页的图片信息 2.下面我们一起来回归下Python中的正则使用方式/方法 3.糗事百科图片爬取源码如下: import requestsimport ...
python+正则+多进程爬取糗事百科图片
话不多说,直接上代码: # 需要的库 import requests import re import os from multiprocessing import Pool # 请求头 header ...
Javascript正则构造函数与正则表达字面量&&常用正则表达式
本文不讨论正则表达式入门,即如何使用正则匹配.讨论的是两种创建正则表达式的优劣和一些细节,最后给出一些常用正则匹配表达式. Javascript中的正则表达式也是对象,我们可以使用两种方法创建正则表达 ...
js正则表达test、exec和match的区别
test的用法和exec一致,只不过返回值是 true false. 以前用js很少用到js的正则表达式,即使用到了,也是诸如邮件名称之类的判断,网上代码很多,很少有研究,拿来即用. 最近开发遇到一些 ...
正则表达示 for Python3
前情提要从大量的文字内容中找到自己想要的东西,正则似乎是最好的方法.也是写爬虫不可缺少的技能.所以,别墨迹了赶紧好好学吧! 教程来自http://www.runoob.com/python3/pyt ...
Python之面向对象和正则表达（代数运算和自动更正）
面向对象一.概念解释面对对象编程(OOP:object oriented programming):是一种程序设计范型,同时也是一种程序开发的方法,实现OOP的程序希望能够在程序中包含各种独立而又 ...
JS写法数值与字符串的相互转换取字符中的一部分显示正则表达规则
http://www.imooc.com/article/15885 正则表达规则 <script type="text/javascript"> </scrip ...

随机推荐

[Virus Analysis]恶意软件分析（二）玩出花的批处理（中）
本文作者:i春秋作家——Sp4ce 0×01上一篇文章部分首先是文件目录整理后的目录整理前的部分文件代码 update.bat %%Q %%Q %%Q %%Q %%Q %%Q %%Q %%Q % ...
位域(bit fields)简介
使用位域或位操作移动一个字节中的位 Java中EnumSet代替位域代码详解关于位域的一些东西深入理解Java枚举类型(enum) 位域是指信息在存储时,并不需要占用一个完整的字节, 而只需占几个 ...
Java基础之断言
断言是在Java 1.4中引入的.它能让你验证假设.如果断言失败(即返回false),就会抛出AssertionError(如果启用断言). 什么时候使用断言? 断言不应该用于验证输入数据到一个pub ...
实现可搜索仿select下拉选中
由于在优化项目中,发现先前写的一个活化石级的的可搜索下拉功能在高速搜索中会出现卡顿现象 1.起初的解决方法是在搜索事件中加入防抖函数隔一段时间才去触发他,同时搜索的不再是html文档片段,而是直接对数 ...
XorPay.com 支付平台介绍【免费申请个人微信支付接口】
XorPay 支付平台介绍 XorPay 定位为个人 / 独立开发者 / 个体户 / 小微企业提供安全.简单.稳定.正规的收款服务.目前支持微信 NATIVE / JSAPI / 收银台 / 小程序 ...
【learning】微信跳一跳辅助c++详解轻松上万【上】
写在前面 17年年底Wechat出了这个跳一跳的小游戏,今年2月份的时候简单地玩了一下,发现被游戏虐了(手太残了只能跳20多). 今天刚好有点空,于是就花了一个下午的时间写了一个跳一跳的c++ ...
【NOIP2016提高组】 Day2 T3 愤怒的小鸟
题目传送门:https://www.luogu.org/problemnew/show/P2831 说个题外话:NOIP2014也有一道题叫做愤怒的小鸟. 这题自测时算错了eps,导致被卡了精度,从1 ...
归并排序的理解和实现(Java)
归并排序介绍归并排序(Merge Sort)就是利用归并的思想实现的排序方法.它的原理是假设初始序列含有fn个记录,则可以看成是n个有序的子序列,每个子序列的长度为1,然后两两归并,得到[n2\fr ...
关于JSON基础的总结
本文总结自百度百科 JSON 语法规则 JSON 语法是 JavaScript 对象表示语法的子集. 数据在键值对中数据由逗号分隔花括号保存对象方括号保存数组 JSON 名称/值对 JSON 数 ...
(转)mysql的sql_mode合理设置
mysql的sql_mode合理设置目录 http://xstarcd.github.io/wiki/MySQL/MySQL-sql-mode.html http://dev.my ...

使用HttpGet协议与正则表达实现桌面版的糗事百科

使用HttpGet协议与正则表达实现桌面版的糗事百科的更多相关文章

随机推荐

热门专题