C#使用HttpHelper类抓取html网页内容

HttpHelper类(苏飞版)下载地址: http://www.sufeinet.com/thread-3-1-1.html

使用方法及说明（摘自：http://blog.csdn.net/smartsmile2012/article/details/41819725）:

HttpHelper http = new HttpHelper();

    HttpItem item = new HttpItem()

    {

        URL = "http://www.sufeinet.com",//URL     必需项

        Encoding = null,//编码格式（utf-8,gb2312,gbk）     可选项 默认类会自动识别

        //Encoding = Encoding.Default,

        Method = "get",//URL     可选项 默认为Get

        Timeout = ,//连接超时时间     可选项默认为100000

        ReadWriteTimeout = ,//写入Post数据超时时间     可选项默认为30000

        IsToLower = false,//得到的HTML代码是否转成小写     可选项默认转小写

        Cookie = "",//字符串Cookie     可选项

        UserAgent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",//用户的浏览器类型，版本，操作系统     可选项有默认值

        Accept = "text/html, application/xhtml+xml, */*",//    可选项有默认值

        ContentType = "text/html",//返回类型    可选项有默认值

        Referer = "http://www.sufeinet.com",//来源URL     可选项

        Allowautoredirect = true,//是否根据３０１跳转     可选项

        CerPath = "d:\\123.cer",//证书绝对路径     可选项不需要证书时可以不写这个参数

        Connectionlimit = ,//最大连接数     可选项 默认为1024

        Postdata = "C:\\PERKYSU_20121129150608_ScrubLog.txt",//Post数据     可选项GET时不需要写

        PostDataType = PostDataType.FilePath,//默认为传入String类型，也可以设置PostDataType.Byte传入Byte类型数据

        ProxyIp = "192.168.1.105：8015",//代理服务器ID 端口可以直接加到后面以：分开就行了    可选项 不需要代理 时可以不设置这三个参数

        ProxyPwd = "",//代理服务器密码     可选项

        ProxyUserName = "administrator",//代理服务器账户名     可选项

        ResultType = ResultType.Byte,//返回数据类型，是Byte还是String

        PostdataByte = System.Text.Encoding.Default.GetBytes("测试一下"),//如果PostDataType为Byte时要设置本属性的值

        CookieCollection = new System.Net.CookieCollection(),//可以直接传一个Cookie集合进来

    };

    item.Header.Add("测试Key1", "测试Value1");

    item.Header.Add("测试Key2", "测试Value2");

    //得到HTML代码

    HttpResult result = http.GetHtml(item);

    //取出返回的Cookie

    string cookie = result.Cookie;

    //返回的Html内容

    string html = result.Html;

    if (result.StatusCode == System.Net.HttpStatusCode.OK)

    {

        //表示访问成功，具体的大家就参考HttpStatusCode类

    }

    //表示StatusCode的文字说明与描述

    string statusCodeDescription = result.StatusDescription;

    //把得到的Byte转成图片

    Image img = byteArrayToImage(result.ResultByte);

}

/// <summary>

/// 字节数组生成图片

/// </summary>

/// <param name="Bytes">字节数组</param>

/// <returns>图片</returns>

te Image byteArrayToImage(byte[] Bytes)

{

        MemoryStream ms = new MemoryStream(Bytes);

        Image outputImg = Image.FromStream(ms);

        return outputImg;

}}

C#使用HttpHelper类抓取html网页内容的更多相关文章

【转载】ASP.NET以Post方式抓取远程网页内容类似爬虫功能
使用HttpWebRequest等Http相关类,可以在应用程序中或者网站中模拟浏览器发送Post请求,在请求带入相应的Post参数值,而后请求回远程网页信息.实现这一功能也很简单,主要是依靠Http ...
Python3的requests类抓取中文页面出现乱码的解决办法
这种乱码现象基本上都是编码造成的,我们要转到我们想要的编码,先po一个知识点,嵩天老师在Python网络爬虫与信息提取说到过的:response.encoding是指从HTTP的header中猜测 ...
Chrome + Python 抓取动态网页内容
用Python实现常规的静态网页抓取时,往往是用urllib2来获取整个HTML页面,然后从HTML文件中逐字查找对应的关键字.如下所示: import urllib2 url="http: ...
Python简单的抓取静态网页内容
import requests from bs4 import BeautifulSoup res = requests.get('http://news.sina.com.cn/china/')#获 ...
php curl抓取远程页面内容的代码
使用php curl抓取远程页面内容的例子. 代码如下: <?php /** * php curl抓取远程网页内容 * edit by www.jbxue.com */ $curlPost = ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
cheerio数据抓取
很多语言都能写个爬虫抓取数据,js自然也可以,使用cheerio可以支持css检索,较快捷的获取需要的数据.首先,先把node.js给安装了.可到官网下载.安装好node.js后,使用npm安装che ...
简易新闻网站NewsWeb-网页抓取
本文转载自姚虎才子今天做项目时用到java抓取网页内容,本以为很简单的一件事但是还是让我蛋疼了一会,网上资料一大堆但是都是通过url抓取网页内容,但是我要的是读取本地的html页面内容的方法,网上找 ...
python3.6 使用newspaper库的Article包来快速抓取网页的文章或者新闻等正文
我主要是用了两个方法来抽去正文内容,第一个方法,诸如xpath,css,正则表达式,beautifulsoup来解析新闻页面的时候,总是会遇到这样那样各种奇奇怪怪的问题,让人很头疼.第二个方法是后面标 ...

随机推荐

一个高性能RPC框架原理剖析
业务与底层网络通信分离 Server大部分主要分为两层: 网络接收层:负责监听端口,负责收包,编码,解码工作,负责将响应包回传给客户端. 业务处理层:负责接收网络接收层完整的包,如果是RPCserve ...
剑指offer—第三章高质量代码（合并两个排序链表）
题目:输入员两个递增排序的链表,合并这两个链表并使新的链表中的结点仍然是按照递增排序的. 思路:首先,定义两个头节点分别为Head1和Head2的链表,然后比较第一个节点的值,如果是Head1-> ...
区分/不区分大小写的比较，查找字符串在另一字符串中的位置，字符串开头是否包括另一字符串 hasPrefix
NSString *str; // 使用stringWithFormat生成一格式化字符串 str = [NSString stringWithFormat:@"This is %@&quo ...
push()、shift()与pop()、unshift()、splice()
1.末端的添加和移除:push()是用来在数组末端添加项,pop()在数组末端移除项: 2.前端的添加和移除:shift()在移除数组的第一个项(前端),unshift()在数组前端添加项: 3.pu ...
YY一下十年后的自己（转）
每到年底总是我最焦虑的时候,年龄越大情况越明显.可能越长大越是对时光的流逝更有感触,有感触之后就会胡思乱想.所以随手开始写下这篇文章. 人无远虑必有近忧.那么同学呀,你听说过安利么. 一直都有做总 ...
iOS侧滑返回到隐藏导航栏的VC，导航栏会闪现一次
VCA:是一个隐藏导航栏的页面:VCA在ViewWillAppear生命周期函数中设置导航栏隐藏: //隐藏导航栏 [self.navigationController setNavigationBa ...
(转)用Eclipse 统计代码行数小技巧
今天公司SQA问我目前项目代码行数有多少,我当时就是想,以前好像写过类似的统计工具但是一时又找不到公司网络又不能下载,所以想想eclipse是不是又类似功能,找了下没有,但突然一想有一个转弯方法:统 ...
FPGA前世今生（二）
上期我们介绍了关于FPGA内部最基本的结构,在quartus下可以看到整体的结构. 这是在平面规划图下看到的结构,其中蓝色的小格代表一个LAB.四周边上浅棕色的小格代表IO口. 这是一个LAB的内部结 ...
MySQL 优化器
(system@127.0.0.1:3306) [trunk]> show variables like '%performance_sch%';+----------------------- ...
Linux MTD系统剖析
MTD,Memory Technology Device即内存技术设备,在Linux内核中,引入MTD层为NOR FLASH和NAND FLASH设备提供统一接口.MTD将文件系统与底层FLASH存储 ...

C#使用HttpHelper类抓取html网页内容

C#使用HttpHelper类抓取html网页内容的更多相关文章

随机推荐

热门专题