一、通过WebClient获取网页内容

这是一种很简单的获取方式,当然,其它的获取方法也很简单。在这里首先要说明的是,如果为了实际项目的效率考虑,需要考虑在函数中分配一个内存区域。大概写法如下

  1. //MemoryStream是一个支持储存区为内存的流。
  2. byte[] buffer = new byte[1024];
  3. using (MemoryStream memory = new MemoryStream())
  4. {
  5. int index = 1, sum = 0;
  6. while (index * sum < 100 * 1024)
  7. {
  8. index = reader.Read(buffer, 0, 1024);
  9. if (index > 0)
  10. {
  11. memory.Write(buffer, 0, index);
  12. sum += index;
  13. }
  14. }
  15. //网页通常使用utf-8或gb2412进行编码
  16. Encoding.GetEncoding("gb2312").GetString(memory.ToArray());
  17. if (string.IsNullOrEmpty(html))
  18. {
  19. return html;
  20. }
  21. else
  22. {
  23. Regex re = new Regex(@"charset=(? charset[/s/S]*?)[ |']");
  24. Match m = re.Match(html.ToLower());
  25. encoding = m.Groups[charset].ToString();
  26. }
  27. if (string.IsNullOrEmpty(encoding) || string.Equals(encoding.ToLower(), "gb2312"))
  28. {
  29. return html;
  30. }
  31. }

好了,现在进入正题,WebClient获取网页数据的代码如下

  1. //using System.IO;
  2. try
  3. {
  4. WebClient webClient = new WebClient();
  5. webClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据
  6. Byte[] pageData = webClient.DownloadData("http://www.360doc.com/content/11/0427/03/1947337_112596569.shtml");
  7. //string pageHtml = Encoding.Default.GetString(pageData);  //如果获取网站页面采用的是GB2312,则使用这句
  8. string pageHtml = Encoding.UTF8.GetString(pageData); //如果获取网站页面采用的是UTF-8,则使用这句
  9. using (StreamWriter sw = new StreamWriter("e:\\ouput.txt"))//将获取的内容写入文本
  10. {
  11. htm = sw.ToString();//测试StreamWriter流的输出状态,非必须
  12. sw.Write(pageHtml);
  13. }
  14. }
  15. catch (WebException webEx)
  16. {
  17. Console.W
  18. }

二、通过WebBrowser控件获取网页内容

相对来说,这是一种最简单的获取方式。拖WebBrowser控件进去,然后匹配下面这段代码

  1. WebBrowser web = new WebBrowser();
  2. web.Navigate("http://www.163.com");
  3. web.DocumentCompleted += new WebBrowserDocumentCompletedEventHandler(web_DocumentCompleted);
  4. void web_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
  5. {
  6. WebBrowser web = (WebBrowser)sender;
  7. HtmlElementCollection ElementCollection = web.Document.GetElementsByTagName("Table");
  8. foreach (HtmlElement item in ElementCollection)
  9. {
  10. File.AppendAllText("Kaijiang_xj.txt", item.InnerText);
  11. }
  12. }

三、使用HttpWebRequest/HttpWebResponse获取网页内容

这是一种比较通用的获取方式。

  1. public void GetHtml()
  2. {
  3. var url = "http://www.360doc.com/content/11/0427/03/1947337_112596569.shtml";
  4. string strBuff = "";//定义文本字符串,用来保存下载的html
  5. int byteRead = 0;
  6. HttpWebRequest webRequest = (HttpWebRequest)WebRequest.Create(url);
  7. HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse();
  8. //若成功取得网页的内容,则以System.IO.Stream形式返回,若失败则产生ProtoclViolationException错 误。在此正确的做法应将以下的代码放到一个try块中处理。这里简单处理
  9. Stream reader = webResponse.GetResponseStream();
  10. ///返回的内容是Stream形式的,所以可以利用StreamReader类获取GetResponseStream的内容,并以StreamReader类的Read方法依次读取网页源程序代码每一行的内容,直至行尾(读取的编码格式:UTF8)
  11. StreamReader respStreamReader = new StreamReader(reader,Encoding.UTF8);
  12. ///分段,分批次获取网页源码
  13. char[] cbuffer = new char[1024];
  14. byteRead = respStreamReader.Read(cbuffer,0,256);
  15. while (byteRead != 0)
  16. {
  17. string strResp = new string(char,0,byteRead);
  18. strBuff = strBuff + strResp;
  19. byteRead = respStreamReader.Read(cbuffer,0,256);
  20. }
  21. using (StreamWriter sw = new StreamWriter("e:\\ouput.txt"))//将获取的内容写入文本
  22. {
  23. htm = sw.ToString();//测试StreamWriter流的输出状态,非必须
  24. sw.Write(strBuff);
  25. }
  26. }

C#网页采集数据的几种方式(WebClient、WebBrowser和HttpWebRequest/HttpWebResponse)的更多相关文章

  1. ios网络学习------4 UIWebView的加载本地数据的三种方式

    ios网络学习------4 UIWebView的加载本地数据的三种方式 分类: IOS2014-06-27 12:56 959人阅读 评论(0) 收藏 举报 UIWebView是IOS内置的浏览器, ...

  2. Linux就这个范儿 第18章 这里也是鼓乐笙箫 Linux读写内存数据的三种方式

    Linux就这个范儿 第18章  这里也是鼓乐笙箫  Linux读写内存数据的三种方式 P703 Linux读写内存数据的三种方式 1.read  ,write方式会在用户空间和内核空间不断拷贝数据, ...

  3. 讨论HTTP POST 提交数据的几种方式

    转自:http://www.cnblogs.com/softidea/p/5745369.html HTTP/1.1 协议规定的 HTTP 请求方法有 OPTIONS.GET.HEAD.POST.PU ...

  4. Day20-单表中获取表单数据的3种方式

    1. 搭建环境请参考:http://www.cnblogs.com/momo8238/p/7508677.html 2. 创建表结构 models.py from django.db import m ...

  5. 在.NET Core 中收集数据的几种方式

    APM是一种应用性能监控工具,可以帮助理解系统行为, 用于分析性能问题的工具,以便发生故障的时候,能够快速定位和解决问题, 通过汇聚业务系统各处理环节的实时数据,分析业务系统各事务处理的交易路径和处理 ...

  6. 【代码笔记】iOS-向服务器传JSON数据的两种方式

    一,代码. - (void)viewDidLoad { [super viewDidLoad]; // Do any additional setup after loading the view. ...

  7. .NET MVC控制器向视图传递数据的四种方式

    .NET MVC控制器向视图传递数据的四种方式: 1.ViewBag  ViewBag.Mvc="mvc"; 2.ViewData ViewBag["Mvc"] ...

  8. Linux就这个范儿 第15章 七种武器 linux 同步IO: sync、fsync与fdatasync Linux中的内存大页面huge page/large page David Cutler Linux读写内存数据的三种方式

    Linux就这个范儿 第15章 七种武器  linux 同步IO: sync.fsync与fdatasync   Linux中的内存大页面huge page/large page  David Cut ...

  9. Solr 删除数据的几种方式

    原文出处:http://blog.chenlb.com/2010/03/solr-delete-data.html 有时候需要删除 Solr 中的数据(特别是不重做索引的系统中,在重做索引期间).删除 ...

随机推荐

  1. Android + Eclipse + PhoneGap 2.9.0 安卓最新环境配置,部分资料整合网上资料,已成功安装.

    前言:最近心血来潮做了一个以品牌为中心的网站,打算推出本地服务o2o应用.快速开发手机应用,最后选择了phonegap,这里我只是讲述我安装的过程,仅供大家参考. 我开发的一个模型http://www ...

  2. Linux内核剖析(一)Linux的历史

    Unix操作系统 Unix的由来 汤普逊和里奇最早是在贝尔实验室开发Unix的,此后的10年,Unix在学术机构和大型企业中得到了广泛的应用,当时的UNIX拥有者AT&T公司以低廉甚至免费的许 ...

  3. SNF开发平台WinForm-审核流使用方法样例

    一.效果如下: 二.如何实现 1.程序的数据表设计规范,参考<09.SNF-C#编程规范V1.5.docx>文件. 2.程序操作程序 2.1.在程序页面拖拽控件 2.2.程序的Load事件 ...

  4. 物联网架构成长之路(15)-Jenkins部署SpringBoot

    1.前言 现在慢慢也在负责一些工作了.这段时间有空,就多了解了解软件多人开发的一些知识.以前项目都是我一个人做的,从数据库设计到后端再到前端,全部放在一个war包丢到tomcat里面然后运行,利用to ...

  5. ajax的工作原理2

    Ajax是异步javascript和xml,可以在不重新加载整个网页的情况下,与服务器异步数据交换,对网页中某个部分进行局部刷新. Ajax是如何实现局部刷新的: 在脚本设置window对象的loca ...

  6. Android ShareUserId 使用总结

    今天讲一下Android里面经常看到却不太留意的知识点——ShareUserId,在Android里面每个app都有一个唯一的linux user ID,则这样权限就被设置成该应用程序的文件只对该用户 ...

  7. 挖坑:handoop2.6 开启kerberos(全流程学习记录)

    目录: 1.涉及插件简介 2.安装步骤 3.日志错误查看 1.kerberos是什么东西 度娘指导: Kerberos 是一种网络认证协议,其设计目标是通过密钥系统为 客户机 / 服务器 应用程序提供 ...

  8. netbeans rcp中如何编程设置主窗口标题

    http://www.th7.cn/Program/java/201510/606050.shtml ————————————————————————————————————————————————— ...

  9. Linux软件源

    Kali科大软件源: vim /etc/apt/sources.list 下面的粘帖进去. deb http://mirrors.ustc.edu.cn/kali kali main non-free ...

  10. git解决 remote: Permission to wuheng1991/site-manager.git denied to XXX

    1.问题 2.解决 生成一个新的SSH KEY ssh-keygen  -t rsa –C “youremail@example.com” 命令: 3.修改 .git/config中的url 4.gi ...