通常情况下通过WebBrowser的文档加载完成事件DocumentCompleted中进行判断

if (_WebBrowder.ReadyState == WebBrowserReadyState.Complete)
{
//取网页信息并处理
}

不过,不幸的是很多网页相当复杂,有的时候调试可以看到_WebBrowder.ReadyState状态信息可能一直处于WebBrowserReadyState.Interactive状态,但是网页中相关数据已经加载完成或没有加载数据,或者卡了,等等情况都可能出现,为了能够数据采集提升效率,就得考虑超时情况,需要人为实时获取相关html来判断是否文档已加载了我们想要的数据,如果在限定的时间内未加载就要跳过,为了达到这个效果研究了很长时间一直都没解决,后来看到一篇文章http://www.cnblogs.com/wangchuang/p/3618883.html,通过对里面的类进行改进达到自己想要的效果,现在把自己的代码贴出来,有遇到类似的同鞋可以参考下

    /// <summary>
/// 通过WebBrowser抓取网页数据
/// WebBrowserCrawler webBrowserCrawler=new WebBrowserCrawler();
/// 示例:File.WriteAllText(Server.MapPath("sample.txt"),webBrowserCrawler.GetReult(http://www.in2.cc/sample/waterfalllab.htm));
/// </summary>
public class WebBrowserCrawler
{
// WebBrowser
private WebBrowser _WebBrowder;
//最後結果
private string _Result { get; set; }
//網址
private string _Path { get; set; }
//当一直在抓取资料,允许等待的的最大秒数,超时时间(秒)
private int _MaxWaitSeconds { get; set; } public delegate bool MyDelegate(object sender, TestEventArgs e);
/// <summary>
/// 是否达到停止加载条件
/// </summary>
public event MyDelegate IsStopEvent; /// <summary>
/// 對外公開的Method
/// </summary>
/// <param name="url">URL Path</param>
/// <param name="maxWaitSeconds">最大等待秒数</param>
/// <returns></returns>
public string GetReult(string url, int maxWaitSeconds = )
{
_Path = url;
_MaxWaitSeconds = maxWaitSeconds <= ? : maxWaitSeconds; var mThread = new Thread(FatchDataToResult);
//Apartment 是處理序當中讓物件共享相同執行緒存取需求的邏輯容器。 同一 Apartment 內的所有物件都能收到 Apartment 內任何執行緒所發出的
//.NET Framework 並不使用 Apartment;Managed 物件必須自行以安全執行緒 (Thread-Safe) 的方式運用一切共
//因為 COM 類別使用 Apartment,所以 Common Language Runtime 在 COM Interop 的狀況下呼叫出 COM 物件時必須建立 Apartment 並且加以初
//Managed 執行緒可以建立並且輸入只容許一個執行緒的單一執行緒 Apartment (STA),或者含有一個以上執行緒的多執行緒 Apartment (MT
//只要把執行緒的 ApartmentState 屬性設定為其中一個 ApartmentState 列舉型別 (Enumeration),即可控制所建立的 Apartment 屬於哪種
//因為特定執行緒一次只能初始化一個 COM Apartment,所以第一次呼叫 Unmanaged 程式碼之後就無法再變更 Apartment
//From : http://msdn.microsoft.com/zh-tw/library/system.threading.apartmentstate.
mThread.SetApartmentState(ApartmentState.STA);
mThread.Start();
mThread.Join(); return _Result;
} /// <summary>
/// Call _WebBrowder 抓取資料
/// For thread Call
/// </summary>
private void FatchDataToResult()
{
_WebBrowder = new WebBrowser();
_WebBrowder.ScriptErrorsSuppressed = true;
_WebBrowder.Navigate(_Path);
DateTime firstTime = DateTime.Now;
//處理目前在訊息佇列中的所有 Windows
//如果在程式碼中呼叫 DoEvents,您的應用程式就可以處理其他事件。例如,如果您的表單將資料加入 ListBox 並將 DoEvents 加入程式碼中,則當另一個視窗拖到您的表單上時,該表單將重
//如果您從程式碼移除 DoEvents,您的表單將不會重新繪製,直到按鈕按一下的事件處理常式執
while ((DateTime.Now - firstTime).TotalSeconds <= _MaxWaitSeconds)
{
if (_WebBrowder.Document != null && _WebBrowder.Document.Body != null &&
!string.IsNullOrEmpty(_WebBrowder.Document.Body.OuterHtml) &&
this.IsStopEvent != null)
{
string html = _WebBrowder.Document.Body.OuterHtml;
bool rs = this.IsStopEvent(null, new TestEventArgs(html));
if (rs)
{
this._Result = html;
break;
}
}
Application.DoEvents();
}
_WebBrowder.Dispose();
}
}

使用方法:

            WebBrowserCrawler obj = new WebBrowserCrawler();
obj.IsStopEvent += new WebBrowserCrawler.MyDelegate((sender, e) => {
//当前html中已经加载了我想要的数据,返回true
return e.Html.Contains("aidfdsfsdf");
});
string url = "http://www.xxx.cn/aaa/index.html?keyword=sdfded";
string html = obj.GetReult(url); //获取采集的数据
if (!string.IsNullOrEmpty(html))
{
//处理数据
}

通过WebBrowser取得AJAX后的网页的更多相关文章

  1. [C#][ASP.net] 透过WebBrowser 取得AJAX 后的网页

    原文[C#][ASP.net] 透过WebBrowser 取得AJAX 后的网页 今天 Shih-Min 问我说,假设网页一开始是AJAX 会载入一些资料,但是透过WebClient 去抓 抓到都是J ...

  2. ASP.net通过WebBrowser取得AJAX后的网页

    今天  Shih-Min 问我说,假设网页一开始是AJAX 会载入一些资料,但是透过WebClient 去抓 抓到都是JavaScript 跟 AJAX 的原始码,有办法可以抓到AJAX 取完值之后的 ...

  3. WebBrowser处理AJAX生成的网页内容!

    WebBrowser处理AJAX生成的网页内容! 等待网页执行完毕(AJAX执行后). 使用webBrowser1.Document.Body.OuterHtml可以获取到AJAX产生的网页内容.

  4. 乱花渐入迷人眼------从解决jqueryEasyUI上传插件提交ajax请求谈网页调试

    由于要给格斗男神写搏击俱乐部ERP系统,就要用到jquery Easyui插件规范数据和表单的录入,其中一项功能就是上传商品图片, 而且是在datagrid-detailview中使用filebox完 ...

  5. 使用WebBrowser控件时在网页元素上绘制文本或其他自定义内容

    原文:使用WebBrowser控件时在网页元素上绘制文本或其他自定义内容 第一次在CNBlogs上发Post是提出一个有关使用WebBrowser控件时对SELECT网页元素操作的疑惑,这个问题至今也 ...

  6. echo json数据给ajax后, 需要加上exit,防止往下执行,带上其他数据,到时ajax失败

    01返回json数据给ajax后需要加上exit.返回json数据前不能有其他输出 function apply(){ if(IS_POST){$info['status'] = 1; echo js ...

  7. C# WebBrowser的DrawToBitmap方法 截取网页保存为图片

    bool mark = true;         private void btnOpen_Click(object sender, EventArgs e)         {           ...

  8. 服务端渲染 数据驱动 不是渲染后的网页,而是一个由html和Javascript组成的app ssr 隐藏接口服务器

    小结: 1. 服务端渲染主要的工作是把组件渲染为服务器端的 HTML 字符串,将它们直接发送到浏览器,最后将静态标记"混合"为客户端上完全交互的应用程序. 服务器给到客户端的已经是 ...

  9. 如何用webbrowser获取ajax动态生成的网页的源码?

    1.步骤一:修改IE内核的版本(这个方法厉害了) public Form1() { InitializeComponent();int BrowserVer, RegVal; // get the i ...

随机推荐

  1. python md5

    import hashlib import os 简单的测试一个字符串的MD5值 src = 'teststring' print (hashlib.md5(src).hexdigest().uppe ...

  2. /proc/cpuinfo

    /proc文件系统是一个伪文件系统,它只存在内存当中,而不占用外存空间. 它以文件系统的方式为访问系统内核数据的操作提供接口. 用户和应用程序可以通过 proc得到系统的信息,并可以改变内核的某些参数 ...

  3. (转载)Android content provider基础与使用

    android有一个独特之处就是,数据库只能被它的创建者所使用,其他的应用是不能访问到的,所以如果你想实现不同应用之间的数据共享,就不得不用content provider了.在Android中,co ...

  4. 极速地将git项目部署到SAE的svn服务器上

    本文最初发布于我的个人博客:http://jerryzou.com/posts/gitForSAE/ 我花了一些时间自己写了一个能够极速地将一个git项目部署到SAE的svn服务器上的脚本.代码不是复 ...

  5. ADO.NET中ExcuteNonQuery获取存储过程Return返回值

    /// <summary> /// 获取当月用户已投票数量 /// </summary> /// <param name="userId">用户 ...

  6. 常见的HTTP错误总结

    一般来说HTTP2XX,代表请求正常完成,HTTP3XX代表网站重定向,HTTP4XX,代表客户端出现错误,HTTP5XX,代服务器端出现了错误 HTTP301:请求的数据具有新的位置 HTTP302 ...

  7. C# Async与Await用法

    using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...

  8. SBM is Not Sale And Run Company

    data = """ Well,We will bet you dollars to donuts,there are so many crusher provider ...

  9. MySQL下查看用户和建立用户

    启动数据库: [root@server ~]# mysqld_safe & [1] 3289 [root@server ~]# 130913 08:19:58 mysqld_safe Logg ...

  10. 【转】Delphi的消息对话框

    Delphi的消息对话框 输入输出inputBox()函数MessageBox()ShowMessage 对话框是Windows操作系统中程序与用户沟通的一种常见的交互方式,对话框可以向用户提供当前程 ...