c# & Fizzler to crawl web page in a certain website domain

使用fizzler [HtmlAgilityPackExtension]和c#进行网页数据提取；fizzler是HtmlAgilityPack的一个扩展，支持jQuery Selector；

提取数据一般都是有规律url拼凑，然后挨个儿发request得到response进行解析：

1.假如一个website下的所有xxx.sample.com/contactus.html里边存在邮箱字段(准备提取的数据)

　　a)当有子域名的时候，比如：a.sample.com, aadr.sample.com, 135dj.sample.com，随机性比较强；

　　　解决方法：bing search engine中使用 site:b2b.sample.com搜索得到的result页面可以提取所有子域名，然后拼凑成xxx.sample.com/contactus.html，继而发送请求到这个url，得　　　　　　　　到response进行解析；

　　　NOTE：关于site:b2b.sample.com的搜索url拼凑如下，

　　　　　　　http://www.bing.com/search?q=site%3A{b2b.sample.com}&go=Submit&qs=n&form=QBRE&pq=site%3A{b2b.sample.com}&sc=1-19&sp=-1&sk=&cvid=6165a189f5354b1982fb8cd6933abb6f&first={pageIndex}&FORM=PERE

2.像www.sample.com/1456.html的页面可以直接平凑1456.html/1457.html/1458.html etc.此处不列举；

Fizzler使用方法：

1.从nuget上安装Fizzler；

2.使用方法参考code.google.com；

3.使用bing提取website下的所有子域：

private static List<string> GetSubdomains(string websiteDomain, int startPageIndex = , int pageCount = , int pageSize = )

        {

            var list = new List<string>();

            //using bind to search subdomains in a certain website

            var bingSearchUrlFormat = "http://www.bing.com/search?q=site%3a{0}&go=Submit&qs=n&pq=site%3a{0}&sc=1-100&sp=-1&sk=&cvid=a9b36439006f4b05b09f9202c5b784bd&first={1}&FORM=PQRE";

            WebClient client = new WebClient();

            client.Encoding = Encoding.UTF8;

            var doc = new HtmlDocument();

            var first = (startPageIndex / ) *  + ;

            var stopIndex = first + pageCount*pageSize;

            var currentPageIndex = startPageIndex;

            for (var startItemSquenceNumber = first; startItemSquenceNumber < stopIndex; startItemSquenceNumber = startItemSquenceNumber + pageSize)

            {

                var response = client.DownloadString(string.Format(bingSearchUrlFormat, websiteDomain, startItemSquenceNumber));

                HtmlDocumentExtensions.LoadHtml2(doc, response);

                var docNode = doc.DocumentNode;

                var subDomains = docNode.QuerySelectorAll(".sb_meta cite");foreach (var subDomain in subDomains)

                {

                    list.Add(subDomain.InnerText);

                }

            }return list;

        }

4.获取网页节点：

        private static List<HtmlNode> GetWebPageNodes(string url, string elementSelector, string attributeNameContained, string attributeNameContainedValueLike)

        {

            var client = new WebClient();

            client.Encoding = Encoding.UTF8;

            var response = client.DownloadString(url);

            var doc = new HtmlDocument();

            HtmlDocumentExtensions.LoadHtml2(doc, response);

            var docNode = doc.DocumentNode;

            var emailNode = docNode.QuerySelectorAll(elementSelector).Where(node => node.Attributes.Where(attr => attr.Name == attributeNameContained).FirstOrDefault().Value.Contains(attributeNameContainedValueLike)).FirstOrDefault();

            var nodes = (from node in docNode.QuerySelectorAll(elementSelector)

                         where node.HasAttributes && node.GetAttributeValue(attributeNameContained, string.Empty).Contains(attributeNameContainedValueLike)

                         select node).ToList();

            return nodes;

        }

5.获取某个网页中邮箱的方法：

var subdomains = GetSubdomains("b2b.sample.com", stopPageIndex, );

var urlFormat = "http://{0}/contactus.html";

GetWebPageNodes(string.Format(urlFormat, item), "body table a", "href", "mailto").FirstOrDefault();

最后的问题：当通过bing搜索子域时会有限制，发送100~150个请求后获取到的response就不是我想要的页面，而是要求输入验证码防止攻击的html；此问题暂时未解决，望大神指点！

c# & Fizzler to crawl web page in a certain website domain的更多相关文章

How To Crawl A Web Page with Scrapy and Python 3
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
解读Web Page Diagnostics网页细分图
解读Web Page Diagnostics网页细分图 http://blog.sina.com.cn/s/blog_62b8fc330100red5.html Web Page Diagnostic ...
网页细分图结果分析（Web Page Diagnostics）
Discuz开源论坛网页细分图结果分析(Web Page Diagnostics) 续LR实战之Discuz开源论坛项目,之前一直是创建虚拟用户脚本(Virtual User Generator)和场 ...
Atitit.web三大编程模型 Web Page Web Forms 和 MVC
Atitit.web三大编程模型 Web Page Web Forms 和 MVC 1. 编程模型是 Web Forms 和 MVC (Model, View, Controller). 2. ...
[转]Calling Web Service Functions Asynchronously from a Web Page 异步调用WebServices
本文转自:http://www.codeproject.com/Articles/70441/Calling-Web-Service-Functions-Asynchronously-from Ove ...
Tutorial: Importing and analyzing data from a Web Page using Power BI Desktop
In this tutorial, you will learn how to import a table of data from a Web page and create a report t ...
Android WebView常见问题的解决方案总结----例如Web page not available
之前android虚拟机一直都可以直接联网,今天写了一个WebView之后,突然报出了Web page not available的错误,但是查看虚拟机自带的浏览器,是可以上网的,所以检查还是代码的问 ...
LR实战之Discuz开源论坛——网页细分图结果分析（Web Page Diagnostics）
续LR实战之Discuz开源论坛项目,之前一直是创建虚拟用户脚本(Virtual User Generator)和场景(Controller),现在,终于到了LoadRunner性能测试结果分析(An ...
Home | eMine: Web Page Transcoding Based on Eye Tracking Project Page
Home | eMine: Web Page Transcoding Based on Eye Tracking Project Page The World Wide Web (web) has m ...

随机推荐

Erlang 103 Erlang分布式编程
Outline 笔记系列 Erlang环境和顺序编程Erlang并发编程Erlang分布式编程YawsErlang/OTP 日期变更说明 2014-11-23 A Outl ...
SIFT特征提取分析（转载）
转载自: http://blog.csdn.net/abcjennifer/article/details/7639681 SIFT(Scale-invariant feature transform ...
Sprint第二个冲刺（第十一天）
看板: 燃尽图:
segmentation fault
今天在hanoi问题上出现了segmentation fault 在gcc编译的过程中没出现error,然而程序运行到一半就出现segmentation fault: 上网发现这条语句是非法的内存 ...
【Flask】Flask快速玩框架
最近比较忙快速玩Flask框架,为微博做些准备 part 1 python程序 from flask importFlask, render_template, session, redirect, ...
在Linux系统中如何设置APACHE服务器里的后台页面只允许某个IP地址访问
补充资料本网络中使用LINUX服务器,web服务器是由APACHE搭建,IP地址为192.168.1.5,后台页面为/admin/login.jsp . 如何设置后台页面LOGIN.JSP只允许19 ...
Mysql通信协议
Mysql四种通信协议(linux下本地连接的都是socket 其他都是tcp) 当连接mysql时,使用-h127.0.0.1时,linux与unix下的连接协议为socket协议,windows下 ...
selenium之xpath定位和input文本
selenium之xpath定位和input文本 xpath简单定位: 打开浏览器的F12 在自己需要定位的元素的那里右键选择copy->xpath selenium获取input下的文本: ...
SQL2005 遍历表插入
/* sql2005遍历表(方法1) insert into 数据表(userid,adddate) values((select userid from 用户表),date); */ /*sql20 ...
Makefile中的特殊宏定义以及实用选项
Makefile中的一些特殊宏定义的名字跟shell中的位置变量挺相似的. $? 当前目标所依赖的文件列表中比当前目标文件还要新的文件 $@ 当前目标我名字 $< 当前依赖文件的名 ...

c# & Fizzler to crawl web page in a certain website domain

c# & Fizzler to crawl web page in a certain website domain的更多相关文章

随机推荐

热门专题