GuozhongCrawler看准网爬虫动态切换IP漫爬虫

有些关于URL去重的方面代码没有提供，须要自己去实现。主要这里提供思路

项目地址:http://git.oschina.net/woshidaniu/GuozhongCrawler/tree/master/example/changeProxyIp/

首先爬虫入口类：

public class PervadeSpider {

   public static void main(String[] args) {

       CrawTaskBuilder builder = CrawlManager.getInstance()

       .prepareCrawlTask("看准网漫爬虫", DefaultPageDownloader.class)

       .useThread(200)// 使用多个线程下载

       .useDynamicEntrance(DynamicEntranceImpl.class)

       .useProxyIpPool(KanzhunProxyIpPool.class, 800, 1000 * 60 * 20, 30)

       .useQueueSimpleBlockingRequest()//採用广度优先策略，当然redis队列也是fifo。

假设想做分布式爬虫的话能够设置redis队列

       .usePageEncoding(PageEncoding.UTF8);

       CrawlTask spider = builder.build();

       CrawlManager.getInstance().start(spider);

   }



   public static final class DynamicEntranceImpl extends DynamicEntrance{

       @Override

       public List<StartContext> loadStartContext() {

           StartContext context = new StartContext();

           context.injectSeed(context.createPageRequest("http://www.kanzhun.com/companyl/search/?

ka=banner-com", ExtractUrlPageProcessor.class));//公司

context.injectSeed(context.createPageRequest("http://www.kanzhun.com/salaryl/search/?stype=&ka=banner-salary", ExtractUrlPageProcessor.class));//工资

context.injectSeed(context.createPageRequest("http://www.kanzhun.com/jobl/p/?

ka=banner-recruit", ExtractUrlPageProcessor.class));//招聘

           context.injectSeed(context.createPageRequest("http://www.kanzhun.com/interviewl/search/?stype=&ka=banner-interview", ExtractUrlPageProcessor.class));//面试

           context.injectSeed(context.createPageRequest("http://www.kanzhun.com/topic/100.html?ka=com-topic-1", ExtractUrlPageProcessor.class));//公司之最

           return Arrays.asList(context);

       }



   }

}

动态代理IP提供类:

public class KanzhunProxyIpPool extends ProxyIpPool {

   public static final String IP_RESOURCE = "地址忽略";//地址请求的个数必须设置为initProxyIp(int size)中size的个数

   public KanzhunProxyIpPool(int initSize, long pastTime, int max_use_count) {

       super(initSize, pastTime, max_use_count);

   }

   private Pattern extractIp = Pattern.compile("([\\d]{1,3}\\.[\\d]{1,3}\\.[\\d]{1,3}\\.[\\d]{1,3}):(\\d+)");



   @Override

   protected List<ProxyIp> initProxyIp(int size) throws Exception {

       List<ProxyIp>   ip = new ArrayList<ProxyIp>();

       URL url = null;

       BufferedReader br = null;

       StringBuffer buf = new StringBuffer();

       try {

           url = new URL(IP_RESOURCE);

           InputStream in = url.openStream();

           br = new BufferedReader(new InputStreamReader(in,"utf-8"));

           String temp = null;



           while((temp = br.readLine())!=null){

               buf.append(temp).append("\n");

           }



           ProxyIp proxy = null;

           Matcher matcher = extractIp.matcher(buf);

           while(matcher.find()){

               proxy = new ProxyIp(matcher.group(1), Integer.parseInt(matcher.group(2)));

               ip.add(proxy);

           }

       } catch (Exception e) {

           e.printStackTrace();

           System.out.println(buf);

       }finally{

           if(br != null){

               try {

                   br.close();

               } catch (IOException e) {

                   e.printStackTrace();

               }

           }

       }

       return ip;

   }

}

漫爬页面处理类：

public class ExtractUrlPageProcessor implements PageProcessor {







   private String domain = "http://www.kanzhun.com";



   private List<URLFilter> urlFilters = new ArrayList<URLFilter>();



   private List<Pattern> urlRegulars = null;



   public ExtractUrlPageProcessor(){

       System.out.println("载入漫爬抽取URL正则");

       urlRegulars = ConfigReader.getExtractRegular();

       System.out.println("载入漫爬规则完成");

       addURLFilter(new URLFilter() {



           @Override

           public boolean filter(String url) {

               return !url.contains("javascript");//去除jquery标签

           }

       });

       addURLFilter(new URLFilter() {



           @Override

           public boolean filter(String url) {

               return url.contains("http://www.kanzhun.com");//保证域名内URL

            }

       });

       addURLFilter(new URLFilter() {



           @Override

           public boolean filter(String url) {

               for (Pattern pattern : urlRegulars) {

                   boolean result = pattern.matcher(url).find();

                   if(result)

                       return true;

               }

               return false;//保证url符合urlRegulars里随意一个正则

           }

       });



   }



   /**

   * kanzhunId抽取正则

   */

   final static Pattern[] idExtracts = new Pattern[]{

       Pattern.compile("gso(\\d+)[^\\d]+"),//简单介绍抽取公司id

       Pattern.compile("gsr(\\d+)[^\\d]+"),//点评抽取公司id

       Pattern.compile("gsm(\\d+)[^\\d]+"),//面试抽取公司id

       Pattern.compile("gsx(\\d+)[^\\d]+"),//工资抽取公司id

       Pattern.compile("g(\\d+)[^\\d]+"),//招聘抽取公司id

        Pattern.compile("gsp(\\d+)[^\\d]+"),//照片抽取公司id

       Pattern.compile("gsl(\\d+)[^\\d]+")//员工抽取公司id

   };

   @Override

   public PageScript getJavaScript() {

       // TODO Auto-generated method stub

       return null;

   }





   private Pattern normalContain = Pattern.compile("看准网");

   @Override

   public Pattern getNormalContain() {

       return normalContain;

   }

   @Override

   public void process(OkPage page,StartContext context,List<BasicRequest> queue,List<Proccessable> objectContainer) throws Exception {

       // TODO Auto-generated method stub

       /**

       * 每一个页面抽取的符合urlRegulars规则的url

       */

       Set<String> extractUrls = new HashSet<String>();



       /**

       * 每一个页面全部的kanzhunId

       * 这里解释下比方阿里巴巴的首页是http://www.kanzhun.com/gso9012.html?ka=com1-title

       * 那个阿里巴巴的kanzhunId就是9012

       * 我们能够依据这个推导出阿里巴巴的

       * 点评页：http://www.kanzhun.com/gsr9012.html?ka=com-blocker1-review

       * 面试页：http://www.kanzhun.com/gsm9012.html?ka=com-blocker1-interview

       * 工资页：http://www.kanzhun.com/gsx9012.html?ka=com-blocker1-salary

       * 招聘页：http://www.kanzhun.com/job/g9012.html?ka=com-blocker1-job

       * 照片页：http://www.kanzhun.com/gsp9012.html?ka=com-blocker1-photo

       * 员工页：http://www.kanzhun.com/gsl9012.html?ka=com-blocker1-employee

       *

       */

       Set<String> kanzhunIds = new HashSet<String>();



       Document doc = Jsoup.parse(page.getContent());

       Elements allLinks = doc.select("a");

       String href = null;

       for (Element link : allLinks) {

           href = link.attr("href");

           if(href.startsWith("/")){

               href = domain+href;

           }

           if(pass(href)){

               extractUrls.add(href);

           }

           //抽取页面全部包括的kanzhunID

           for (Pattern pattern : idExtracts) {

               Matcher matcher = pattern.matcher(href);

               if(matcher.find()){

                   kanzhunIds.add(matcher.group(1));

               }

           }

       }



       //step1

       System.out.println(page.getRequest().getUrl()+"抽取了URL"+extractUrls.size()+"个:");

       //对url去重（这个须要你们自己实现这里用伪代码表示）

       System.out.println("去出反复url...");



       //step2

       System.out.println(page.getRequest().getUrl()+"抽取了kanzhunId"+kanzhunIds.size()+"个:");

       //对抓过的kanzhunId进行去重（这个须要你们自己实现这里用伪代码表示）

       System.out.println("kanzhunId进行去重...");





       //将抽取的URL增加到队列

       for (String extractUrl:extractUrls) {

           PageRequest pageRequest = context.createPageRequest(extractUrl, ExtractUrlPageProcessor.class);

           queue.add(pageRequest);//加到队列

       }



       //将抽取的kanzhunId封装成每一个企业的主页URL。

抓取企业信息

for (String kanzhunId:kanzhunIds) {

PageRequest pageRequest = context.createPageRequest("http://www.kanzhun.com/gso"+kanzhunId+".html?

ka=com1-title", CompanyPageProcessor.class);

           queue.add(pageRequest);//加到队列

       }



   }



   @Override

   public void processErrorPage(Page arg0, StartContext arg1) throws Exception {

       // TODO Auto-generated method stub



   }



   /**

   * 对每一个URL进行filter

   * @param url

   * @return

   */

   private boolean pass(String url){

       for (URLFilter filter : urlFilters) {

           if(!filter.filter(url)){

               return false;

           }

       }

       return true;

   }





   public void addURLFilter(URLFilter urlFilter){

       urlFilters.add(urlFilter);

   }

}

最后URL抽取规则贴上。

<ExtractRegular>

       

       <Regular>/pl[act][a-z0-9]+\.html</Regular>





       

       <Regular>/xs[ac][a-z0-9]+\.html</Regular>





       

       <Regular>/jobli_.+</Regular>



       

       <Regular>/ms[ac].+</Regular>



       

       <Regular>/topic/[a-z0-9]+</Regular>





       

       <Regular>/salary/(\d+)/</Regular>

       <Regular>/interview/(\d+)/</Regular>

   </ExtractRegular>

搞定。

GuozhongCrawler看准网爬虫动态切换IP漫爬虫的更多相关文章

Python 爬虫使用动态切换ip防止封杀
对于爬虫被封禁 ! 爬虫一般来说只要你的ip够多,是不容易被封的. 一些中小网站要封杀你,他的技术成本也是很高的,因为大多数网站没有vps,他们用的是虚拟空间或者是sae,bae这样的paas云. 其 ...
(转)内网网站发布到外网-nat123动态公网IP动态域名解析
环境描述: 路由器分配的是动态公网IP,且有路由器登录管理权限,网站服务器部署在路由器内部网络.如何将内网网站发布到外网大众访问? 解决方案: 内网使用nat123动态域名解析,将域名实时固定解析到路 ...
node.js 爬虫动态代理ip
参考文章: https://andyliwr.github.io/2017/12/05/nodejs_spider_ip/ https://segmentfault.com/q/10100000081 ...
[转]IP动态切换脚本
因为公司办公室要设置固定IP才行,而家里的IP段和公司是不一样的,家里采用了DHCP机制,这样每次就得改IP设置,很是不方便,就写了这个脚本来动态切换,很流畅的说!WINXP,WIN7测试通过~嘿嘿~ ...
python爬虫-《笔趣看》网小说《悟空看私聊》
小编是个爱看小说的人,哈哈 # -*- coding:UTF-8 -*- ''' 类说明:下载<笔趣看>网小说<悟空看私聊> ''' from bs4 import Beaut ...
简单爬虫，突破IP访问限制和复杂验证码，小总结
简单爬虫,突破复杂验证码和IP访问限制文章地址:http://www.cnblogs.com/likeli/p/4730709.html 好吧,看题目就知道我是要写一个爬虫,这个爬虫的目标网站有 ...
随机切换IP和UA
在爬虫爬取过程中,网站会根据我们的IP和UA去确认到底是浏览器操作还是爬虫在操作,所以,为了让爬虫不被网站禁止,随机切换Ip 和UA是很重要的,因为这个类在各个爬虫中经常要用到,所以可以自已维护一份随 ...
动态切换数据库(EF框架)
文章简略:本文测试项目为Silverlight+EF+RIA Service动态切换数据库的问题通常,Ado.net EntityFramework的数据库连接字符串Connect ...
ExtJS动态切换主题
ExtJS动态切换主题在Sencha Cmd构建的Ext程序中怎么去动态切换主题,目前看好像只能单一切换,但是在官网文档找到了答案 Resource Management在上一节通过 ...

随机推荐

HDFS的常用操作
本文地址:http://www.cnblogs.com/archimedes/p/hdfs-operations.html,转载请注明源地址. 1.HDFS文件的权限以及读写操作 HDFS文件的权限: ...
mongodb pymongo.errors.CursorNotFound: Cursor not found, cursor id: 82792803897
默认 mongo server维护连接的时间窗口是十分钟默认单次从 server获取数据是101条或者大于1M小于16M的数据所以默认情况下,如果10分钟内未能处理完数据,则抛出该异常. 解决 ...
angularjs中的$eval方法
在controller中定义了一个变量 $scope.a_1 = "abc"; 想在view里面动态输出,因为这个数字是动态的,这么输出肯定是不行的{{'a_' + '1'}},因 ...
AUC(Area Under roc Curve)学习笔记
AUC是一种用来度量分类模型好坏的一个标准. ROC分析是从医疗分析领域引入了一种新的分类模型performance评判方法. ROC的全名叫做Receiver Operating Character ...
xcode 5 使用 XCTest 做单元测试
xcode 5 使用 XCTest 做单元测试什么是单元测试,请看百度百科单元测试一:在xcode5 之前,我们新建项目时,可以选择是否集成单元测试:如今在xcode5,我们新建立的项目默认就 ...
JDK中注解的底层实现
前提用Java快三年了,注解算是一个常用的类型,特别是在一些框架里面会大量使用注解做组件标识.配置或者策略.但是一直没有深入去探究JDK中的注解到底是什么,底层是怎么实现了?于是参考了一些资料,做了 ...
vb 获取打印机名称
Const HKLM = &H80000002 '定义根键常数 '其他常用根键 Const HKCR = &H80000000 , Const HKCU = &H8000000 ...
android studio提示信息乱码解决方法
在build.gradle文件中加上 android {compileOptions.encoding = "GBK"}就好了
chrome更改缓存位置
更改chrome浏览器缓存位置 CreateTime--2017年7月20日08:33:14Author:Marydon 一.参考链接 http://jingyan.baidu.com/artic ...
串口通讯编程一日通2（Overlapped IO模型）
第一篇初步了解串口的大致运作,接下来我们看基本操作先看串口操作的数据结构: 串口操作有几个比较重要的Struct 1.Overlapped I/O 异步I/O模型异步I/O和同步I/O不同,同步I ...

GuozhongCrawler看准网爬虫动态切换IP漫爬虫

GuozhongCrawler看准网爬虫动态切换IP漫爬虫的更多相关文章

随机推荐

热门专题