crawler4j源码学习(2):Ziroom租房网房源信息采集爬虫
crawler4j是用Java实现的开源网络爬虫。提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫。下面实例结合jsoup解析网页,javacsv存储采集数据;采集自如ziroom租房网(http://sz.ziroom.com/z/nl/)的出租房信息。
所有的过程仅需两步完成:
第一步:开发Ziroom采集核心部分代码:
- /**
- * @date 2016年8月20日 下午6:13:24
- * @version
- * @since JDK 1.8
- */
- public class ZiroomCrawler extends WebCrawler {
- /** 爬取匹配原则 */
- private final static Pattern FILTERS = Pattern.compile(".*(\\.(css|js|bmp|gif|jpe?g|ico"
- + "|png|tiff?|mid|mp2|mp3|mp4" + "|wav|avi|mov|mpeg|ram|m4v|pdf" + "|rm|smil|wmv|swf|wma|zip|rar|gz))$");
- /** 爬取数据保存文件路径 */
- private final static String DATA_PATH = "data/crawl/ziroom.csv";
- /** 爬取link文件路径 */
- private final static String LINK_PATH = "data/crawl/link.csv";
- // private static final Logger logger =
- // LoggerFactory.getLogger(ZiroomCrawler.class);
- private final static String URL_PREFIX = "http://sh.ziroom.com/z/nl/";
- private final File fLinks;
- private final File fDatas;
- private CsvWriter csvLinks;
- private CsvWriter csvDatas;
- /**
- * You should implement this function to specify whether the given url
- * should be crawled or not (based on your crawling logic).
- */
- ZiroomCrawlStat myCrawlStat;
- public ZiroomCrawler() throws IOException {
- myCrawlStat = new ZiroomCrawlStat();
- fLinks = new File(DATA_PATH);
- fDatas = new File(LINK_PATH);
- if (fLinks.isFile()) {
- fLinks.delete();
- }
- if (fDatas.isFile()) {
- fDatas.delete();
- }
- csvDatas = new CsvWriter(new FileWriter(fDatas, true), ',');
- csvDatas.write("请求路径");
- csvDatas.endRecord();
- csvDatas.close();
- csvLinks = new CsvWriter(new FileWriter(fLinks, true), ',');
- csvLinks.write("图片");
- csvLinks.write("价格");
- csvLinks.write("地址");
- csvLinks.write("说明");
- csvLinks.endRecord();
- csvLinks.close();
- }
- public void dumpMyData() {
- final int id = getMyId();
- // You can configure the log to output to file
- logger.info("Crawler {} > Processed Pages: {}", id, myCrawlStat.getTotalProcessedPages());
- logger.info("Crawler {} > Total Links Found: {}", id, myCrawlStat.getTotalLinks());
- logger.info("Crawler {} > Total Text Size: {}", id, myCrawlStat.getTotalTextSize());
- }
- @Override
- public Object getMyLocalData() {
- return myCrawlStat;
- }
- @Override
- public void onBeforeExit() {
- dumpMyData();
- }
- /*
- * 这个方法决定了要抓取的URL及其内容,例子中只允许抓取“http://sh.ziroom.com/z/nl/”这个域的页面,
- * 不允许.css、.js和多媒体等文件
- *
- * @see edu.uci.ics.crawler4j.crawler.WebCrawler#shouldVisit(edu.uci.ics.
- * crawler4j.crawler.Page, edu.uci.ics.crawler4j.url.WebURL)
- */
- @Override
- public boolean shouldVisit(Page referringPage, WebURL url) {
- final String href = url.getURL().toLowerCase();
- if (FILTERS.matcher(href).matches() || !href.startsWith(URL_PREFIX)) {
- return false;
- }
- return true;
- }
- /*
- * 当URL下载完成会调用这个方法。你可以轻松获取下载页面的url, 文本, 链接, html,和唯一id等内容。
- *
- * @see
- * edu.uci.ics.crawler4j.crawler.WebCrawler#visit(edu.uci.ics.crawler4j.
- * crawler.Page)
- */
- @Override
- public void visit(Page page) {
- final String url = page.getWebURL().getURL();
- logger.info("爬取路径:" + url);
- myCrawlStat.incProcessedPages();
- if (page.getParseData() instanceof HtmlParseData) {
- final HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
- final Set<WebURL> links = htmlParseData.getOutgoingUrls();
- try {
- linkToCsv(links);
- } catch (final IOException e2) {
- // TODO Auto-generated catch block
- e2.printStackTrace();
- }
- myCrawlStat.incTotalLinks(links.size());
- try {
- myCrawlStat.incTotalTextSize(htmlParseData.getText().getBytes("UTF-8").length);
- } catch (final UnsupportedEncodingException e1) {
- // TODO Auto-generated catch block
- e1.printStackTrace();
- }
- final String html = htmlParseData.getHtml();
- final Document doc = Jsoup.parse(html);
- final Elements contents = doc.select("li[class=clearfix]");
- for (final Element c : contents) {
- // 图片
- final String img = c.select(".img img").first().attr("src");
- logger.debug("图片:" + img);
- // 地址
- final Element txt = c.select("div[class=txt]").first();
- final String arr1 = txt.select("h3 a").first().text();
- final String arr2 = txt.select("h4 a").first().text();
- final String arr3 = txt.select("div[class=detail]").first().text();
- final String arr = arr1.concat(arr1 + ",").concat(arr2 + ",").concat(arr3);
- logger.debug("地址:" + arr);
- // 说明
- final String rank = txt.select("p").first().text();
- logger.debug("说明:" + rank);
- // 价格
- final String pirce = c.select("p[class=price]").first().text();
- try {
- csvLinks = new CsvWriter(new FileWriter(fLinks, true), ',');
- csvLinks.write(img);
- csvLinks.write(pirce);
- csvLinks.write(arr);
- csvLinks.write(rank);
- csvLinks.endRecord();
- csvLinks.flush();
- csvLinks.close();
- } catch (final IOException e) {
- e.printStackTrace();
- }
- }
- }
- }
- private void linkToCsv(Set<WebURL> links) throws IOException {
- csvDatas = new CsvWriter(new FileWriter(fDatas, true), ',');
- for (final WebURL webURL : links) {
- csvDatas.write(webURL.getURL());
- }
- csvDatas.flush();
- csvDatas.endRecord();
- csvDatas.close();
- }
- }
第二步:开发Ziroom采集控制部分代码:
- /**
- * @date 2016年8月20日 下午6:15:01
- * @version
- * @since JDK 1.8
- */
- public class ZiroomController {
- public static void main(String[] args) {
- final String crawlStorageFolder = "data/crawl/root";
- final int numberOfCrawlers = 3;
- final CrawlConfig config = new CrawlConfig();
- config.setCrawlStorageFolder(crawlStorageFolder);
- config.setPolitenessDelay(1000);
- config.setIncludeBinaryContentInCrawling(false);
- config.setMaxPagesToFetch(50);
- final PageFetcher pageFetcher = new PageFetcher(config);
- final RobotstxtConfig robotstxtConfig = new RobotstxtConfig();
- final RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher);
- CrawlController controller;
- try {
- controller = new CrawlController(config, pageFetcher, robotstxtServer);
- controller.addSeed("http://sh.ziroom.com/z/nl/");
- controller.start(ZiroomCrawler.class, numberOfCrawlers);
- final List<Object> crawlersLocalData = controller.getCrawlersLocalData();
- long totalLinks = 0;
- long totalTextSize = 0;
- int totalProcessedPages = 0;
- for (final Object localData : crawlersLocalData) {
- final ZiroomCrawlStat stat = (ZiroomCrawlStat) localData;
- totalLinks += stat.getTotalLinks();
- totalTextSize += stat.getTotalTextSize();
- totalProcessedPages += stat.getTotalProcessedPages();
- }
- System.out.println("Aggregated Statistics:");
- System.out.println("\tProcessed Pages: {}" + totalProcessedPages);
- System.out.println("\tTotal Links found: {}" + totalLinks);
- System.out.println("\tTotal Text Size: {}" + totalTextSize);
- } catch (final Exception e) {
- // TODO Auto-generated catch block
- e.printStackTrace();
- }
- }
- }
第三步:开发Ziroom采集状态搜集代码:
- /**
- * @date 2016年8月20日 下午6:14:13
- * @version
- * @since JDK 1.8
- */
- public class ZiroomCrawlStat {
- private long totalLinks;
- private int totalProcessedPages;
- private long totalTextSize;
- public long getTotalLinks() {
- return totalLinks;
- }
- public int getTotalProcessedPages() {
- return totalProcessedPages;
- }
- public long getTotalTextSize() {
- return totalTextSize;
- }
- public void incProcessedPages() {
- this.totalProcessedPages++;
- }
- public void incTotalLinks(int count) {
- this.totalLinks += count;
- }
- public void incTotalTextSize(int count) {
- this.totalTextSize += count;
- }
- public void setTotalLinks(long totalLinks) {
- this.totalLinks = totalLinks;
- }
- public void setTotalProcessedPages(int totalProcessedPages) {
- this.totalProcessedPages = totalProcessedPages;
- }
- public void setTotalTextSize(long totalTextSize) {
- this.totalTextSize = totalTextSize;
- }
- }
Ziroom采集数据展示:
crawler4j源码学习(2):Ziroom租房网房源信息采集爬虫的更多相关文章
- crawler4j源码学习(1):搜狐新闻网新闻标题采集爬虫
crawler4j是用Java实现的开源网络爬虫.提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫.下面实例结合jsoup,采集搜狐新闻网(http://news.sohu.com/)新闻标 ...
- NewBluePill源码学习
NewBluePill的源码也看的差不多了,一直说等有时间了再写学习的一些心得,拖来拖去弄到现在了,时间不是等来的,慢慢开始吧. 0x00 初识硬件虚拟化 硬件虚拟化对大数人来讲还是比较陌生. ...
- 框架源码系列十一:事务管理(Spring事务管理的特点、事务概念学习、Spring事务使用学习、Spring事务管理API学习、Spring事务源码学习)
一.Spring事务管理的特点 Spring框架为事务管理提供一套统一的抽象,带来的好处有:1. 跨不同事务API的统一的编程模型,无论你使用的是jdbc.jta.jpa.hibernate.2. 支 ...
- Vue源码学习1——Vue构造函数
Vue源码学习1--Vue构造函数 这是我第一次正式阅读大型框架源码,刚开始的时候完全不知道该如何入手.Vue源码clone下来之后这么多文件夹,Vue的这么多方法和概念都在哪,完全没有头绪.现在也只 ...
- NewBluePill源码学习 <一>
NewBluePill的源码也看的差不多了,一直说等有时间了再写学习的一些心得,拖来拖去弄到现在了,时间不是等来的,慢慢开始吧. 0x00 初识硬件虚拟化 硬件虚拟化对大数人来讲还是比较陌生. ...
- Vue源码学习二 ———— Vue原型对象包装
Vue原型对象的包装 在Vue官网直接通过 script 标签导入的 Vue包是 umd模块的形式.在使用前都通过 new Vue({}).记录一下 Vue构造函数的包装. 在 src/core/in ...
- SpringBoot源码学习系列之SpringMVC自动配置
目录 1.ContentNegotiatingViewResolver 2.静态资源 3.自动注册 Converter, GenericConverter, and Formatter beans. ...
- SpringBoot源码学习系列之嵌入式Servlet容器
目录 1.博客前言简单介绍 2.定制servlet容器 3.变换servlet容器 4.servlet容器启动原理 SpringBoot源码学习系列之嵌入式Servlet容器启动原理 @ 1.博客前言 ...
- vue-elemnt-admin源码学习
vue-elemnt-admin源码学习 vue-element-admin是一个基于vue,element-ui的集成的管理后台.它的安装部分就不说了,按照官网的步骤一步步就可以执行了. https ...
随机推荐
- websocket总结
一.WebSocket简介 WebSocket protocol是HTML5一种新的协议,WebSocket 是目前唯一真正实现全双工通信的服务器向客户端推送的互联网技术.WebSocket的出现使 ...
- steps animation
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- HDU 1264 Counting Squares(线段树求面积的并)
Counting Squares Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) ...
- A trip through the Graphics Pipeline 2011_10_Geometry Shaders
Welcome back. Last time, we dove into bottom end of the pixel pipeline. This time, we’ll switch ...
- ThinkPHP 3.2.3 中设置和使用 Session
Session 的配置 可以在 config.php(可以是应用公用的 config.php 或模块的 config.php)中对 Session 进行配置,例如: config.php <?p ...
- mysql组合索引顺序参考
问题背景 : 当我们需要创建一个组合索引, 索引的顺序对于效率影响很大, 怎么确定索引的顺序; 解决方法 : 我们应该依据字段的全局基数和选择性, 而不是字段的某个具体的值来确定; 表结构 : dc ...
- NEC学习 ---- 模块 -水平文字链接列表
HTML代码: <div class="container"> <div class="m-list1"> <ul class=& ...
- Thinking in Java——笔记(10)
Inner Classes It allows you to group classes that logically belong together and to control the visib ...
- yii2知识点理解(成员属性)
yii2成员属性 成员变量类似于public $a; 成员属性类似于 public function a(){} 成员变量是就类的结构构成而言的概念,而属性是就类的功能逻辑而言的概念 成员属性应用: ...
- LeetCode Alien Dictionary
原题链接在这里:https://leetcode.com/problems/alien-dictionary/ 题目: There is a new alien language which uses ...