Java爬虫学习（1）之爬取新浪微博博文

本次学习采用了webmagic框架，完成的是一个简单的小demo

 package com.mieba.spiader;

 import us.codecraft.webmagic.Page;

 import us.codecraft.webmagic.Site;

 import us.codecraft.webmagic.Spider;

 import us.codecraft.webmagic.pipeline.FilePipeline;

 import us.codecraft.webmagic.processor.PageProcessor;

 public class SinaPageProcessor implements PageProcessor

 {

     public static final String URL_LIST = "http://blog\\.sina\\.com\\.cn/s/articlelist_1487828712_0_\\d+\\.html";

     public static final String URL_POST = "http://blog\\.sina\\.com\\.cn/s/blog_\\w+\\.html";

     private Site site = Site.me().setDomain("blog.sina.com.cn").setRetryTimes(3).setSleepTime(3000).setUserAgent(

                     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");

     @Override

     public void process(Page page)

     {

         // 列表页

         if (page.getUrl().regex(URL_LIST).match())

         {

             // 从页面发现后续的url地址来抓取

             page.addTargetRequests(page.getHtml().xpath("//div[@class=\"articleList\"]").links().regex(URL_POST).all());

             page.addTargetRequests(page.getHtml().links().regex(URL_LIST).all());

             // 文章页

         } else

         {

             // 定义如何抽取页面信息，并保存下来

             page.putField("title", page.getHtml().xpath("//div[@class='articalTitle']/h2"));

             page.putField("content", page.getHtml().xpath("//div[@id='articlebody']//div[@class='articalContent']"));

             page.putField("date", page.getHtml().xpath("//div[@id='articlebody']//span[@class='time SG_txtc']").regex("\\((.*)\\)"));

         } 

     }

     @Override

     public Site getSite()

     {

         return site;

     }

     public static void main(String[] args)

     {

         Spider.create(new SinaPageProcessor())

         //从"http://blog.sina.com.cn/s/articlelist_1487828712_0_1.html"开始抓

         .addUrl("http://blog.sina.com.cn/s/articlelist_1487828712_0_1.html")

         //结果用文件的格式保存下来

         .addPipeline(new FilePipeline("E:\\webmagic\\"))

         //开启5个线程抓取

         .thread(5)

         //启动爬虫

         .run();

     }

 }

运行截图

爬取的网页

Java爬虫学习（1）之爬取新浪微博博文的更多相关文章

Python爬虫学习笔记之爬取新浪微博
import requests from urllib.parse import urlencode from pyquery import PyQuery as pq from pymongo im ...
python爬虫学习01--电子书爬取
python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': ...
Java爬虫_资源网站爬取实战
对 http://bestcbooks.com/ 这个网站的书籍进行爬取 (爬取资源分享在结尾) 下面是通过一个URL获得其对应网页源码的方法传入一个 url 返回其源码 (获得源码后,对源码进 ...
java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址
1. 目标使用webmagic爬取动作电影列表信息爬取电影<海王>详细信息[电影名称.电影迅雷下载地址列表] 2. 爬取最新动作片列表获取电影列表页面数据来源地址访问http:// ...
Java爬虫——B站弹幕爬取
如何通过B站视频AV号找到弹幕对应的xml文件号首先爬取视频网页,将对应视频网页源码获得就可以找到该视频的av号aid=8678034 还有弹幕序号,cid=14295428 弹幕存放位置为 h ...
java爬虫入门--用jsoup爬取汽车之家的新闻
概述使用jsoup来进行网页数据爬取.jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuer ...
java 使用htmlunit模拟登录爬取新浪微博页面
mport java.io.IOException;import java.net.MalformedURLException;import com.gargoylesoftware.htmlunit ...
Python爬虫学习之正则表达式爬取个人博客
实例需求:运用python语言爬取http://www.eastmountyxz.com/个人博客的基本信息,包括网页标题,网页所有图片的url,网页文章的url.标题以及摘要. 实例环境:pytho ...
Java爬虫框架WebMagic入门——爬取列表类网站文章
初学爬虫,WebMagic作为一个Java开发的爬虫框架很容易上手,下面就通过一个简单的小例子来看一下. WebMagic框架简介 WebMagic框架包含四个组件,PageProcessor.Sch ...

随机推荐

Spark学习之路（十八）SparkSQL简单使用[转]
SparkSQL的进化之路 1.0以前: Shark 1.1.x开始: SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: Spar ...
BIM人才三角
BIM 人才三角聚焦六个关键技能和一个中心. 1. 基础能力基础能力分三块: 语言能力实践能力数学能力 1.1 语言能力语言是指自然语言,如汉语和英语.获取其他知识的能力以及学习.理解.沟通能 ...
剑指offer-面试题13-机器人的运动范围-递归法
/* 题目: 地上有一个m行n列的方格.一个机器人从坐标(0,0)的格子开始运动, 每次可向上.下.左.右移动一格,但不能进入行坐标和列坐标之和大于k的格子. 如,当k=18时,机器人能进入(35,3 ...
《京东B2B业务架构演变》阅读
转载:https://mp.weixin.qq.com/s/5xmmuw8O-I_Fi5bzE-_baA?tdsourcetag=s_pcqq_aiomsg 京东 B2B 业务的定位是让各类型的企业都 ...
gulp常用插件之rev-del使用
更多gulp常用插件使用请访问:gulp常用插件汇总 rev-del这是一款从模块(如gulp-rev)生成的修订清单中删除旧的.未使用的指纹文件. 更多使用文档请点击访问rev-del工具官网. 安 ...
KiKi's K-Number HDU - 2852 树状数组+二分
#include<iostream> #include<cstring> using namespace std; ; int tr[N]; int lowbit(int x) ...
mysql如何让两个字段数据都不能重复？
目录场景任务(需求) 行动(解决方案) 方案1:从代码层面解决(正确方案) 方案2:设置成两个唯一索引(正确方案) 方案3:删掉中间表,把从表的主键作为主表的外键,并将外键设置成唯一索引(正确方案 ...
为什么重写equals方法，还必须要重写hashcode方法
一.equals方法和hashcode的关系根据Object.hashCode的通用约定: 如果两个对象相同(equals方法返回true),那么hashcode也相等.(图1) 如果两个对象的ha ...
java读取解析application.yml
java读取解析application.yml 不用依赖spring容器,可单独使用. bug已修改... 第一步.首先要2个jar  ...
BSGS求解离散对数问题
离散对数问题是求解axΞb mod(n) 同余方程以下模板使用于gcd(a,n)=1的情况 ; int hs[mod],head[mod],Next[mod],id[mod],top; void i ...

Java爬虫学习（1）之爬取新浪微博博文

Java爬虫学习（1）之爬取新浪微博博文的更多相关文章

随机推荐

热门专题