02_使用WebMagic爬虫获取CSDN推荐专家的个人博客信息

本来是想抓取博客园的博客推荐的页面的，但由于一些博客进去的页面格式都不太相同，一时不想花时间去寻找规律，发现CSDN上面的格式较为单一，就决定以CSDN推荐专家的个人博客信息作为爬虫抓取的目标。

【首先，查看一下CSDN的推荐专家的页面】

【然后再查看一下主页面】

准备用爬虫获取一下几个变量

1.姓名

2.访问量

3.积分

4.等级

5.排名

6.原创

7.转载

8.译文

9.评论

10.链接

11.照片

【工程截图】因为主要用到WebMagic，所有的jar包在WebMagic的git地址，自行下载。

【User.java】便于展示，或者后期存入数据库用

package com.cnblogs.test;

public class User {

    private String name;  //名字

    private String fangwen; //访问数量

    private String jifen;  //积分

    private String dengji; //等级

    private String paiming; //排名

    private String yuanchuang;//原创

    private String zhuanzai;  //转载

    private String yiwen;    //译文

    private String pinglun;   //评论

    private String link;  //链接

    private String photo;  //照片  

    @Override

    public String toString() {

        return "\n========================= \n "

                + " 姓名=" + name

                + "\n 访问量=" + fangwen

                + "\n 积分=" + jifen

                + "\n 等级=" + dengji

                + "\n 排名=" + paiming

                + "\n 原创=" + yuanchuang

                + "\n 转载=" + zhuanzai

                + "\n 译文=" + yiwen

                + "\n 评论=" + pinglun

                + "\n 链接="+ link

                + "\n 照片=" + photo

                + "\n==========================\n";

    }
/*******省略get/Set方法******/

}

【CSDNSpider.java】

package com.cnblogs.test;

import java.util.ArrayList;

import java.util.HashSet;

import java.util.List;import java.util.regex.Matcher;

import java.util.regex.Pattern;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

public class CSDNSpider implements PageProcessor{

    private static String keyword="java";

    private static int num;

    //专区网站的相关配置，包括编码、抓取间隔、重试次数等

    private Site site=Site.me().setRetryTimes(10).setSleepTime(1000);

    @Override

    public Site getSite() {

        return this.site;

    }

    @Override

    public void process(Page page) {

        //如果url匹配"http://blog.csdn.net/experts.html"

        if(page.getUrl().regex("http://blog\\.csdn\\.net/experts\\.html").match()){

            //获取div[@class='experts_list_wrap clearfix']内含有的全部链接

            List<String> listLink=page.getHtml().xpath("//div[@class='experts_list_wrap clearfix']").links().all();

            //因为在首页每个博主都有重复的链接，这里加一个去重的方法，这个方法很好用

            HashSet<String> hs=new HashSet<String>(listLink); //通过HashSet剔除重复的链接

            listLink.clear();

            listLink.addAll(hs); //将去重的的链接结合补充回listStr

            //将博主的主页的url加入到待抓取的队列中

            page.addTargetRequests(listLink);

        }else{  //此时进入了用户详细页面

            User user=new User();

            //首先获取姓名

            String name=page.getHtml().xpath("//div[@id='blog_userface']/span/a[@class='user_name']/text()").get();

            //这里获取

            String str=page.getHtml().xpath("//ul[@id='blog_rank']").get()+page.getHtml().xpath("//ul[@id='blog_statistics']").get();

            //部分变量以 "<sapn>XXXX<sapm>"的格式存在，我们可以使用正则表达式将整个"<sapn>XXXX<sapm>"获取匹配的字符串

            String regex="<span>(.*)+</span>";

            Pattern p1=Pattern.compile(regex);

            Matcher m=p1.matcher(str);

            //用来保存"<sapn>XXXX<sapm>"中间的XXXX的集合

            List<String> strList=new ArrayList<>();

            while(m.find()){

                //这里的m.group()的格式为: "<span>403581次</span>" 或  "<span>7526</span>" 或 "<span>第1885名</span>" 的格式

                String s=m.group().split("<span>|</span>")[1]; //切割之后为 s[0]="<span>" s[1]="404581次" s[2]="<span>"，所以我们取s[1]

                strList.add(s); //将s[1]添加至集合中

            }

            String fangwen=strList.get(0);  //访问

            String jifen=strList.get(1);    //积分

            String paiming=strList.get(2);  //排名

            String yuanchuang=strList.get(3); //原创

            String zhuanzai=strList.get(4);   //转载

            String yiwen=strList.get(5);     //译文

            String pinglun=strList.get(6);   //评论

            //等级存放在<img src=http://c.csdnimg.cn/jifen/images/xunzhang/jianzhang/blog6.png>中

            //1级对应:blog1.png, 6级对应:blog6.png

            String dengji=page.getHtml().xpath("//img[@id='leveImg']/@src").get();

            dengji=dengji.substring(dengji.length()-5, dengji.length()-4);  //获取倒数第5个字符

            //获取当前页的url

            String photo=page.getHtml().xpath("//div[@id='blog_userface']/a/img/@src").get();

            String link=page.getUrl().toString();

            //将所有的数据保存如User对象中

            user.setName(name);

            user.setFangwen(fangwen);

            user.setJifen(jifen);

            user.setDengji(dengji);

            user.setPaiming(paiming);

            user.setYuanchuang(yuanchuang);

            user.setZhuanzai(zhuanzai);

            user.setYiwen(yiwen);

            user.setPinglun(pinglun);

            user.setLink(link);

            user.setPhoto(photo);

            System.out.println(user.toString());

        }

    }

    public static void main(String[] args) {

        //url入口

        Spider.create(new CSDNSpider())

        .addUrl("http://blog.csdn.net/experts.html")

        .thread(5)

        .run();

    }

}

【运行结果】

【注意点】

这两块信息分布在两个ul上，所以就出现了程序里

整合两个ul的情况。

另外，注意下这几个处理方式不同

【总结】

知识点一：List<String>去重的方法：

知识点二：正则表达式从一个长字符串中获取符合要求的字符串数组（多个满足条件，就组成数组喽）

知识点三：截取某一段字符串的后面几位（之前有点忘记了，现在记下）

总之WebMagic还是挺好上手的，当然正则表达式巧妙的利用会事半功倍。

另外就是WebMagic的单独的知识点，后面再总结补充。

02_使用WebMagic爬虫获取CSDN推荐专家的个人博客信息的更多相关文章

开发记录_自学Python写爬虫程序爬取csdn个人博客信息
每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...
python网络爬虫进入（一）——简单的博客爬行动物
最近.对于图形微信公众号.互联网收集和阅读一些疯狂的-depth新闻和有趣,发人深思文本注释,并选择最佳的发表论文数篇了.但看着它的感觉是一个麻烦的一人死亡.寻找一个简单的解决方案的方法,看看你是否可 ...
java提取(获取)博客信息（内容）
package com.wbg.my.service; import java.io.*; import java.net.HttpURLConnection; import java.net.URL ...
CSDN怎么转载别人的博客
在参考"如何快速转载CSDN中的博客"后,由于自己不懂html以及markdown相关知识,所以花了一些时间来弄明白怎么转载博客,以下为转载CSDN博客步骤和一些知识小笔记. 参考 ...
CSDN如何转载别人的博客
前言对于喜欢逛CSDN的人来说,看别人的博客确实能够对自己有不小的提高,有时候看到特别好的博客想转载下载,但是不能一个字一个字的敲了,这时候我们就想快速转载别人的博客,把别人的博客移到自己的空间 ...
WordPress多站点获取当前博客信息
http://www.utubon.com/1495/wordpress-multisite-get-current-bolg-info global $current_blog; 它的返回结果是: ...
CSDN也有我的博客啦
我的CSDN:https://blog.csdn.net/qq_40875849
Python爬虫学习之正则表达式爬取个人博客
实例需求:运用python语言爬取http://www.eastmountyxz.com/个人博客的基本信息,包括网页标题,网页所有图片的url,网页文章的url.标题以及摘要. 实例环境:pytho ...
JAVA爬虫挖取CSDN博客文章
开门见山,看看这个教程的主要任务,就去csdn博客,挖取技术文章,我以<第一行代码–安卓>的作者为例,将他在csdn发表的额博客信息都挖取出来.因为郭神是我在大学期间比较崇拜的对象之一.他 ...

随机推荐

ssh -CT -o BatchMode=yes 用户名@主机名
Cocos2d-x 2.0 自适应多种分辨率
转自:http://dualface.github.io/blog/2012/08/17/cocos2d-x-2-dot-0-multi-resolution/ cocos2d-x 2.0 提供一个极 ...
[转]把项目从VS2005升级到VS2013
原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://rangercyh.blog.51cto.com/1444712/1394348 ...
Android两个控件叠在一起，如何让被挡住的控件显示出来
Android两个控件叠在一起,如何让被挡住的控件显示出来问题 : 两个控件叠在一起,如何让被挡住的控件显示出来? 比如A,B两个控件,A被B挡住,目前A要显示出来,B不能被隐藏,A的高度只有那么一 ...
[置顶] android LBS的研究与分享(附PPT)
早上起床后想想以前的工作有什么可以分享的... 两年前,前公司在做一个陌生人交友的社交软件(比陌陌还早),需要研究LBS的相关工作(这里面主要研究的是Google定位)... 一.简要调研结果很多 ...
QTP下载链接
QTP下载链接 QTP官网下载:http://www8.hp.com/us/en/software-solutions/software.html?compURI=1172957#.UNMOQ2_FW ...
sigar监控
相关参照博客: http://liningjustsoso.iteye.com/blog/1254584 http://blog.csdn.net/aoxida/article/category/12 ...
linux用户与组的管理（命令加入、手动加入、加入组、用户之间的切换）
一.用户登录的时候须要验证的是这两个文件检測username Login: root 到该文件夹下检查 /etc/passwd 检測用passwo ...
java12 File类
)File类 )IO流的原理及概念 )IO流的分类 )IO流类的体系 )字节流和字符流 )处理流 )文件拷贝 )处理流 )文件拷贝 )文件分割与合并 File:文件和目录路径名的抽象表示形式,一个Fi ...
标准I/O库之定位流
有三种方法定位标准I/O流. (1)ftell和fseek函数.这两个函数自V7以来就存在了,但是它们都假定文件的位置可以存放在一个长整型中. (2)ftello和fseeko函数.Single UN ...

02_使用WebMagic爬虫获取CSDN推荐专家的个人博客信息

02_使用WebMagic爬虫获取CSDN推荐专家的个人博客信息的更多相关文章

随机推荐

热门专题