java爬虫实现爬取百度风云榜Top10

最近在项目中遇到了java和python爬虫进行程序调用和接口对接的问题, 刚开始也是调试了好久才得出点门道.

而后,自己也发现了爬虫的好玩之处,边想着用java来写个爬虫玩玩,虽说是个不起眼的demo,但还是想记录一下这个小爬虫,便于以后的查阅.

直接上代码:

 import org.jsoup.Connection;

 import org.jsoup.Jsoup;

 import org.jsoup.nodes.Document;

 import org.jsoup.nodes.Element;

 import org.jsoup.select.Elements;

 import org.springframework.util.StringUtils;

 import java.io.IOException;

 import java.util.ArrayList;

 import java.util.List;

 public class MySpider {

     public static void main(String[] args) {

         List<NewsEntity> list = new ArrayList<NewsEntity>();

         Connection connect = Jsoup.connect("http://top.baidu.com/buzz?b=1&fr=tph_right");  //百度风云榜网址

         connect.userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)");  //模拟火狐浏览器访问网页

         try {

             Document document = connect.get();      //建立连接,获取网页内容为文档对象

             Element main = document.getElementById("main");  //获取需要爬去部位的根元素

             Elements url = main.select("div[class=mainBody]").select("table[class=list-table]")

                     .select("tbody").select("tr"); //css选择器

             int i = 0;

             for (Element element : url) {

                 NewsEntity entity = new NewsEntity();

                 String attr_url = element.select("td[class=keyword]").select("a[class=list-title]").attr("href");

                 String text = element.select("td[class=keyword]").select("a[class=list-title]").text();

                 String span = element.select("td[class=last").select("span").text();

                 if (StringUtils.isEmpty(attr_url) || StringUtils.isEmpty(text) || StringUtils.isEmpty(span)) {

                     continue;

                 }

                 entity.setTitle(text);

                 entity.setUrl(attr_url);

                 entity.setHots(span);

                 i++;

                 if (i > 10) {

                     break;

                 }

                 list.add(entity);

             }

             System.out.println(list.toString());

             System.out.println(list.size());

         } catch (IOException e) {

             e.printStackTrace();

             System.out.println("网页元素发生改变或访问被禁止");

         }

     }

 }

简易封装:

 /**

  * @author RYH

  * @description 封装新闻实体

  * @date 2019/2/26

  **/

 public class NewsEntity {

     private String title;

     private String url;

     private String hots;

     public String getTitle() {

         return title;

     }

     public void setTitle(String title) {

         this.title = title;

     }

     public String getUrl() {

         return url;

     }

     public void setUrl(String url) {

         this.url = url;

     }

     public String getHots() {

         return hots;

     }

     public void setHots(String hots) {

         this.hots = hots;

     }

     @Override

     public String toString() {

         return "NewsEntity{" +

                 "title='" + title + '\'' +

                 ", url='" + url + '\'' +

                 ", hots=" + hots +

                 '}';

     }

 }

导入的包也只有jsoup包,功能还是很强大的

<dependency>
　　<groupId>org.jsoup</groupId>
　　<artifactId>jsoup</artifactId>
　　<version>1.12.1</version>
</dependency>

控制台打印也一目了然, 做些简单的爬取还是很容易的

java爬虫实现爬取百度风云榜Top10的更多相关文章

第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
Java爬虫一键爬取结果并保存为Excel
Java爬虫一键爬取结果并保存为Excel 将爬取结果保存为一个Excel表格官方没有给出导出Excel 的教程这里我就发一个导出为Excel的教程导包因为个人爱好我喜欢用Gradle所以这 ...
利用python的爬虫技术爬取百度贴吧的帖子
在爬取糗事百科的段子后,我又在知乎上找了一个爬取百度贴吧帖子的实例,为了巩固提升已掌握的爬虫知识,于是我打算自己也做一个. 实现目标:1,爬取楼主所发的帖子 2,显示所爬去的楼层以及帖子题目 3,将爬 ...
十三 web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息, ...
python爬虫：爬取猫眼TOP100榜的100部高分经典电影
1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...
java爬虫-简单爬取网页图片
刚刚接触到“爬虫”这个词的时候是在大一,那时候什么都不明白,但知道了百度.谷歌他们的搜索引擎就是个爬虫. 现在大二.再次燃起对爬虫的热爱,查阅资料,知道常用java.python语言编程,这次我选择了 ...
python爬虫之爬取百度图片
##author:wuhao##爬取指定页码的图片,如果需要爬取某一类的所有图片,整体框架不变,但需要另作分析#import urllib.requestimport urllib.parseimpo ...
Java爬虫实践--爬取CSDN网站图片为例
实现的效果,自动在工程下创建Pictures文件夹,根据网站URL爬取图片,层层获取.在Pictures下以网站的层级URL命名文件夹,用来装该层URL下的图片.同时将文件名,路径,URL插入数据库, ...
【Java爬虫】爬取南通大学教务处成绩
没使用自动登录,所以获取是比较麻烦.. 1.http://jwgl.ntu.edu.cn/cjcx 进入官网,进行账号密码登录 2.点击全部成绩查询(也一定要点进去,不然cookie不会返回值) ...

随机推荐

CF 1119C Ramesses and Corner Inversion
https://codeforces.com/problemset/problem/1119/C 题目给两个矩阵,只能选宽和高大于等于2的子矩阵左上.左下.右上.右下四点翻转(1->0,0-& ...
Android List 排序
Collections.sort(list, (l1, l2) -> l1.getID().compareTo(l2.getID())); list:泛型集合 l1:比较的前一个泛型 l2:比较 ...
kubernetes 1.14安装部署metrics-server插件
简单介绍: 如果使用kubernetes的自动扩容功能的话,那首先得有一个插件,然后该插件将收集到的信息(cpu.memory..)与自动扩容的设置的值进行比对,自动调整pod数量.关于该插件,在ku ...
centos7下关闭sshd的tcp6
问题现象不算问题,就是偶然发现新装好的系统默认的sshd服务启动后的监听项有2个,如下图: 想着自己已经明明关闭了ipv6,竟然还起这tcp6...,强迫症犯了,尝试关闭它,百度一眼几乎没有,记录一 ...
MySQL架构备份之M-S-S级联备份
M--S1--S2 级联复制 master—>slave1—>slave2 master需要开启二进制日志中间的slave1也需要打开二进制日志,但是它默认不把应用master的操作记录 ...
观察者模式 vs 发布-订阅模式
我曾经在面试中被问道,_“观察者模式和发布订阅模式的有什么区别?” _我迅速回忆起“Head First设计模式”那本书: 发布 + 订阅 = 观察者模式 “我知道了,我知道了,别想骗我” 我微笑着回 ...
zabbix模板化监控
zabbix模板化监控 1. 实验简述在zabbix监控中,有很多组的概念,具体有以下几种: 1. 主机和主机组,相同类型/应用的主机,可以归属于同一个主机组 2. item和application ...
第七周博客作业<西北师范大学|李晓婷>
1.助教博客链接:https://home.cnblogs.com/u/lxt-/ 2.本周应批作业0,实批作业0. 3.本周小结:本周我们助教开始准备团队项目题目,下周三之前将会进行作业提交.
javaWeb使用百度编辑器上传图片的问题
1.先看项目结构(访问网站:http://localhost:8080/baidu_edit/) 2.部署6个jar包 1)先将jsp/lib的6个jar包放入到WEB-INF/lib文件夹中 2)然 ...
python类的两种创建方式
参考: https://blog.csdn.net/likunkun__/article/details/81949479

java爬虫实现爬取百度风云榜Top10

java爬虫实现爬取百度风云榜Top10的更多相关文章

随机推荐

热门专题