本文主要分享的是关于Java爬虫技术其中一个方式   ==>  Jsoup


1、Jsoup简介

  推开技术大门,爬虫技术琳琅满目,而今天要分享的Jsoup是一款Java的HTML解析神器,,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API。可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

。关于Jsoup的详细介绍,不赘述,以下是 官方文档,自行查阅。我们直接上代码。

2、代码分享(真实爬取一个政府采购网:中国政府采购网,按照关键词搜索的公告)

注意的点:爬虫的是要爬取大量列表信息的,这就要考虑到判断总页数,翻开每一页,遍历每一条数据,还要在F12模式下,查看网页发起请求的格式,查看URL传递参数的加密方式,如果请求失败了,如何处理  等等

package com.Utill;

import com.alibaba.fastjson.JSONObject;
import com.ckms.comp.manager.im.govManage.service.GovManageServiceImpl;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory; import java.io.*;
import java.util.*; /**
* @Author:
* @Date: 2019/10/1 13:43
* @Describe:
*/
public class JsoupDemo { private static final Logger logger = LoggerFactory.getLogger(JsoupDemo.class); private String keyword = null;
private String endtime = null;
private String begintime = null;
private String zzUrl = null;
private boolean start = false;
int isSize = 1;
Integer pageSize = 0;
Integer timeType = 6; // 时间类型 6: 指定时间 5:近半年 0:今日 4:近3月 /**
* 爬虫调用主方法
*
* @param id 关键词的饿id
* @param kw 关键词
* @param startTime 开始时间
* @param endTime 结束时间
*/
public void fetch(Integer id, String kw, String startTime, String endTime) {
logger.info("开始拉取网站数据》》》》》》》》》》》》》》》》》》》》》》》》》》》");
Integer totalSize = null;
try {
keyword = toUtf8String(kw);
begintime = startTime.replace("/", "%3A");
endtime = endTime.replaceAll("/", "%3A");
pageSize = 1;
zzUrl = "http://search.ccgp.gov.cn/bxsearch?searchtype=1&page_index=" + pageSize + "&bidSort=0&buyerName=&projectId=&pinMu=0&bidType=0&dbselect=bidx&kw=" + keyword + "&start_time=" + begintime + "&end_time=" + endtime + "&timeType=" + timeType + "&displayZone=&zoneId=&pppStatus=0&agentName=";
start = true;
//获取总页数
totalSize = fetchHomePageUrl(zzUrl);
if (totalSize != null && totalSize > 0) {
while (start) { if (isSize > totalSize) {
start = false;
} else {
pageSize = isSize;
zzUrl = "http://search.ccgp.gov.cn/bxsearch?searchtype=1&page_index=" + isSize + "&bidSort=0&buyerName=&projectId=&pinMu=0&bidType=0&dbselect=bidx&kw=" + keyword + "&start_time=" + begintime + "&end_time=" + endtime + "&timeType=" + timeType + "&displayZone=&zoneId=&pppStatus=0&agentName=";
//开始遍历每一页数据
fetchingPageUrl(id, isSize, zzUrl);
isSize++;
}
}
} else {
logger.info("关键词:" + kw + "没有查询到相关数据-" + new Date());
isSize = 1;
}
} catch (Exception er) {
logger.error("========================获取数据失败,重新获取中.....=================================");
}
} //URL汉字转码
public static String toUtf8String(String s) {
StringBuffer sb = new StringBuffer();
for (int i = 0; i < s.length(); i++) {
char c = s.charAt(i);
if (c >= 0 && c <= 255) {
sb.append(c);
} else {
byte[] b;
try {
b = String.valueOf(c).getBytes("utf-8");
} catch (Exception ex) {
System.out.println(ex);
b = new byte[0];
}
for (int j = 0; j < b.length; j++) {
int k = b[j];
if (k < 0)
k += 256;
sb.append("%" + Integer.toHexString(k).toUpperCase());
}
}
}
return sb.toString();
} // 首次访问url ,需查找当前查询词所在的总页数
public Integer fetchHomePageUrl(String ur) {
Integer size = null;
try {
//maxBodySize : 0 不限制大小, 1: 1m userAgent: 伪装成浏览器
Document doc = Jsoup.connect(ur).header("Accept-Encoding", "gzip, deflate")
.userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31")
.maxBodySize(0).timeout(600000).get();
Elements eli = doc.select(".vT-srch-result-list-con2 .vT-srch-result-list .vt-srch-result-list-bid>li");
if (eli.size() > 0) {
//获取分页html
Elements allElements = doc.select(".vT_z .pager>script");
if (allElements.size() > 0) {
String pager = allElements.get(0).childNodes().toString();
String startStr = pager.substring(7, pager.length());
String objectStr = startStr.substring(0, startStr.lastIndexOf(")"));
//string转json对象
JSONObject jsonObject = JSONObject.parseObject(objectStr);
// 共有多少页
size = Integer.valueOf((Integer) jsonObject.get("size"));
}
}
} catch (IOException e1) {
e1.printStackTrace();
}
return size;
} // 遍历页数
public void fetchingPageUrl(Integer id, Integer pageSize, String fetchUrl) {
Integer is_homePage = 1; // 0 : 首页 1: 否 String noticeOutline = null;
try {
Document pDoc = Jsoup.connect(fetchUrl).header("Accept-Encoding", "gzip, deflate")
.userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31")
.maxBodySize(0)
.timeout(600000).get();
//根据css样式 获取当前页的所有url
Elements elements = pDoc.select(".vT_z .vT-srch-result-list-bid>li");
// Elements hrefs = doc.select("a[href]");
//遍历当前页的所有url
for (Element element : elements) {
//根据Jsoup解析,解析每一页的详细数据,见下一篇博客 }
} catch (Exception e) {
e.printStackTrace();
}
}
}

初识Java爬虫之Jsoup,提供参考代码的更多相关文章

  1. java爬虫中jsoup的使用

    jsoup可以用来解析HTML的内容,其功能非常强大,它可以向javascript那样直接从网页中提取有用的信息 例如1: 从html字符串中解析数据 //直接从字符串中获取 public stati ...

  2. java爬虫框架jsoup

    1.java爬虫框架的api jsoup:https://www.open-open.com/jsoup/

  3. Java爬虫框架Jsoup学习记录

    Jsoup的作用 当你想获得某网页的内容,可以使用此框架做个爬虫程序,爬某图片网站的图片(先获得图片地址,之后再借助其他工具下载图片)或者是小说网站的小说内容 我使用Jsoup写出的一款小说下载器,小 ...

  4. Java爬虫利器HTML解析工具-Jsoup

    Jsoup简介 Java爬虫解析HTML文档的工具有:htmlparser, Jsoup.本文将会详细介绍Jsoup的使用方法,10分钟搞定Java爬虫HTML解析. Jsoup可以直接解析某个URL ...

  5. Java爬虫系列三:使用Jsoup解析HTML

    在上一篇随笔<Java爬虫系列二:使用HttpClient抓取页面HTML>中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html,今天接着来看下爬虫的第二步--解析抓取 ...

  6. Java阶段性测试--第四五六大题参考代码

    第四题:.此题要求用IO流完成 使用File类在D盘下创建目录myFiles, 并在myFiles目录下创建三个文件分别为:info1.txt, info2.txt, info3.txt . 代码: ...

  7. 初识Java程序,编写简单代码?

    Dear All: 初识Java程序,编写简单代码? 首先小编在这里说下我们今天编写Java程序使用的是 eclipse 开发工具! 1.下载eclipse 官网地址:http://www.eclip ...

  8. 福利贴——爬取美女图片的Java爬虫小程序代码

    自己做的一个Java爬虫小程序 废话不多说.先上图. 目录命名是用标签缩写,假设大家看得不顺眼能够等完成下载后手动改一下,比方像有强迫症的我一样... 这是挂了一个晚上下载的总大小,只是还有非常多由于 ...

  9. JAVA爬虫挖取CSDN博客文章

    开门见山,看看这个教程的主要任务,就去csdn博客,挖取技术文章,我以<第一行代码–安卓>的作者为例,将他在csdn发表的额博客信息都挖取出来.因为郭神是我在大学期间比较崇拜的对象之一.他 ...

随机推荐

  1. open()和with open()的区别

    open 1,打开文件 file=open("文件名",“读写模式”) 2,操作文件 *** 3,关闭文件 file.close() 注意事项: 使用open方法,文件操作完毕之后 ...

  2. 谷歌浏览器chrome应用商店无法打开的解决方法

    解决办法:谷歌访问助手 谷歌访问助手是一款免费的谷歌服务代理插件,不用配置就可以正常访问谷歌的大部分服务,而且速度也很快.下载地址:http://www.cnplugins.com/advsearch ...

  3. 第60届IMO 第5题

    题目   巴斯银行发行的硬币在一面上铸有H,在另一面上铸有T,哈利有枚这样的硬币并将这些硬币从左至 右排成一行,他反复地进行如下操作:如果恰有k(>0)枚硬币H面朝上,则他将从左至右的第k枚硬币 ...

  4. python计算文件大小

    1.使用到的语句 import os 库 os.listdir(path) 返回文件名字符串列表 os.path.isdir(path) 判断文件名是否是文件夹 os.path.getsize(pat ...

  5. LED Candle Light Factory-LED Candle Light: Full Of Romance

    LED candle lights are beautiful and can add elegance and romance to any space. These candles make th ...

  6. LeetCode 第四题 Median of Two Sorted Arrays 二人 渣渣选手乱七八糟分析发现基本回到思路1

    题目 There are two sorted arrays nums1 and nums2 of size m and n respectively. Find the median of the ...

  7. 通过otter元数据表获取有用的信息

    获取数据源相关信息 原始数据: +----+------+-------+--------------------------------------------------------------- ...

  8. Git仓库创建---克隆仓库---初始提交代码

    1.在Git上创建仓库,添加成员,默认分支是“master”,仓库路径假设为http://192.168.1.1/root/project.git 2.在sourceTree上,点击“克隆”,输入上面 ...

  9. PP: A dual-stage attention-based recurrent neural network for time series prediction

    Problem: time series prediction The nonlinear autoregressive exogenous model: The Nonlinear autoregr ...

  10. jQuery---jQuery对象与DOM对象的区别

    jQuery对象与DOM对象的区别 1. DOM对象:使用JavaScript中的方法获取页面中的元素返回的对象就是dom对象.2. jQuery对象:jquery对象就是使用jquery的方法获取页 ...