爬虫技术-httpClent+jsoup

技术：httpClent+jsoup

任务：利用httpClent爬去网站信息，在利用jsoup解析

方法说明：

　　　　　parseUrl(String url)：传入相应的url返回该网页内容，网页必须是html类型格式

　　　　　parseWebPage(String webPageContent)：将网页解析出想要的元素

package com.open111.crawler;

import java.io.IOException;

import org.apache.http.HttpEntity;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
*
* 爬虫起始类
* @author user
*
*/
public class StartCrawler {

/**
* 解析网页内容
* @param webPageContent
*/
public static void parseWebPage(String webPageContent){
if("".equals(webPageContent)){//判断网页是否为空
return;
}
Document doc=Jsoup.parse(webPageContent);
Elements links=doc.select("a"); // 获取所有超链接元素
for(int i=0;i<links.size();i++){//遍历元素集合
Element link=links.get(i);//得到每个元素
String url=link.attr("href");//得到元素的属性
}
}

/**
* 解析网页请求
* @param url 请求的url
*/
public static void parseUrl(String url){
System.out.println("url:"+url);
CloseableHttpClient httpClient=HttpClients.createDefault(); // 创建httpclient实例
HttpGet httpGet=new HttpGet(url); // 创建httpget实例
CloseableHttpResponse response=null; //创建返回结果
try {
response=httpClient.execute(httpGet);//执行请求，得到返回结果
HttpEntity entity=response.getEntity(); // 获取返回实体
if("text/html".equals(entity.getContentType().getValue())){//如果返回结果是text/html则根据jsoup解析出想要的结果
String webPageContent=EntityUtils.toString(entity, "utf-8");
System.out.println("网页内容："+webPageContent);
parseWebPage(webPageContent);
}
} catch (ClientProtocolException e) {

e.printStackTrace();
} catch (IOException e) {

e.printStackTrace();
}finally{
if(response!=null){
try {
response.close();
} catch (IOException e) {

e.printStackTrace();
}
}
try {
httpClient.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}

爬虫技术-httpClent+jsoup的更多相关文章

网络爬虫技术Jsoup——爬到一切你想要的（转）
转自:http://blog.csdn.net/ccg_201216323/article/details/53576654 本文由我的微信公众号(bruce常)原创首发, 并同步发表到csdn博客, ...
使用jsoup十分钟内掌握爬虫技术
对,就是十分钟,没有接触过爬虫的你,肯定一脸懵逼,感觉好高深的样子,一开始我也有点懵,但用了以后发现还是很简单的,java爬虫框架有很多,让我有种选择困难症,通过权衡比较还是感觉jsoup比较好用些, ...
Java网络爬虫技术《二》Jsoup
Jsoup 当我们成功抓取到页面数据了之后,还需要对抓取的数据进行解析,而刚好,Jsoup 是一款专门解析 html 页面的技术.Jsoup是一款基于 Java 的HTML 解析器,可直接解析某个 U ...
golang学习笔记17 爬虫技术路线图，python，java，nodejs，go语言，scrapy主流框架介绍
golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍 go语言爬虫框架:gocolly/colly,goquery,colly,chrom ...
总结整理 -- 爬虫技术（C#版）
爬虫技术学习总结爬虫技术 -- 基础学习(一)HTML规范化(附特殊字符编码表) 爬虫技术 -- 基本学习(二)爬虫基本认知爬虫技术 -- 基础学习(三)理解URL和URI的联系与区别爬虫技术 ...
爬虫技术 -- 基础学习（四）HtmlParser基本认识
利用爬虫技术获取网页源代码后,针对网页抽取出它的特定文本内容,利用正则表达式和抽取工具,能够更好地抽取这些内容. 下面介绍一种抽取工具 -- HtmlParser HtmlParser是一个用来解析H ...
爬虫技术浅析 | WooYun知识库
爬虫技术浅析 | WooYun知识库爬虫技术浅析好房通ERP | 房产中介软件最高水准领导者 undefined
爬虫技术实战 | WooYun知识库
爬虫技术实战 | WooYun知识库爬虫技术实战大数据分析与机器学习领域Python兵器谱-大数据邦-微头条(wtoutiao.com) 大数据分析与机器学习领域Python兵器谱
爬虫技术浅析 | z7y Blog
爬虫技术浅析 | z7y Blog 爬虫技术浅析

随机推荐

git中避免提交.DS_Store文件[转载]
1. 先删除原有的.DS_Store: find . -name .DS_Store -print0 | xargs -0 git rm -f --ignore-unmatch 命令解释:在当前文件夹 ...
程序员笔记|详解Eureka 缓存机制
引言 Eureka是Netflix开源的.用于实现服务注册和发现的服务.Spring Cloud Eureka基于Eureka进行二次封装,增加了更人性化的UI,使用更为方便.但是由于Eureka本身 ...
Python包管理工具setuptools之setup函数参数详解
**********************************************************对所学内容的简单汇总******************************** ...
发邮件的python脚本
1. 编写一个最简单的发邮件的python脚本 #coding: utf-8 import smtplib from email.mime.text import MIMEText from em ...
Unity 着色器训练营(2) - MVP转换和法线贴图
https://mp.weixin.qq.com/s/Qf4qT15s9bWjbVGh7H32lw 我们刚刚公布了Unity 2018.1中,Unity将会内置可视化编程工具Shader Graph, ...
POJ1141Brackets Sequence 解题报告
题目链接1 题目链接2 题目大意给出一个括号序列,添加最少的括号使序列正确解题思路先将问题简单化,从求序列退化为求最小添加括号数的问题用区间dp n³解决 f[l][r]表示使第l个到r个区间 ...
7、python数据类型之集合set
数据类型之集合setset 不允许重复的无序集合,不能通过下标取值,因为无序1.创建创建空集合 s ={} 默认类型为字典,所以不是空集合,空集合如下 s = set() s = { ...
P2675 《瞿葩的数字游戏》T3-三角圣地
传送门考虑最上面每个位置的数对答案的贡献然后就很容易发现: 如果有n层,位置 i 的数对答案的贡献就是C( n-1,i ) 然后就有很显然的贪心做法: 越大的数放越中间,这样它的贡献就会尽可能的大 ...
OpenStack git cmd
文件流转的三个工作区域:Git 的工作目录,暂存区域,以及本地仓库. 基本的 Git 工作流程如下: 在工作目录中修改某些文件. 对修改后的文件进行快照,然后保存到暂存区域. 提交更新,将保存在暂存区 ...
MapReduce实战：邮箱统计及多输出格式实现
紧接着上一篇博文我们学习了MapReduce得到输出格式之后,在这篇博文里,我们将通过一个实战小项目来熟悉一下MultipleOutputs(多输出)格式的用法. 项目需求: 假如这里有一份邮箱数据文 ...

爬虫技术-httpClent+jsoup

爬虫技术-httpClent+jsoup的更多相关文章

随机推荐

热门专题