基于HttpClient、Jsoup的爬虫获取指定网页内容

　　不断尝试，发现越来越多有趣的东西，刚刚接触Jsoup感觉比正则表达式用起来方便，但也有局限只适用HTML的解析。

不能尝试运用到四则运算中（工作室刚开始联系的小程序）。

　　在原来写的HttpClient获取网页内容的基础上，增加对网页的解析。

　下面是实现对网页中电影分类的链接信息的爬取。

import org.apache.http.HttpEntity;

import org.apache.http.HttpResponse;

import org.apache.http.client.HttpClient;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.util.EntityUtils;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Main {

    public static void main(String[] args) throws IOException{

        try {

            //创建client实例

            HttpClient client= HttpClients.createDefault();

            //创建httpget实例

            HttpGet httpGet=new HttpGet("http://www.btba.com.cn");

            //执行 get请求

            HttpResponse response=client.execute(httpGet);

            //返回获取实体

            HttpEntity entity=response.getEntity();

            //获取网页内容，指定编码

            String web= EntityUtils.toString(entity,"UTF-8");

            //输出网页

            System.out.println(web);

            Document doc= Jsoup.parse(web);

            Elements links=doc.select("a[href~=http://www.btba.com.cn/type/*]");//选择器，选取特征信息

            String webs=null;

            for (Element link:links) {

                webs=link.attr("abs:href").toString();

                System.out.println(webs+"\t\t"+link.text());//输出特征信息

            }

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

}

下一步，将完成电影链接及电影相关信息的爬取。

基于HttpClient、Jsoup的爬虫获取指定网页内容的更多相关文章

基于apache —HttpClient的小爬虫获取网页内容
今天(17-03-31)忙了一下午研究webmagic,发现自己还太年轻,对于这样难度的框架(类库) 还是难以接受,还是从基础开始吧,因为相对基础的东西教程相多一些,于是乎我找了apache其下的 H ...
基于HttpClient实现网络爬虫~以百度新闻为例
转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/40891791 基于HttpClient4.5实现网络爬虫请訪问这里:http:/ ...
函数用途：同一域名对应多个IP时，获取指定服务器的远程网页内容
<?php /************************ * 函数用途:同一域名对应多个IP时,获取指定服务器的远程网页内容 * 创建时间:2008-12-09 * 创建人:张宴(img. ...
基于java的网络爬虫框架(实现京东数据的爬取，并将插入数据库)
原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平 ...
httpclient+Jsoup总结
Jsoup.parse解析HTML字符串,如Jsoup.parse("<html><head><title>Firstparse</title> ...
【java爬虫】---爬虫+基于接口的网络爬虫
爬虫+基于接口的网络爬虫上一篇讲了[java爬虫]---爬虫+jsoup轻松爬博客,该方式有个很大的局限性,就是你通过jsoup爬虫只适合爬静态网页,所以只能爬当前页面的所有新闻.如果需要爬一个网站 ...
python 全栈开发，Day140(RabbitMQ,基于scrapy-redis实现分布式爬虫)
一.RabbitMQ 队列在生产者消费模型中,比如去餐馆吃饭的例子.生产者相当于厨师,队列相当于服务员,消费者就是你. 我们必须通过服务员,才能吃饭! 如果队列满了,队列会一直hold住.必须让消费 ...
基于 Scrapy-redis 的分布式爬虫详细设计
基于 Scrapy-redis 的分布式爬虫设计目录前言安装环境 Debian / Ubuntu / Deepin 下安装 Windows 下安装基本使用初始化项目创建爬虫运行爬虫 ...
HttpClient+jsoup登录+解析 163邮箱
找了几个,只有这个靠谱,用的是httpclient4,另外还需要commons-lang和jsoup包 http://jsoup.org/ http://www.oschina.net/code/sn ...

随机推荐

[性能测试] LoadRunner结果分析 – TPS（转）
[性能测试] LoadRunner结果分析 – TPS 针对吞吐率和 TPS 的关系,这个在结果分析中如何使用,就个人经验和朋友讨论后,提出如下建议指导,欢迎同僚指正. 相关定义响应时间 = 网络响 ...
nginx.conf 详细
##定义nginx运行的用户各用户组user nginx nginx; ##nginx进程数,建议设置与cpu核心数一致worker_processes 1; ##全局错误日志定义类型[ debug ...
2B01-View-Switcher
Gallery和swithcer联合使用 /* * Copyright (C) 2007 The Android Open Source Project * * Licensed under the ...
如何给unity3d工程加入依赖的android工程
最近在忙着接平台的事,需要接入各种各样的android平台sdk来发布.在接sdk的时候遇到了这样的一个情况,有点麻烦,所以纪录一下. 有些sdk的接入是提供jar包,这样的可以简单地将jar包制作成 ...
mysql之select into outfile
参见:http://dev.mysql.com/doc/refman/5.1/en/select-into.html 例子: SELECT a,b,a+b INTO OUTFILE '/tmp/res ...
从‘void*’到‘int’的转换损失精度
在CentOS6.2 64位下编译一下代码,不通过,提示 ./11_2.cpp: In function ‘int main(int, char**)’:./11_2.cpp:28: 错误:从‘voi ...
[Android]生成heap dump文件(.hprof)
Android生成heap dump文件(.hprof) 一个heap dump就是一个程序heap的快照,能够获知程序的哪些部分正在使用大部分的内存. 它保存为一种叫做HPROF的二进制格式.对于A ...
ng file上传同域非同域
跨域 vm.uploadFiles = function (file, errFiles) { if (file) { file.upload = Upload.upload({ url: vm.up ...
关于Python的Object继承
今天在Coding的使用,使用了python的单例模式,发现了一个很有趣的问题. class x(object): __se = None a = None def __new__(cls): if ...
Spark OOM：java heap space，OOM:GC overhead limit exceeded解决方法
问题描述: 在使用spark过程中,有时会因为数据增大,而出现下面两种错误: java.lang.OutOfMemoryError: Java heap space java.lang.OutOfMe ...

基于HttpClient、Jsoup的爬虫获取指定网页内容

基于HttpClient、Jsoup的爬虫获取指定网页内容的更多相关文章

随机推荐

热门专题