初入爬虫(java)

public class CrawlerUtil {

    public static void main(String [] args) throws IOException {

        // 创建默认的httpClient实例.    

        CloseableHttpClient httpclient  =  HttpClients.createDefault();

// 创建httpget    

        HttpGet httpGet  = new HttpGet("http://localhost:8080/");
        CloseableHttpResponse response  =  httpclient.execute(httpGet);

        HttpEntity  entity  =  response.getEntity();

        if(entity !=null){

            System.out.println("______________________________________");

            System.out.println("Response content: "+  EntityUtils.toString(entity,"UTF-8"));

            System.out.println("______________________________________");

        }

    }

}

最近项目中有部分数据需要从另一个网址爬取，这才初次入手爬虫。

开发语言是java，通过跟前辈取经及百度，终于搞定了这个需求。

以上为简单的demo。

maven配置：

<!--<dependency>-->
<!--<groupId>commons-httpclient</groupId>-->
<!--<artifactId>commons-httpclient</artifactId>-->
<!--<version>3.1</version>-->
<!--</dependency>-->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.9.2</version>
</dependency>
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.3</version>
</dependency>

使用的工具包是httpclient（爬取数据）和jsoup（解析html）；

需要注意的事httpclient有两个版本：

1.org.apache.commons.httpclient.HttpClient；

2.org.apache.http.client.HttpClient；

但前者目前已经不再更新了，所以我使用的时候后者；

简单理解起来如下：

1.一个客户端，用来发起http请求（HttpClient.createDefault()）;

2.请求对象（get，post等，比如上面demo里的HttpGet）；

3.返回值：CloseableHttpResponse；

客户端对象操作（execute）请求对象，得到返回值：

CloseableHttpResponse response = httpclient.execute(httpGet);

上面的demo是get请求，至于post请求，就将请求参数放进一个对象里（HttpEntity里），然后将这个对象放进请求对象里（HttpPost）；

如下：

List formparams = new ArrayList();
formparams.add(new BasicNameValuePair("username","admin"));
formparams.add(new BasicNameValuePair("password","123456"));
UrlEncodedFormEntity uefEntity;
uefEntity  =  new UrlEncodedFormEntity(formparams,"UTF-8");
CloseableHttpResponse response  =  httpclient.execute(httpGet);
post.setEntity(uefEntity);

以上.-------------------------------------------------------------------------------------------------------------------

以上皆为api层的东西，当然针对不同的需求场景，还有各种参数的设置需要注意，我也只是初入此类知识.

以上为爬虫原理，至于更底层的协议等东西我暂时没有去深入，以后会慢慢系统深入.

初入爬虫(java)的更多相关文章

初入Java后端之Servlet
初入Java后端之Servlet 后端 Servlet 什么是Servlet? Servlet实际上是一个按照Servlet规范写的Java类.是运行在Web服务端的Java应用程序.与Java程序 ...
Scala初入
何为Scala物 Scala为基于JVM虚拟机中的面向对象与函数式编程思想并且完全兼容Java的混合编程语言,可以是Scala与Java是同根同源的,既然Scala与JAVA都是基于JVM之上的编程语 ...
初入SG-UAP
初入SG-UAP SpriderMan 关注 2019.06.19 14:10 字数 1130 阅读 10评论 0喜欢 0 初次接触SG-UAP,将自己的见解以文字形式记录下来,希望能对初入的伙伴们有 ...
初学HTML5、初入前端
学习HTML5是一个漫长的过程,当中会遇到很多技术与心态上的变化.刚开始学习,我们不能发力过猛,需要一个相对稳定的状态去面对.多关注一些自己感兴趣的网站和技术知识,建立自己的信心与好奇心,为以后的学习 ...
0x00linux32位汇编初入--前期准备
0x00汇编初入--前期准备一.汇编工具在linux平台下常用的编译器为as,连接器为ld,使用的文本编辑器为vim,汇编语法为att 以下是一些工具: addr2line 把地址转换为文件名和行 ...
初入职场的建议--摘自GameRes
又开始一年一度的校招了,最近跑了几个学校演讲,发现很多话用短短的一堂职业规划课讲还远远不够,因为那堂课仅仅可能帮大家多思考怎样找到一份合适的工作,并没有提醒大家怎样在工作中发展自己的职业. 见过这么多 ...
老李分享：网页爬虫java实现
老李分享:网页爬虫java实现 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨询qq:908821 ...
【Xbox one S】开箱&开机&初入坑心得
再来一发水贴,先上产品标准照镇贴: 前言身为一个资深单机游戏玩家,常年混迹在PC平台,但内心深处一直对主机有种迷之向往,感觉那才是单机游戏的正处之地,坐沙发上拿着手柄对着电视跌宕起伏才是正确的游戏姿 ...
Git初入
Git记录使用git 也有一段时间了, git的入门级了解也就不再多说, 但平常使用中, 仍然会遇到很多问题, 在此记录一二. 在查资料的过程中, 发现了两个比较好的资料: 特别是第二个, 相当详细 ...

随机推荐

Codeforces Round #512 D - Vasya and Triangle
D - Vasya and Triangle #include<bits/stdc++.h> using namespace std; #define LL long long LL gc ...
java ee wildfly 批处理 job 工作
配置批处理job,同时启动两个并行任务processData,syncTableTask,执行往后执行第三个任务job:playDurationTask. xml配置如下: <job id=&q ...
js 获取对象属性个数
js 获取对象属性个数方法一: var attributeCount = function(obj) { var count = 0; for(var i in obj) { if(obj.hasO ...
vue学习（2）
node.js介绍与npm操作 1.node就是JavaScript的一个运行环境(平台),他不是一门语言,也不是JavaScript框架,可以用来开发服务器端应用程序,web系统,其特点是体积小.快 ...
PHP冒泡排序算法
算法说明: 冒泡排序大概的意思是依次比较相邻的两个数,然后根据大小做出排序,直至最后两位数.由于在排序过程中总是小数往前放,大数往后放,相当于气泡往上升,所以称作冒泡排序.但其实在实际过程中也可以根据 ...
【精】搭建redis cluster集群，JedisCluster带密码访问【解决当中各种坑】！
转: [精]搭建redis cluster集群,JedisCluster带密码访问[解决当中各种坑]! 2017年05月09日 00:13:18 冉椿林博客阅读数:18208 版权声明:本文为博主 ...
POJ 2253 Frogger （Floyd）
Frogger Time Limit: 1000MS Memory Limit: 65536K Total Submissions:57696 Accepted: 18104 Descript ...
vmstat命令详解
一:简介 vmstat是Virtual Meomory Statistics(虚拟内存统计)的缩写,可对操作系统的虚拟内存.进程.CPU活动进行监控.他是对系统的整体情况进行统计,不足之处是无法对某个 ...
MK-编辑器
MK-编辑器 MarkdownPad 一款全功能的编辑器,被很多人称赞为windows 平台最好用的markdown编辑器好用的MK编辑器:Typora 一次打开两个界面在本文编辑器领域,Vim ...
nginx request_time 和upstream_response_time
1.request_time 官网描述:request processing time in seconds with a milliseconds resolution; time elapsed ...

初入爬虫(java)

初入爬虫(java)的更多相关文章

随机推荐

热门专题