1 package com.lw.httpclient.test;

 2 import org.apache.http.client.methods.CloseableHttpResponse;

 3 import org.apache.http.client.methods.HttpGet;

 4 import org.apache.http.impl.client.CloseableHttpClient;

 5 import org.apache.http.impl.client.HttpClients;

 6 import org.apache.http.util.EntityUtils;

 7

 8 public class HttpClientTest {

 9     public static void main(String[] args) throws Exception {

10         // TODO Auto-generated method stub

11         get1();

12         get2();

13     }

14     /**

15      * 获取指定链接的网页的内容【初级版】

16      * @throws Exception

17      */

18     public static void get1()throws Exception{

19         //HttpClient hc=new DefaultHttpClient();

20         String url="http://www.budejie.com";

21         url="http://www.btba.com.cn";//网站限制爬，这种方式不再实用。

22         CloseableHttpClient chc=HttpClients.createDefault();

23         HttpGet hg=new HttpGet(url);

24         CloseableHttpResponse chp=chc.execute(hg);

25         System.out.println(EntityUtils.toString(chp.getEntity(),"UTF-8"));

26     }

27     /**

28      * 通过模拟浏览器获取指定链接的页面

29      * @throws Exception

30      */

31     public static void get2()throws Exception{

32         CloseableHttpClient closeableHttpClient=HttpClients.createDefault();

33         String url="http://www.btba.com.cn";

34         HttpGet httpGet=new HttpGet(url);

35         //设置请求头，模拟浏览器访问

36         httpGet.setHeader("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0");

37         CloseableHttpResponse chr=closeableHttpClient.execute(httpGet);

38         System.out.println(EntityUtils.toString(chr.getEntity(),"UTF-8"));

39     }

40 }

未完待续

将会添加如何解析获取到的内容，得到自己想要的部分。。

【apache】使用HttpClient，进行简单网页抓取的更多相关文章

Java实现简单网页抓取
需求说明:使用Java抓取网页信息,并以字符串的形式返回. 使用Java代码实现: package net.ibuluo.spider.util; import java.io.IOException ...
Python实现简单的网页抓取
现在开源的网页抓取程序有很多,各种语言应有尽有. 这里分享一下Python从零开始的网页抓取过程第一步:安装Python 点击下载适合的版本https://www.python.org/ 我这里选择 ...
Java开源网页抓取工具httpClient以及jsoup
网上看到不错的Java网页抓取工具和库先记录一下使用java开源工具httpClient及jsoup抓取解析网页数据
java网页抓取
网页抓取就是,我们想要从别人的网站上得到我们想要的,也算是窃取了,有的网站就对这个网页抓取就做了限制,比如百度直接进入正题 //要抓取的网页地址 String urlStr = "http ...
网页抓取：PHP实现网页爬虫方式小结
来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现 ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
Python爬虫之三种网页抓取方法性能比较
下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块. 1. 正则表达式如果你对正则表达式还不熟悉,或是需要一些提 ...
实现织梦dedecms百度主动推送(实时)网页抓取
做百度推广的时候,如何让百度快速收录呢,下面提供了三种方式,今天我们主要讲的是第一种. 如何选择链接提交方式 1.主动推送:最为快速的提交方式,推荐您将站点当天新产出链接立即通过此方式推送给百度,以保 ...
Web Scraping（网页抓取）基本原理 - 白话篇
本文主要介绍 Web Scraping 的基本原理,基于Python语言,大白话,面向可爱的小白(^-^). 易混淆的名称: 很多时候,大家会把,在网上获取Data的代码,统称为"爬虫&qu ...

随机推荐

P3160 [CQOI2012]局部极小值题解（状压DP+容斥）
题目链接 P3160 [CQOI2012]局部极小值双倍经验,双倍快乐解题思路存下来每个坑(极小值点)的位置,以这个序号进行状态压缩. 显然,$4*7$的数据范围让极小值点在8个以内(以下示 ...
U盘重装系统：手把手教你怎么使用U盘重装系统、清除登录密码
前言之前讲过<不懂电脑也能自己重装系统,可视化傻瓜式一键重装系统不求人!!!>,这是针对可以正常开机的情况下直接使用浏览器功能重装系统, 那不能正常开机或者忘记密码的怎么办呢? 不慌,今 ...
P1962 斐波那契数列【矩阵快速幂】
一.题目 P1962 斐波那契数列二.分析比较基础的递推式转换为矩阵递推,这里因为$n$会超出$int$类型,所以需要用矩阵快速幂加快递推. 三.AC代码 1 #include <bits/ ...
ELK（ElasticSearch+Logstash+Kibana）配置中的一些坑基于7.6版本
三个组件都是采用Docker镜像安装,过程简单不做赘述,直接使用Docker官方镜像运行容器即可,注意三个组件版本必须一致. 运行容器时最好将三个组件的核心配置文件与主机做映射,方便直接在主机修改不用 ...
C#无边框窗体拖动代码
1.重写 protected override void WndProc(ref Message m) { if (m.Msg == 163 && this.ClientRectang ...
Java学习之随机数的用法
•前言随机数的产生在一些代码中很常用,也是我们必须要掌握的. 而 Java 中产生随机数的方法主要有三种: new Random() Math.random() currentTimeMillis( ...
力扣 - 92. 反转链表II
目录题目思路1(迭代) 代码复杂度分析思路2(递归) 代码复杂度分析题目 92. 反转链表 II 思路1(迭代) 将反转链表分成3个部分:前一段未反转的部分.待反转链表部分.后一段未反转部 ...
javascript常用方法封装
1,获取链接上的参数 getQueryString = (name, search) => { search = search || window.location.search.substr( ...
阿里妈妈Java后端社招5面（Offer已拿）
最近由于个人原因, 由于前面两面的时间过去的有点久了,只能根据记忆大概写些记得问题. 阿里妈妈1面 40mins(2021-02-22) 1. 能简单介绍下自己和自己做的项目吗? 2. 关于项目的 ...
java io系列
java io系列01之 "目录" java io系列02之 ByteArrayInputStream的简介,源码分析和示例(包括InputStream) java io系列03之 ...

【apache】使用HttpClient，进行简单网页抓取

未完待续

将会添加如何解析获取到的内容，得到自己想要的部分。。

【apache】使用HttpClient，进行简单网页抓取的更多相关文章

随机推荐

热门专题