用Head方法获得百度搜索结果的真实地址

在百度中搜索“Java”，第一条结果的链接为：

https://www.baidu.com/link?url=HBOOMbhPKH4SfI0vCLVSSJ3W1eNGX1wjwg6q4hna6L3&wd=&eqid=f7bdf9e40005b5820000000357e76187

因此需要设法将其转换为真实的网站链接：http://www.java.com/。

思路很简单：

使用 HTTP HEAD方法，会返回302 Move Permanently；
在Respons Headers中查看Location中的内容，即为要跳转到的真实地址。

使用命令行工具HttpIE试验如下：

E:\>http head https://www.baidu.com/link?url=HBOOMbhPKH4SfI0vCLVSSJ3W1eNGX1wjwg6q4hna6L3&wd=&eqid=f7bdf9e40005b5820000000357e76187

HTTP/1.1 302 Moved Temporarily

BDPAGETYPE: 3

Cache-Control: no-cache, must-revalidate

Connection: keep-alive

Content-Length: 215

Content-Type: text/html;charset=utf8

Date: Sun, 25 Sep 2016 05:40:07 GMT

Expires: Fri, 01 Jan 1990 00:00:00 GMT

Location: http://www.java.com/

Pragma: no-cache

Server: bfe/1.0.8.18

Set-Cookie: BDSVRTM=0; path=/

X-UA-Compatible: IE=Edge,chrome=1

X-XSS-Protection: 1;mode=block

最后编写Java代码如下：

public static String getRealLinkFromBaiduLink(String link){

    // 需要注意的是，这里必须 disableRedirectHandling，否则会自动进行地址的跳转

    CloseableHttpClient httpClient = HttpClients.custom().disableRedirectHandling().build();

    // 这里可以使用Http Head 方法

    HttpHead httpHead = new HttpHead(link);

    try (CloseableHttpResponse response = httpClient.execute(httpHead)) {

        int status = response.getStatusLine().getStatusCode();

        if (status == 302) {

            return response.getFirstHeader("Location").getValue();

        } else {

            return null;

        }

    } catch (Exception e) {

        e.printStackTrace();

    }

}

用Head方法获得百度搜索结果的真实地址的更多相关文章

百度乐播音乐真实地址查找api接口
1.百度乐播官网:http://lebo.baidu.com: 随便点击进去一个音乐界面,如:http://lebo.baidu.com/album/9036366 2.chrome浏览器右击'检查' ...
获取百度搜索结果的真实url以及摘要和时间
利用requests库和bs4实现,demo如下: #coding:utf- import requests from bs4 import BeautifulSoup import bs4 impo ...
百度搜索URL参数搜索关键字
http://www.baidu.com/s?wd=关键字 wd(Keyword):查询的关键词: http://www.baidu.com/s?wd=关键字&cl=3 cl(Class):搜 ...
百度搜索URL参数你知道多少
http://www.baidu.com/s?wd=关键字 wd(Keyword):查询的关键词: http://www.baidu.com/s?wd=关键字&cl=3 cl(Class):搜 ...
百度搜索URL参数
http://www.baidu.com/s?wd=关键字wd(Keyword):查询的关键词:http://www.baidu.com/s?wd=关键字&cl=3cl(Class):搜索类型 ...
百度搜索常用api
http://www.baidu.com/s?wd=关键字 wd(Keyword):查询的关键词:http://www.baidu.com/s?wd=关键字&cl=3 cl(Class):搜索 ...
Chrome谷歌浏览器屏蔽百度搜索右侧广告推荐方法
先上图百度广告,其实屏蔽广告很简单主要分成以下三步: 下载Adblock Plus插件安装Adblock Plus插件开启屏蔽一.下载Adblock Plus插件(官网离线版) 二.安装Adb ...
使用python抓取百度搜索、百度新闻搜索的关键词个数
由于实验的要求,需要统计一系列的字符串通过百度搜索得到的关键词个数,于是使用python写了一个相关的脚本. 在写这个脚本的过程中遇到了很多的问题,下面会一一道来. ps:我并没有系统地学习过pyth ...
利用 lucene.net 实现高效率的 WildcardQuery ，记一次类似百度搜索下拉关键字联想功能的实现。
打开百度输入站内搜索也要实现类似功能.最基础的做法,写个方法查数据库搜索历史综合表keywordSearch(先将被搜索过的关键字记录到一张表,记录好他们被搜索的次数.上次搜索的有多少结果) 大概 ...

随机推荐

在Ubuntu14.10中部署Hadoop2.6.0单节点伪分布集群
1. 环境信息如下: ubuntu:14.10 jdk:openjdk-1.7.0 hadoop:2.6.0 2. 下载hadoop2.6.0, http://apache.fayea.com/had ...
bitekind
xrp这个人到SNT家坐在IOST的椅子上,喝着THETA. 武之巅峰,是孤独,是寂寞,是漫漫求索,是高处不胜寒逆境中成长,绝地里求生,不屈不饶,才能堪破武之极道. 凌霄阁试炼弟子兼扫地 ...
Spark资源调度分配内幕天机彻底解密：Driver在Cluster模式下的启动、两种不同的资源调度方式源码彻底解析、资源调度内幕总结
本课主题 Master 资源调度的源码鉴赏资源调度管理任务调度与资源是通过 DAGScheduler.TaskScheduler.SchedulerBackend 等进行的作业调度资源调度是指应 ...
June 26th 2017 Week 26th Monday
I am a little tempted, but so afraid to look in your eyes. 我对你有一点动心,却如此害怕看你的眼睛. Now that you are tem ...
Linux 命令行浏览器
真是没有做不到只有想不到! Linux下竟然有命令行式的浏览器:W3m SPC向下翻页 b向上翻页 J 向下滚动一行 K 向上滚动一行 > 右移一屏 < 左移一屏 TAB 转到下个超链接 ...
【CSS】易错
1.外边距默认是透明的,因此不会遮挡其后的任何元素.2.背景应用于由内容和内边距.边框组成的区域.3.外边距可以是负值,而且在很多情况下都要使用负值的外边距.4.不要给元素添加具有指定宽度的内边距,而 ...
REG小探
根键名称缩写对照表常用数据类型
ASP.NET Web API编程——文件上传
首先分别介绍正确的做法和错误的做法,然后分析他们的不同和错误之处,以便读者在实现此功能时可避开误区 1正确的做法 public class AvaterController : BaseApiCont ...
提交文件到ng-pages分支
一.提交dist文件夹到ng-pages分支 git subtree push --prefix=dist origin gh-pages 二.提交所有文件到ng-pages分支 text git:( ...
caffe 学习(3)——Layer Catalogue
layer是建模和计算的基本单元. caffe的目录包含各种state-of-the-art model的layers. 为了创建一个caffe model,我们需要定义模型架构在一个protocol ...

用Head方法获得百度搜索结果的真实地址

用Head方法获得百度搜索结果的真实地址

用Head方法获得百度搜索结果的真实地址的更多相关文章

随机推荐

热门专题