获取百度搜索结果的真实url以及摘要和时间

利用requests库和bs4实现，demo如下：

#coding:utf-

import requests

from bs4 import BeautifulSoup

import bs4

import re

headers = {

    'User-Agent':'Chrome/68.0.3440.106'

}

def getHTMLText(url):

    try:

        r=requests.get(url,headers=headers)

        r.raise_for_status()

        r.encoding=r.apparent_encoding

        return r.text

    except:

        return ''

'''

def getHref(html):

    soup=BeautifulSoup(html,'lxml')

    for node in soup.find_all()

'''

def bdurlCode(url):

    res = requests.get(url, allow_redirects=False)

    Real_url = res.headers['location']

    return Real_url

def fillList(ulist,html):

    soup=BeautifulSoup(html,'lxml')

    for node in soup.find_all('div', {'class': 'result c-container '}):

        abstract_node = node.find('div',{'class':'c-abstract'})

        cite_node = node.find('a', {'class': 'c-showurl'})

        time_node=node.find('span',{'class':' newTimeFactor_before_abs m'})

        if not time_node:continue

        url=cite_node['href']

        url=bdurlCode(url)

        abstract=abstract_node.text

        time=time_node.text

        ulist.append([url,time,abstract])

    print(ulist)

    print(len(ulist))

uinfo=[]

url="https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E6%98%8E%E7%95%A5%E6%95%B0%E6%8D%AECTO&oq=%25E6%2598%258E%25E7%2595%25A5%25E6%2595%25B0%25E6%258D%25AE&rsv_pq=9429009d00000f0c&rsv_t=0278viP4h51Y2xMneo8a0HfaOkqnhW8wmti1KAz4ddKuKCUjeKDsh9yB1YM&rqlang=cn&rsv_enter=1&inputT=894&rsv_sug3=17&rsv_sug1=9&rsv_sug7=100&rsv_sug2=0&rsv_sug4=1273&rsv_sug=1"

html=getHTMLText(url)

fillList(uinfo,html)

获取百度搜索结果的真实url以及摘要和时间的更多相关文章

用Head方法获得百度搜索结果的真实地址
用Head方法获得百度搜索结果的真实地址在百度中搜索"Java",第一条结果的链接为: https://www.baidu.com/link?url=HBOOMbhPKH4SfI ...
获取搜索结果的真实URL、描述、标题
1.场景爬虫练手代码 2.代码 Python2: #!/usr/bin/python # -*- coding:utf-8 -*- import requests from lxml import ...
python采集百度搜索结果带有特定URL的链接
#coding utf-8 import requests from bs4 import BeautifulSoup as bs import re from Queue import Queue ...
js 获取百度搜索关键词的代码
有可能有时候我们会用到在百度搜什么关键词进来我们的网站的,所有我们又想拿到用户搜索的关键词. 这是我研究了半天所得出的办法.话不多说直接贴代码 <script> function quer ...
【Python学习笔记六】获取百度搜索结果以及百度返回“百度安全验证”问题解决
1.获取百度搜索结果页面主要是修改百度搜索url中的参数实现,例如查询的关键字为wd: 举例:https://www.baidu.com/s?wd=python",这样就可以查询到‘pyth ...
jsonp模拟获取百度搜索相关词汇
随便写了个jsonp模拟百度搜索相关词汇的小demo,帮助新手理解jsonp的用法. <!DOCTYPE html><html lang="en">< ...
Java 获取网络重定向文件的真实URL
其实Java 使用HttpURLConnection下载的的时候,会自动下载重定向后的文件,但是我们无法获知目标文件的真实文件名,文件类型,用下面的方法可以得到真实的URL,下面是一个YOUKU视频的 ...
解析百度搜索结果链接的url，获取真正的url
通常,在百度输入关键词搜索出现的列表页,点击目标链接,然而跳转的时候却是百度地址,经过百度解析,才真的跳到目标页面. 在SEO中,经常需要看下自己的网站排名,又不想手动每天手动去点,可用以下方法去得到 ...
PHP 批量获取百度搜索结果网址列表
<?php set_time_limit(0); function curl($url){ $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $u ...

随机推荐

Python — 多线程与多进程
1.多线程线程是操作系统能够进行运算调度的最小单位.它被包含在进程之中,是进程中的实际运作单位,一个进程可以包含多个线程.一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线 ...
RabbitMQ学习系列三：.net 环境下 C#代码订阅 RabbitMQ 消息并处理
上一篇已经讲了Rabbitmq如何在Windows平台安装不懂请移步: RabbitMQ学习系列二:.net 环境下 C#代码使用 RabbitMQ 消息队列一.理论 .net环境下,C#代码订阅 ...
nyoj-1099-Lan Xiang's Square（几何，水题）
题目链接 /* Name:nyoj-1099-Lan Xiang's Square Copyright: Author: Date: 2018/4/26 9:19:19 Description: 给4 ...
3.MySQL优化---单表查询优化的一些小总结(非索引设计)
整理自互联网.摘要: 接下来这篇是查询优化.其实,大家都知道,查询部分是远远大于增删改的,所以查询优化会花更多篇幅去讲解.本篇会先讲单表查询优化(非索引设计).然后讲多表查询优化.索引优化设计以及库表 ...
图片上传-本地图片转base64+ie8支持+本地预览支持
最近项目由于flash同学没在了,图片上传只能前端重新做,后台希望用base64数据上传,复用之前接口问题来了, 1.ie8 不支持canvas转base64 2.本地预览 base64数据,ie8 ...
dedecms列表页文章有图调用缩略图无图留空或自定义图片的方法！
默认情况下,织梦的文章列表页会调用出当前栏目下的文章列表,并且调用出每个文章的缩略图:如果文章本身就有图,会调用出一张小图,如果没有,则会显示默认的织梦图片.这种处理方式有时候比较影响美观,其实可以修 ...
[基本操作] kd 树
概念就不说了吧,网上教程满天飞学了半天才知道,kd 树实质上只干了两件事情: 1.快速定位一个点 / 矩形 2.有理有据地优化暴力第一点大概是可以来做二维平面上给点/矩形打标记的问题第二点大概是 ...
Gym - 100623J Just Too Lucky (数位dp)
给定n∈[1,1e12],求1到n的所有整数中,各位数字之和能整除它本身的数的个数. 这道题与UVA-11361类似,假如设dp[u][lim][m1][m2]为枚举到第u位(从低到高数),是否受限, ...
关于yii的日志路由组件的配置问题
最近突然意识到日志是很好滴debug工具,所以研究了一下yii的日志配置,想想应该还会有像我这样的小白不懂这些问题的,就分享一下了.有错误烦请大神们指出config/main.php 中配置,这个想必 ...
微信小程序写音乐播放器 slider组件将value设置为0 真机测试滑块不能回到起点
最近在用微信小程序写一个音频播放页面,做时间进度的时候用到了slider插件,但是在自然播放完成,或者上/下切换的时候,将slider的value属性值设为0,开发工具上滑块会回到起点,有效.但是真机 ...

获取百度搜索结果的真实url以及摘要和时间

获取百度搜索结果的真实url以及摘要和时间的更多相关文章

随机推荐

热门专题