python使用关键字爬取url

python网路爬虫 --------- 使用百度输入的关键字搜索内容然后爬取搜索内容的url

开发环境：windows7+python3.6.3

开发语言：Python

开发工具：pycharm

第三方软件包：需安装lxml4.0，如果只安装lxml会出错，要需要lxml中的etree

废话不多说，贴上代码：

爬取数据保存以TXT格式保存，等会尝试使用Excel表格跟数据库保存。

 import requests,time

 from lxml import etree

 def Redirect(url):

     try :

         res = requests.get(url,timeout=10)

         url = res.url

     except Exception as e:

         print('',e)

         time.sleep(1)

     return url

 def baidu_search(wd,pn_max,sav_file_name):

     url = 'http://www.baidu.com/s'

     return_set = set()

     for page in range(pn_max):

         pn = page*10

         querystring = {'wd':wd,'pn':pn}

         headers = {

             'pragma':'no-cache',

             'accept-encoding': 'gzip,deflate,br',

             'accept-language' : 'zh-CN,zh;q=0.8',

             'upgrade-insecure-requests' : '',

             'user-agent': "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0",

             'accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

             'cache-control': "no-cache",

             'connection': "keep-alive",

         }

         try :

             response = requests.request('GET',url,headers=headers,params=querystring)

             print('!!!!!!!!!!!!!!',response.url)

             selector = etree.HTML(response.text,parser = etree.HTMLParser(encoding='utf-8'))

         except Exception as e:

             print('页面加载失败',e)

             continue

         with open(sav_file_name,'a+') as f:

             for i in range(1,10):

                 try :

                     context = selector.xpath('//*[@id="'+str(pn+i)+'"]/h3/a[1]/@href')

                     print(len(context),context[0])

                     i = Redirect(context[0])

                     print('context='+context[0])

                     print ('i='+i)

                     f.write(i)

                     f.write('\n')

                     break

                     return_set.add(i)

                     f.write('\n')

                 except Exception as e:

                     print(i,return_set)

                     print('',e)

     return return_set

 if __name__ == '__main__':

     wd = '网络贷款'

     pn = 100

     save_file_name = 'save_url_soup.txt'

     return_set = baidu_search(wd,pn,save_file_name)

python使用关键字爬取url的更多相关文章

【网络爬虫】【java】微博爬虫（一）：小试牛刀——网易微博爬虫（自定义关键字爬取微博数据）（附软件源码）
一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
如何手动写一个Python脚本自动爬取Bilibili小视频
如何手动写一个Python脚本自动爬取Bilibili小视频国庆结束之余,某个不务正业的码农不好好干活,在B站瞎逛着,毕竟国庆嘛,还让不让人休息了诶-- 我身边的很多小伙伴们在朋友圈里面晒着出去游玩 ...
Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
python爬虫实例——爬取歌单
学习自<<从零开始学python网络爬虫>> 爬取酷狗歌单,保存入csv文件直接上源代码:(含注释) import requests #用于请求网页获取网页数据 from b ...
14.python案例：爬取电影天堂中所有电视剧信息
1.python案例:爬取电影天堂中所有电视剧信息 #!/usr/bin/env python3 # -*- coding: UTF-8 -*- '''======================== ...

随机推荐

Java 中三大构建工具：Ant、Maven和Gradle
Java世界中主要有三大构建工具:Ant.Maven和Gradle 目前:Ant已经销声匿迹.Maven也没落了,而Gradle的发展则如日中天. Maven的主要功能主要分为5点,分别是依赖管理系统 ...
LearnOpenGL学习笔记（四）——着色器类编写
之前我们将着色器的代码用glsl写好之后,保存为字符串指针,然后用一个函数去编译它,这是一种手段,对于简单的着色器代码可以这样.但当我们针对复杂的着色器,我们发现编写.编译.管理着色器是一件麻烦事.我 ...
为springboot项目添加springboot-admin监控
我们知道spring-boot-actuator暴露了大量统计和监控信息的端点,spring-boot-admin 就是为此提供的监控项目. 先来看看大概会提供什么样的功能从图中可以看出,主要内容都 ...
Netty 超时机制及心跳程序实现
Netty 超时机制的介绍 Netty 的超时类型 IdleState 主要分为: ALL_IDLE : 一段时间内没有数据接收或者发送 READER_IDLE : 一段时间内没有数据接收 WRITE ...
JS判断是否是数组的四种做法
一.前言如何判断一个对象或一个值是否是一个数组,在面试或工作中我们常常会遇到这个问题,既然出现频率高,想着还是做个整理,那么本文主要基于几种判断方式,以及方式判断的原理,是否存在问题展开讨论. 二. ...
前后端分离demo 旅馆管理系统
模型设计旅馆管理系统,主要涉及到登记入住,退房以及客房和客人信息管理:经过分析抽像出涉及到的实体以及各实体之间的关系: 可以看出整个业务以客房为中心,入住,退房,定价,收费都是以客房为基本单 ...
所生成项目的处理器架构“MSIL”与引用“Microsoft.AspNet.Scaffolding.12.0, Version=12.0.0.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a, processorArchitecture=x86”的处理器架构“x86”不匹配。
生成成功后: 3>C:\Program Files (x86)\MSBuild\14.0\bin\Microsoft.Common.CurrentVersion.targets(1820,5): ...
[PHP] 算法-快速排序的PHP实现
快速排序: 1.基于二分的思想 2.第一个作为基准数,左右各一个指针,同时扫描,右边先走,找到比基准数小的停下左边再走,找到比基准数大的停下,左右交换 3.当左右相遇的时候,把当前的和基准数调换,递 ...
服务器端事件发送SSE
背景近期有这么一个需求: 手机端需要展示一个比较大的pdf 基于手机端网络/流量/体验等考虑,希望不通过pdf下载然后展示而是把pdf转成一张张的图片,然后再在手机上展示. 分析 pdf转图片,肯 ...
SQL Server 连接(内连接，外连接，完全连接，交叉连接，联合)
1.连接有时候需要将连个表的数据合并成一个结果集来显示.为了解决这个问题,就需要用到JOIN连接. 2.内部连接内部连接根据一个或几个共同的字段将记录匹配到一起.内部连接仅仅返回那些存在字段匹配的 ...

python使用关键字爬取url

python使用关键字爬取url的更多相关文章

随机推荐

热门专题