爬虫系列之requests

爬取百度内容：

 import requests

 url = "https://www.baidu.com"

 if __name__ == '__main__':

     try:

         kv = {'user-agent': 'Mozilla/5.0'}

         r = requests.get(url, headers=kv)

         r.raise_for_status()  #返回状态值，如果不是200，则抛出异常

         r.encoding = r.apparent_encoding

         print(r.text)

         #print(r.request.headers)

     except:

         print("爬虫失败")

在URL中填上http://www.baidu.com/s?wd=keyword，keyword就是我们要百度搜索的内容，在requests中有params参数，可以把参数追加到URL中。

 import requests

 url = "http://www.baidu.com/s"

 keyword = "python"

 if __name__ == '__main__':

     try:

         kv = {'user-agent': 'Mozilla/5.0'}

         wd = {'wd': keyword}

         r = requests.get(url, headers=kv, params=wd)

         print(r.request.url)

         r.raise_for_status()

         r.encoding = r.apparent_encoding

         print(len(r.text))

     except:

         print("爬虫失败")

爬取图片

 import requests

 import os

 url = "http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"

 kv = {'header': 'Mozilla/5.0'}

 root = "D://pic_save//"

 path = root + url.split('/')[-1]

 if __name__ == '__main__':

     try:

         if not os.path.exists(root):

             os.mkdir(root)

         if not os.path.exists(path):

             r = requests.get(url, headers=kv)

             print(r.status_code)

             with open (path, 'wb') as f:

                 f.write(r.content)

                 print("文件已保存成功")

         else:

             print("文件已存在")

     except:

         ("爬虫失败")

爬虫系列之requests的更多相关文章

爬虫系列(七) requests的基本使用
一.requests 简介 requests 是一个功能强大.简单易用的 HTTP 请求库,可以使用 pip install requests 命令进行安装下面我们将会介绍 requests 中常用 ...
爬虫系列(八) 用requests实现天气查询
这篇文章我们将使用 requests 调用天气查询接口,实现一个天气查询的小模块,下面先贴上最终的效果图 1.接口分析虽然现在网络上有很多免费的天气查询接口,但是有很多网站都是需要注册登陆的,过程比 ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
爬虫系列(三) urllib的基本使用
一.urllib 简介 urllib 是 Python3 中自带的 HTTP 请求库,无需复杂的安装过程即可正常使用,十分适合爬虫入门 urllib 中包含四个模块,分别是 request:请求处理模 ...
爬虫系列(九) xpath的基本使用
一.xpath 简介究竟什么是 xpath 呢?简单来说,xpath 就是一种在 XML 文档中查找信息的语言而 XML 文档就是由一系列节点构成的树,例如,下面是一份简单的 XML 文档: &l ...
爬虫系列(二) Chrome抓包分析
在这篇文章中,我们将尝试使用直观的网页分析工具(Chrome 开发者工具)对网页进行抓包分析,更加深入的了解网络爬虫的本质与内涵 1.测试环境浏览器:Chrome 浏览器浏览器版本:67.0.33 ...
爬虫系列(四) 用urllib实现英语翻译
这篇文章我们将以百度翻译为例,分析网络请求的过程,然后使用 urllib 编写一个英语翻译的小模块 1.准备工作首先使用 Chrome 浏览器打开百度翻译,这里,我们选择 Chrome 浏览器 ...
爬虫系列(五) re的基本使用
1.简介究竟什么是正则表达式 (Regular Expression) 呢?可以用下面的一句话简单概括: 正则表达式是一组特殊的字符序列,由一些事先定义好的字符以及这些字符的组合形成,常常用于匹 ...

随机推荐

tensorflow学习4-过拟合-over-fitting
过拟合: 真实的应用中,并不是让模型尽量模拟训练数据的行为,而是希望训练数据对未知做出判断. 模型过于复杂后,模型会积极每一个噪声的部分,而不是学习数据中的通用趋势.当一个模型的参数比训练数据还要多 ...
Linux基础命令---显示域名ypdomainname
ypdomainname ypdomainname指令显示由函数“getdomainname”返回的主机域名,使用这个指令也可以设置一个主机NIS/YP域名. 此命令的适用范围:RedHat.RH ...
nodejs核心技术
一.知识结构: http模块:配置简单的web服务,npm/cnpm工具 express框架:express中间件进行服务配置:路由:请求处理: DB服务:学习使用mysql关系型数据库: web接 ...
JustOj 1927: 回文串
题目描述回文串是从左到右或者从右到左读起来都一样的字符串,试编程判别一个字符串是否为回文串. 输入输入一个字符串.串长度<255. 输出判别输入的字符串是否为回文串,是输出"Y& ...
hive 中简单的udf函数编写
.注册函数,使用using jar方式在hdfs上引用udf库. $hive.注销函数,只需要删除mysql的hive数据记录即可. delete from func_ru ; delete from ...
怎样从外网访问内网Django？
本地安装了一个Django,只能在局域网内访问,怎样从外网也能访问到本地的Django呢?本文将介绍具体的实现步骤. 准备工作安装并启动Django 默认安装的Django端口是8000. 实现步骤 ...
IP代理
import requests # 定义爬取url地址 base_url = 'https://www.baidu.com/' # 定义代理IP地址 proxies = {'http':'http:/ ...
Docker学习笔记之为容器配置网络
0x00 概述在互联网时代,网络已经成为绝大多数应用进行数据交换的主要通道,Docker 作为集群部署的利器,在网络支持上也下了许多功夫.功能丰富和强大,并不代表使用复杂,在 Docker 的封装下 ...
Linux centos7下php安装cphalcon扩展的方法
说明: 操作系统:CentOS7 php安装目录:/usr/local/php php.ini配置文件路径:/usr/local/php/etc/php.ini 运行环境:LNMP ,PHP7 .安装 ...
DGUT_FLY退役贴 && FunCfans毕业总结-竞赛篇
严格来说我们飞跃队是去年ECFinal之后就退役的,只是这几个月有一堆事情在那,考研的考研,求职的求职,都把博客晾一边了.现在,总算能写点东西了. 我与ACM-ICPC的结缘,是从大一开学1个多月后开 ...

爬虫系列之requests

爬虫系列之requests的更多相关文章

随机推荐

热门专题