爬虫--requests模块学习

requests模块

- 基于如下5点展开requests模块的学习

什么是requests模块
- requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。
为什么要使用requests模块
- 因为在使用urllib模块的时候，会有诸多不便之处，总结如下：
  - 手动处理url编码
  - 手动处理post请求参数
  - 处理cookie和代理操作繁琐
  - ......
- 使用requests模块：
  - 自动处理url编码
  - 自动处理post请求参数
  - 简化cookie和代理操作
  - ......
如何使用requests模块
- 安装：
  - pip install requests
- 使用流程
  - 指定url
  - 基于requests模块发起请求
  - 获取响应对象中的数据值
  - 持久化存储
通过5个基于requests模块的爬虫项目对该模块进行学习和巩固
- 基于requests模块的get请求
  - 需求：爬取搜狗指定词条搜索后的页面数据
- 基于requests模块的post请求
  - 需求：登录豆瓣电影，爬取登录成功后的页面数据
- 基于requests模块ajax的get请求
  - 需求：爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据
- 基于requests模块ajax的post请求
  - 需求：爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数据
- 综合练习
  - 需求：爬取搜狗知乎指定词条指定页码下的页面数据

1、基于requests模块的get请求--不带参数

- 需求：爬取搜狗首页数据

import requests

# 1.指定url

url = 'https://www.sogou.com/'   # 不带参数

# 2.发起一个get请求,get方法会返回 请求成功后的响应对象

response = requests.get(url=url)

# 3.获取响应中的数据值:text可以获取响应对象中的字符串形式的页面数据

page_data = response.text

#print(page_data)

# 持久化操作

with open('./sogou.html','w',encoding='utf-8')as f:

    f.write(page_data)

response对象中其他重要的属性

# response对象中其他重要的属性

import requests

# 1.指定url--用于请求的目标网站

url = 'https://www.sogou.com/'

# 2.发起一个get请求,get方法会返回 请求成功后的响应对象

response = requests.get(url=url)

# content获取的是response对象中二进制（byte）类型的页面数据

#print(response.content)

# 返回一个响应状态码

#print(response.status_code)

# 返回响应头信息--字典的形式

#print(response.headers)

# 获取请求的url

print(response.url)

- requests模块如何处理携带参数的get请求

- 需求：指定一个词条，获取搜狗搜索结果所对应的页面数据

# 方式1

import requests

# 1指定url

url = 'https://www.sogou.com/web?query=周杰伦&ie=utf8'  #带参数

# 获取响应对象

response = requests.get(url=url)

page_text = response.text

# 持久化存储

with open('./zhou.html','w',encoding='utf-8')as f:

    f.write(page_text)

-------------------------------------------------------------------------

# 方式2：

import requests

url = 'https://www.sogou.com/web'

# 将参数封装到字典中

params = {'query':'周杰伦','ie':'utf8'}

response  = requests.get(url=url,params=params)

response.status_code

#print(response.content)

requests--自定义请求头信息

# 自定义请求头信息

import requests

url = 'https://www.sogou.com/web'

# 将参数封装到字典中

params = {'query':'周杰伦','ie':'utf8'}

# 自定义请求头信息

# 此处用的百度的UA

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

# 拿到响应对象

response = requests.get(url=url,params=params,headers=headers)

response.status_code

request模块的post请求

需求：登录豆瓣电影，爬取登录成功后的页面数据---测试成功

点击登陆后

----------------------------------------------------------------------------------------------------------------------------

------------------------------------

import requests

# 1.指定post请求的url

url = 'https://accounts.douban.com/login'

# 封装post请求的参数

data = {

'source':'movie',
'redir':'https://movie.douban.com/',
'form_email':'你的豆瓣邮箱',
'form_password':'你的登录密码',
'login':'登录',

}

# 自定义请求头信息

# 此处用的百度的UA

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

# 拿到响应对象

# 2.发起post请求

response = requests.post(url=url,data=data,headers=headers)

response.status_code

# 3.获取响应对象的页面数据

page_text = response.text

# 持久化存储

with open('./douban.html','w',encoding='utf-8')as f:

    f.write(page_text)

基于requests模块ajax的get请求

爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据

选择一个种类的电影：点击加载更多

点击加载更多--ajax异步-get请求--局部刷新

------------------------

import requests

# url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=20'

 #指定ajax-get请求的url（通过抓包进行获取）

url = 'https://movie.douban.com/j/search_subjects?'

params = {

'type':'movie',

'tag':'热门',

'sort':'recommend',

'page_limit':'',

'page_start':'',

}

# 自定义请求头信息

# 此处用的百度的UA

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

response = requests.get(url=url,params=params,headers=headers)

# 3.获取响应对象的页面数据

page_text = response.text

print(page_text)
---------------------------------------

基于ajax的post请求

- 爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数据

点击查询是ajax异步请求，局部刷新

import requests

post_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'

#  处理post请求的参数

data = {

'cname':'',

'pid':'',

'keyword':'北京',

'pageIndex':'',

'pageSize':'',

}

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

# 发起基于ajax的post请求

response = requests.post(url=post_url,data=data,headers=headers)

# 3.获取响应对象的页面数据

page_text = response.text

print(page_text)

综合实战

需求：爬取搜狗知乎指定词条指定页码下的页面数据
具有分页的爬取

http://zhihu.sogou.com/zhihu?query=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&page=2&ie=utf8

----------------------------------------------

# 前三页的数据{1,2,3}

import requests

import os

# 创建一个文件夹

if not os.path.exists('./pages'):

    os.mkdir('./pages')

# s搜索词条

word = input('enter a word')

# 动态指定页码的范围

start_page = int(input('enter a start pageNum:'))

end_page = int(input('enter a end pageNum'))

# 1.指定url--设计成一个具有通用的url

url = 'http://zhihu.sogou.com/zhihu'

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

# 循环取页面值 -- page

for page in range(start_page,end_page+1):

    params = {'query':word,'page':page,'ie':'utf-8'}

    response = requests.get(url=url,params=params,headers=headers)

    # 获取响应中页面数据（指定页码(page)）

    page_text = response.text

    # 进行持久化处理

    fileName = word+str(page)+'.html'

    filePath = 'pages/'+fileName

    with open(filePath,'w',encoding='utf-8')as f:

        f.write(page_text)

        print(f"第{page}页数据写入成功")

# get ===>params

# post===>data