requests模块处理cookie,代理ip，基于线程池数据爬取

引入

有些时候，我们在使用爬虫程序去爬取一些用户相关信息的数据（爬取张三“人人网”个人主页数据）时，如果使用之前requests模块常规操作时，往往达不到我们想要的目的。

一.基于requests模块的cookie操作

- cookie概念：当用户通过浏览器首次访问一个域名时，访问的web服务器会给客户端发送数据，以保持web服务器与客户端之间的状态保持，这些数据就是cookie。

　思路：

　　　　1.我们需要使用爬虫程序对人人网的登录时的请求进行一次抓取，获取请求中的cookie数据

　　　　2.在使用个人信息页的url进行请求时，该请求需要携带 1 中的cookie，只有携带了cookie后，服务器才可识别这次请求的用户信息，方可响应回指定的用户信息页数据

import requests

if __name__ == "__main__":

    #登录请求的url（通过抓包工具获取）

    post_url = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=201873958471'

    #创建一个session对象，该对象会自动将请求中的cookie进行存储和携带

    session = requests.session()

   #伪装UA

    headers={

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',

    }

    formdata = {

        'email': '',

        'icode': '',

        'origURL': 'http://www.renren.com/home',

        'domain': 'renren.com',

        'key_id': '',

        'captcha_type': 'web_login',

        'password': '7b456e6c3eb6615b2e122a2942ef3845da1f91e3de075179079a3b84952508e4',

        'rkey': '44fd96c219c593f3c9612360c80310a3',

        'f': 'https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3Dm7m_NSUp5Ri_ZrK5eNIpn_dMs48UAcvT-N_kmysWgYW%26wd%3D%26eqid%3Dba95daf5000065ce000000035b120219',

    }

    #使用session发送请求，目的是为了将session保存该次请求中的cookie

    session.post(url=post_url,data=formdata,headers=headers)

    get_url = 'http://www.renren.com/960481378/profile'

    #再次使用session进行请求的发送，该次请求中已经携带了cookie

    response = session.get(url=get_url,headers=headers)

    #设置响应内容的编码格式

    response.encoding = 'utf-8'

    #将响应内容写入文件

    with open('./renren.html','w') as fp:

        fp.write(response.text)

二.基于requests模块的代理操作

什么是代理
- 代理就是第三方代替本体处理相关事务。例如：生活中的代理：代购，中介，微商......
爬虫中为什么需要使用代理
- 一些网站会有相应的反爬虫措施，例如很多网站会检测某一段时间某个IP的访问次数，如果访问频率太快以至于看起来不像正常访客，它可能就会会禁止这个IP的访问。所以我们需要设置一些代理IP，每隔一段时间换一个代理IP，就算IP被禁止，依然可以换个IP继续爬取。
代理的分类：
- 正向代理：代理客户端获取数据。正向代理是为了保护客户端防止被追究责任。
- 反向代理：代理服务器提供数据。反向代理是为了保护服务器或负责负载均衡。
免费代理ip提供网站
- http://www.goubanjia.com/
- 西祠代理
- 快代理

import requests

import random

if __name__ == "__main__":

    #不同浏览器的UA

    header_list = [

        # 遨游

        {"user-agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)"},

        # 火狐

        {"user-agent": "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"},

        # 谷歌

        {

            "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}

    ]

    #不同的代理IP

    proxy_list = [

        {"http": "112.115.57.20:3128"},

        {'http': '121.41.171.223:3128'}

    ]

    #随机获取UA和代理IP

    header = random.choice(header_list)

    proxy = random.choice(proxy_list)

    url = 'http://www.baidu.com/s?ie=UTF-8&wd=ip'

    #参数3：设置代理

    response = requests.get(url=url,headers=header,proxies=proxy)

    response.encoding = 'utf-8'

    with open('daili.html', 'wb') as fp:

        fp.write(response.content)

    #切换成原来的IP

    requests.get(url, proxies={"http": ""})

三.基于multiprocessing.dummy线程池的数据爬取

需求：爬取梨视频的视频信息，并计算其爬取数据的耗时

# 使用线程池爬取梨视频的视频数据

import requests

from lxml import etree

import re

import random

#导入线程池模块

# 导入线程池模块

from multiprocessing.dummy import Pool

pool = Pool(5)  # 开5个线程

# 线程池的使用场景: 应用在所有耗时的操作中

headers = {

     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.12 Safari/537.36'

}

url = 'https://www.pearvideo.com/category_1'

page_text = requests.get(url=url,headers=headers).text

tree = etree.HTML(page_text)

li_list = tree.xpath('//ul[@id="listvideoListUl"]/li')

video_url_list = [] #装所有视频的连接

for li in li_list:

    detail_url = "https://www.pearvideo.com/" + li.xpath("./div/a/@href")[0]

    detail_page_text = requests.get(url=detail_url,headers=headers).text

    # 使用正则对视频连接进行解析

    video_url = re.findall('srcUrl="(.*?)",vdoUrl=', detail_page_text,re.S)[0]

    video_url_list.append(video_url)

#对视频的连接发起请求获取视频数据 , 开启多线程

video_data_list = pool.map(getVideoData, video_url_list)  # video_data_list存储的就是所有视频的二进制数据

# 使用线程池进行持久化存储操作

pool.map(saveVideoData,video_data_list)

def getVideoData(url):

    video_data = requests.get(url=url,headers=headers).content

    return video_data

def saveVideoData(data):

    fileName = str(random.randint(0,10000))+'.mp4'

    with open(fileName,'wb') as fp:

        fp.write(data)

        print(fileName,'下载成功')

requests模块处理cookie,代理ip，基于线程池数据爬取的更多相关文章

爬虫 requests模块的其他用法抽屉网线程池回调爬取+保存实例,gihub登陆实例
requests模块的其他用法 #通常我们在发送请求时都需要带上请求头,请求头是将自身伪装成浏览器的关键,常见的有用的请求头如下 Host Referer #大型网站通常都会根据该参数判断请求的来源 ...
基于 PHP 的数据爬取（QueryList）
基于PHP的数据爬取官方网站站点简单. 灵活.强大的PHP采集工具,让采集更简单一点. 简介: QueryList使用jQuery选择器来做采集,让你告别复杂的正则表达式:QueryList具有j ...
代理ip的使用以及多进程爬取
一.代理皮的简单使用简单的看一二例子即可 import requests #代理ip 高频的ip容易被封,所以使用ip代理 #免费代理 ip:www.goubanjia.com 快代理西祠代理 h ...
基于requests模块的cookie,session和线程池爬取
目录基于requests模块的cookie,session和线程池爬取基于requests模块的cookie操作基于requests模块的代理操作基于multiprocessing.dummy ...
Python网络爬虫之cookie处理、验证码识别、代理ip、基于线程池的数据爬去
本文概要 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时, ...
requests模块session处理cookie 与基于线程池的数据爬取
引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/usr/bin/ ...
requests模块的cookie和代理操作
一.基于requests模块的cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不 ...
爬虫开发5.requests模块的cookie和代理操作
代理和cookie操作一.基于requests模块的cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests ...
25-3 requests模块的cookie和代理操作
一.基于requests模块的cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不 ...

随机推荐

Python之购物商场
作业:购物商场 1.流程图 2.初始化用户账号存储文件初始化存储一个空的用户账号字典,保存到文件 user.pkl.执行如下代码,即可初始化完成. #!/usr/bin/env python # - ...
c++builder 程序升级到c++builder10Seattle
c++builder 程序升级到c++builder10Seattle的一些技巧提示. http://community.embarcadero.com/blogs/entry/migrating-l ...
Oracle11gR2--静默安装数据库软件
1.安装相关的包(略) 2.建oracle用户组 groupadd oinstall --$ORACLE HOME/rdbms/lib/config.c groupadd dba chattr -i ...
Python基础学习七 Excel操作
python操作excel,python操作excel使用xlrd.xlwt和xlutils模块, xlrd模块是读取excel的,xlwt模块是写excel的,xlutils是用来修改excel的. ...
并发之Striped64（l累加器）
并发之Striped64(累加器) 对于该类的实现思想: Striped64是在java8中添加用来支持累加器的并发组件,它可以在并发环境下使用来做某种计数,Striped64的设计思路 ...
在Build Path中包含其他工程
------------siwuxie095 在 TestBuildPath 的 Build Path 中包含 SupportProje ...
Angular24 树形菜单？？？
待更新... 2018年5月21日15:17:47 参考博文01 参考博文02
AOP基本概念、AOP底层实现原理、AOP经典应用【事务管理、异常日志处理、方法审计】
1 什么是AOP AOP为Aspect Oriented Programming的缩写,意为:面向切面编程,通过预编译方式和运行期动态代理实现程序功能的统一维护的一种技术.AOP是OOP的延续,是软件 ...
algorithm notes
1.算法可视化 https://visualgo.net/en
jQuery--加一行减一行
效果: 知识点: 克隆--clone() 追加--append() 移除--remove() 代码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2 ...