day47-python爬虫学习二

2.Request的会话对象

s = requests.session()

Python2

S = requests.Session()

所有一次会话的信息都保存在s中，只需要对s进行操作就可以了。

s.get(url)

Requests通过会话信息来获取cookie信息

Cookie的五要素：

Name value domain path expires

实例

import requests

def save_cookie():

    s = requests.session()

    s.get('https://www.hao123.com/')

    print(s.cookies)

import requests

def save_cookie():

    s = requests.session()

    s.get('https://www.hao123.com/')

    print(s.cookies)

    print(s.cookies.keys())

    print(s.cookies.values())

    for i in s.cookies:

        print(i)

        print(i.name, i.value, i.domain, i.path, i.expires)

if __name__ == '__main__':

    save_cookie()

    print(s.cookies.keys())

    print(s.cookies.values())

    for i in s.cookies:

        print(i)

        print(i.name, i.value, i.domain, i.path, i.expires)

if __name__ == '__main__':

    save_cookie()

Cookie的常用属性：

Cookie常用的一些属性：

1. Domain 域

2. Path 路径

3. Expires 过期时间

4. name 对应的key值

5. value key对应的value值

cookie中的domain代表的是cookie所在的域，默认情况下就是请求的域名，例如请求http://www.server1.com/files/hello, 那么响应中的set-Cookie默认会使用www.server1.com作为cookie的domain，在浏览器中也是按照domain来组织cookie的。我们可以在响应中设置cookie的domain为其他域，但是浏览器并不会去保存这些domain为其他域的cookie。

cookie中的path能够进一步的控制cookie的访问，当path=/; 当前域的所有请求都可以访问到这个cookie。如果path设为其他值，比如path=/test,那么只有/test下面的请求可以访问到这个cookie。

使用已知cookie信息，如何访问网站：

url = 'http://httpbin.org/cookies'

r = requests.get(url, cookies={'key1': 'value1', 'key2': 'value2'})

print(r.text)

结果：

{

"cookies": {

"key1": "value1",

"key2": "value2"

}

代理访问：

采集时为避免被封IP，经常会使用代理。requests也有相应的proxies属性。

西刺代理

import requests

proxies = {

  "http": "http://182.108.5.246:8118",

  # "https": "http://112.117.184.219:9999",

}

r1 = requests.get("http://2017.ip138.com/ic.asp", proxies=proxies)

r2 = requests.get("http://2017.ip138.com/ic.asp")

print(r1.text)

print(r2.text)

输出

[182.108.5.246]

[106.38.115.34]

如果代理需要账户和密码，则需这样：

proxies = {

"http": "http://user:pass@10.10.1.10:3128/",}

requests的中文乱码问题：

import requests

param = {"key1": "hello", "key2": "world"}

url = 'https://www.baidu.com/'

r = requests.get(url=url)

print(r.encoding) #ISO-8859-1默认使用的是这个

r.encoding = "utf-8"

print(r.text)

这样就可以正常显示了

Requests给你提供的所有接口，在传输数据的时候，都可以以key：value的形式进行传输，相对来说比较好用

day47-python爬虫学习二的更多相关文章

Python爬虫学习(二) ——————爬取前程无忧招聘信息并写入excel
作为一名Pythoner,相信大家对Python的就业前景或多或少会有一些关注.索性我们就写一个爬虫去获取一些我们需要的信息,今天我们要爬取的是前程无忧!说干就干!进入到前程无忧的官网,输入关键字&q ...
python爬虫学习(二)：定向爬虫例子-->使用BeautifulSoup爬取"软科中国最好大学排名-生源质量排名2018"，并把结果写进txt文件
在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is ...
Python爬虫学习二------爬虫基本原理
爬虫是什么?爬虫其实就是获取网页的内容经过解析来获得有用数据并将数据存储到数据库中的程序. 基本步骤: 1.获取网页的内容,通过构造请求给服务器端,让服务器端认为是真正的浏览器在请求,于是返回响应.p ...
Python爬虫学习：二、爬虫的初步尝试
我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 ...
Python爬虫学习：四、headers和data的获取
之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取就以博客园的首页为例:http://www.cnblogs.c ...
《Python爬虫学习系列教程》学习笔记
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...
2.Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...
Python爬虫入门二之爬虫基础了解
1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...
[转]《Python爬虫学习系列教程》
<Python爬虫学习系列教程>学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多. ...
转 Python爬虫入门二之爬虫基础了解
静觅 » Python爬虫入门二之爬虫基础了解 2.浏览网页的过程在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以 ...

随机推荐

ElasticSearch(十)Elasticsearch检索出的数据列表按字段匹配的优先顺序及搜索单词拼音一部分搜不到数据
检索出的数据列表按字段匹配的优先顺序一.举例比如,发布一篇文章,文章包括基本的字段包括标题.发布时间.点击率.关键字.内容.当在页面中输入“教育”搜索关键词,会检索出指定字段包括“教育”的所有数据 ...
linux目录结构特点
#####linux目录结构特点一切从根开始linx中每个设备可以挂载在任何目录上面磁盘/设备/分区没有挂载无法使用举例-linux下面使用光盘###1.把光盘放入到光驱中 ###2.linux中 ...
自制操作系统Antz(10)——实现shell(上)
我已经规范了系统代码风格,类似于按照linux分包,把各部分功能区分开了 Antz系统更新地址 Linux内核源码分析地址 Github项目地址在之前的任务中,我们已经通过直接操作显卡驱动完成了简单 ...
netty初试
netty官网:点击进入学习netty之实现一个丢弃服务器环境: JDK1.8 netty5.0+ 步骤: 实现一个丢弃服务器实现一个客户端发送数据丢弃服务器的创建 //用于接受客户端的的连接 ...
android开发_view和view属性
一.view视图的宽度和高度属性,属性值:固定和浮动两种状态 1属性为固定值 <View android:layout_width="30dp" android:layout ...
CF 528D. Fuzzy Search NTT
CF 528D. Fuzzy Search NTT 题目大意给出文本串S和模式串T和k,S,T为DNA序列(只含ATGC).对于S中的每个位置\(i\),只要中[i-k,i+k]有一个位置匹配了字符 ...
每天一套题打卡|河南省第十一届ACM/ICPC
A 计划日题意:已知李明在YYYY年MM月DD日星期W订了学习计划,现在想看看李明N天后的完成情况和个人总结,你能告诉我那天的日期和星期几吗? 模拟日期计算: 计算星期可以用基姆拉尔森公式 //中国 ...
python数据库多字段插入
# -*- co;ding: utf-8 -*-#企业详细信息写入数据库+征信得分import pymysqlfrom impala.dbapi import connect conn = pymys ...
【我的前端自学之路】【HTML5】Web Socket
以下为自学笔记内容,仅供参考. 转发请保留原文链接:https://www.cnblogs.com/it-dennis/p/10508118.html 什么是Web Socket WebSocket ...
gRPC Client Middleware.
中间件想必大家不陌生,今天给大家介绍如何实现中间件以及实现gRPC的客户端中间件. 什么是中间件? https://docs.microsoft.com/zh-cn/aspnet/core/funda ...

day47-python爬虫学习二

day47-python爬虫学习二的更多相关文章

随机推荐

热门专题