由于前几天看电脑时间过长,在昨天的时候,两个眼睛就有点疼痛感觉,所以昨天晚上就没有学习,博客也没有跟着写,今早去校医院买了点药,上午把老师要求的电路板画完了,已经发出去做了,现在闲来无事,看了一会关于爬虫的书,现在做一下总结,可能比较枯燥。

1、会话

我们平时打电话的时候,从拨号到挂断电话,就可以称之为一个会话。

在web中,会话的作用就是用来存储用户会话所需要的属性以及一系列配置信息,这样的话,我们在网页之间跳转的时候,那么关于会话的一些信息就不会丢失了。

2、Cookies

在一些网页,我们需要登录之后才可以进行一些后续的操作,很多时候,我们在后来再次打开该网页时,会自动登录,而且在一定时间内都是有效的。这就涉及到Cookies了。

书上的定义为:Cookies是指某些网站为了辨别用户身份、进行会话跟踪而存储在用户本地终端上的数据。

3、会话维持

当我们使用我们的客户端进行请求服务器的操作的时候,服务器会返回一个带有Set-Cookies字段的响应,主要的目的就是标记用户,这时,客户端会将响应信息保存下来。这样的话,在下一次,我们再次请求服务器的时候,我们的客户端就会将之前保存到关键信息发送给服务器,这些信息中带有关于用户的ID信息,这样服务器在浏览收到的信息时,就会找到对应的会话,然后再判断会话进而识别用户状态。上边所谈到的信息,都是Cookies。

4、会话Cookies和持久Cookies

会话Cookies:就是把Cookies放置在浏览器内存里边,这些Cookies会随着浏览器的关闭而失效。

持久Cookies:就是把Cookies放置在客户端硬盘里边,这些Cookies会长久保存,当然这个保存时间也是可以设置的。

5、代理

代理指的是代理服务器,主要是做爬虫的时候,我们常常需要频繁的访问网站,如果这个网站有反爬虫机制,那我们的ip很有可能会被封锁,代理的作用就是他可以隐藏我们的真实ip,让服务器以为是代理服务器在访问自己,这样就可以通过不断的更换代理来迷惑对方,从而是自己的ip不会被封锁。

代理的基本原理:我们在访问一个网站的时候,是先向网站发送一个请求,紧接着服务器会返回一个响应。如果我们使用代理的话,代理的角色就跟一个中介一样,位于客户端与服务器中间,此时我们访问网站的流程就变成了,客户端先向代理服务器发送一个请求,再由代理服务器将此请求发送给服务器,服务器紧接着会发回一个响应信息给代理服务器,由代理服务器再返回给客户端。第一,通过这种方法,我们可以正常的访问网页;第二,访问过程中,服务器识别出来的ip不是我们本机的ip,这样就实现了ip伪装。

6、代理的作用

(1)突破自身ip访问限制,访问平时不能访问的网站。

(2)访问一些单位或团体内部资源

(3)提高访问速度,代理服务器都设有一个比较大的硬盘缓冲区,当有外界信息通过的时候,会将其保存到缓冲区中,当其他用户再次访问相同的信息时,则直接将信息从缓冲区的提取出来传给用户,这样就提高了访问的速度。

(4)隐藏真实ip

今天就先写到这吧,等眼睛好了之后,在好好写,可能有写的不当的地方,还请大家多多指正,大家一起学习,共同进步。谢谢。

python-day6爬虫基础之会话、Cookies、代理的更多相关文章

  1. python从爬虫基础到爬取网络小说实例

    一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...

  2. Python扫描器-爬虫基础

    0x1.基础框架原理 1.1.爬虫基础 爬虫程序主要原理就是模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中 1.1.基础原理 1.发起HTTP请求 2 ...

  3. Python BeautifulSoup4 爬虫基础、多线程学习

    针对 崔庆才老师 的 https://ssr1.scrape.center 的爬虫基础练习.Threading多线程库.Time库.json库.BeautifulSoup4 爬虫库.py基本语法

  4. 自学Python四 爬虫基础知识储备

    首先,推荐两个关于python爬虫不错的博客:Python爬虫入门教程专栏   和 Python爬虫学习系列教程 .写的都非常不错,我学习到了很多东西!在此,我就我看到的学到的进行总结一下! 爬虫就是 ...

  5. 自学Python六 爬虫基础必不可少的正则

    要想做爬虫,不可避免的要用到正则表达式,如果是简单的字符串处理,类似于split,substring等等就足够了,可是涉及到比较复杂的匹配,当然是正则的天下,不过正则好像好烦人的样子,那么如何做呢,熟 ...

  6. Python网络爬虫Scrapy框架研究 以及 代理设置

    地址:https://github.com/yidao620c/core-scrapy 例子:https://github.com/geekan/scrapy-examples 中文翻译文档: htt ...

  7. Python归纳 | 爬虫基础知识

    1. urllib模块库 Urllib是python内置的HTTP请求库,urllib标准库一共包含以下子包: urllib.error 由urllib.request引发的异常类 urllib.pa ...

  8. 自学Python五 爬虫基础练习之SmartQQ协议

    BAT站在中国互联网的顶端,引导着中国互联网的发展走向...既受到了多数程序员的关注,也在被我们所惦记着... 关于SmartQQ的协议来自HexBlog,根据他的博客我自己也一步一步的去分析,去尝试 ...

  9. python 网页爬虫 基础篇

    首先要连接自己的数据库 import pymysql import requests #需要导入模块 db = pymysql.connect('localhost', 'root', '****** ...

随机推荐

  1. [ACTF2020 新生赛]Exec

    0x00 知识点 命令执行 这里见了太多了..以前也写过: https://www.cnblogs.com/wangtanzhi/p/12246386.html 命令执行的方法大抵是加上管道符或者分号 ...

  2. 数据库的交互模式 常用的dos命令 (第一天)

    浏览器和服务器和数据库的交互模式 windows nt(windows系统)的分类:服务操作系统有(server03 server08(R2) 12 16) 个人操作系统有(xp win7 win8 ...

  3. python 列表和字符串

    python 列表中保留所有字符串前三项,并保存到一个新的列表l = [s[:3] for s in data] python 在列表中查找包含所以某个字符串的项,并保存到一个新的列表l = [s f ...

  4. 19 — node 模块化 及 CommonJS规范 — CommonJS 的由来及各组织与 JS 的关系

    ECMAScript  对于不同的环境(运行平台),设计结构,理念,使用方式大相径庭. 1,浏览器 :DOM BOM 2,NodeJS :FS,HTTP 内置模块 :  第三方模块 : 内置模块 3, ...

  5. JVM探秘:jinfo查看JVM运行时参数

    本系列笔记主要基于<深入理解Java虚拟机:JVM高级特性与最佳实践 第2版>,是这本书的读书笔记. 如何查看JVM运行时参数,对于线上JVM调优是很关键的,因为只有知道了当前使用的JVM ...

  6. 在线答题APP动工前的小总结

    7月26号,确定了我们这个暑假的学习任务——做一个答题软件.目的就是为了让我们在做项目中学习,在学习中提高做项目的能力.但是,由于基础知识都还没掌握牢固,所以从本周三确定项目以来,基本没有一点进展. ...

  7. 五、SAP中定义变量和给变量赋值

    一.代码如下: 二.执行效果图,如下:

  8. Aizu 2155 Magic Slayer 背包DP

    这是上上次对抗赛的题目了 其实现在发现整个代码从头到尾,都是用了背包,怪我们背包没深入学好. 比赛的时候,聪哥提出的一种思路是,预处理一下,背包出 ALL攻击 和 single攻击的 血量对应的最小花 ...

  9. stm32cube 安装 patch

    首先正常安装芯片包,然后在设置里面找到当前包存放的位置,默认是: C:\Users\Administrator\STM32Cube\Repository 然后解压 更新包,把更新包里面的文件覆盖到 C ...

  10. C#高级编程(第9版) 第08章 委托、lambda表达式和事件 笔记

          本章代码分为以下几个主要的示例文件: 1. 简单委托 2. 冒泡排序 3. lambda表达式 4. 事件示例 5. 弱事件     引用方法 委托是寻址方法的.NET版本.在C++中函数 ...