Infi-chu:

http://www.cnblogs.com/Infi-chu/

一、URI、URL、URN、HTTP

URI:统一资源标志符

URL:是URI的一个子集

URN:是URI的另一个子集,统一资源名称

HTTP协议:
  超文本传输协议,是一个基于“请求与响应”模式的、无状态的引用层协议。
  HTTP协议采用URL作为定位网络资源的标识。
  URL格式 http://host[:port][path]

二、请求

1.请求方法

2.请求的网址

3.请求头

4.请求体

三、响应:

1.响应状态码

2.响应头

3.响应体

四、GET和POST的区别:

1.GET相对于POST较不安全,GET将参数包含在URL里面,POST是通过表单形式传输的,包含在请求体中。

2.GET最多提交的数据大小为1024字节,POST没有限制

3.GET效率较高与POST

五、DOM

1.含义:文档对象模型,定义了访问HTML和XML文档标准

2.DOM:

  1.核心DOM:针对任何结构化文档的标准模型

  2.XML DOM:针对XML文档的标准模型

  3.HTML DOM:针对HTML文档的标准模型

    a.整个文档是一个文档节点

    b.每个HTML元素是元素节点

    c.HTML元素内的文本是文本节点

    d.每个HTML属性是属性节点

    e.注释是注释节点

【注】

节点树中的节点,批次拥有层级关系,常用的有父节点(parent)、子节点(child)、兄弟节点(sibling)

六、爬虫爬取的步骤:

1.获取网页

2.提取信息

3.保存数据

4.自动化爬取程序

七、代理的作用:

1.突破自身IP访问限制,访问一些平时不能访问的站点

2.访问一些单位或团体的内部资源

3.提高访问速度

4.隐藏真实IP

八、代理的分类

1.根据协议分类:

  协议  一般开放端口

  FTP  21、2121

  HTTP     80、8080、3128

  SSL/TLS 443

  RTSP   554

  Telnet   23

  POP3/SMTP  110/25

  SOCKS  1080

2.根据匿名程度分类:

  a.高度匿名代理

  b.普通匿名代理

  c.透明代理

  d.间谍代理

Python3爬虫(一)HTTP相关基础的更多相关文章

  1. Python 爬虫六 性能相关

    前面已经讲过了爬虫的两大基础模块: requests模块:用来伪造请求爬取数据 bs4模块:用来整理,提取数据 当我们真正的开始有需求的时候通常都是批量爬取url这样的.那如何批量爬取呢? 按照正常的 ...

  2. Python3 爬虫之 Scrapy 核心功能实现(二)

    博客地址:http://www.moonxy.com 基于 Python 3.6.2 的 Scrapy 爬虫框架使用,Scrapy 的搭建过程请参照本人的另一篇博客:Python3 爬虫之 Scrap ...

  3. Python3爬虫系列:理论+实验+爬取妹子图实战

    Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...

  4. python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用

    站长资讯平台:python3爬虫系列19之随机User-Agent 和ip代理池的使用我们前面几篇讲了爬虫增速多进程,进程池的用法之类的,爬虫速度加快呢,也会带来一些坏事. 1. 前言比如随着我们爬虫 ...

  5. 小白学 Python 爬虫(35):爬虫框架 Scrapy 入门基础(三) Selector 选择器

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  6. 小白学 Python 爬虫(38):爬虫框架 Scrapy 入门基础(六) Item Pipeline

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  7. 小白学 Python 爬虫(40):爬虫框架 Scrapy 入门基础(七)对接 Selenium 实战

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  8. 小白学 Python 爬虫(41):爬虫框架 Scrapy 入门基础(八)对接 Splash 实战

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  9. Python3爬虫:(一)爬取拉勾网公司列表

    人生苦短,我用Python 爬取原因:了解一下Python工程师在北上广等大中城市的薪资水平与入职前要求. Python3基础知识 requests,pyquery,openpyxl库的使用 爬取前的 ...

  10. Python爬虫入门有哪些基础知识点

    1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...

随机推荐

  1. eclipse中copy qualified name使用方式

    转载自:原文:https://blog.csdn.net/love20yh/article/details/81328202 copy qualified name得到的结果可以有2类: 1./use ...

  2. 关于使用metronic时里modal模拟框使用ueditor时不能全屏的情况

    ueditor里有这么断代码, 1.初始显示状态下(非全屏),修改一下代码的z-index UE.Editor.defaultOptions = function(editor){ var _url ...

  3. June 17th 2017 Week 24th Saturday

    Absence sharpens love, presence strengthens it. 相聚爱益切,离别情更深. There is almost no such love that can i ...

  4. June 15th 2017 Week 24th Thursday

    Whatever is worth doing is worth doing well. 任何值得做的,就把它做好. Whatever is worth doing is worth doing we ...

  5. SAP S4CRM 1811 服务订单API介绍

    Jerry在今年2月28日,SAP Customer Management for S/4HANA 1.0正式问世这个具有纪念意义的日子,同时发布了中英文版的博客进行介绍. 英文版发在SAP社区上,至 ...

  6. spring boot Unable to find a @SpringBootConfiguration, you need to use @ContextConfiguration

    java.lang.IllegalStateException: Unable to find a @SpringBootConfiguration, you need to use @Context ...

  7. OpenMP使用体验报告(概述)

    (本文原创,首次使用OpenMP,将使用体会记录下来供学习) OpenMP是啥玩意??? 多核多线程处理器的出现,让并行计算成为可能.在此之前,单核处理器并不能并行计算,这是很显然的,只有一个核心只能 ...

  8. java 注解annotation的使用,以及反射如何获取注解

     一.注解基本知识 1.元注解 元注解是指注解的注解.包括  @Retention @Target @Document @Inherited四种. 1. Annotation型定义为@interfac ...

  9. 金s办公软件web前端笔试题

    1. var arr = []; arr['a'] = 1; console.log(arr.length); // A arr['4'] = 2; console.log(arr.length); ...

  10. select 文字右对齐

    select { direction: rtl; } select option { direction: ltr; }