一、爬虫基本原理

1.获取网络数据

用户方式:浏览器提交请求->下载网页代码->解析/渲染成页面

爬虫方式:模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中

2.爬虫的基本原理

向网站发起请求,获取资源后分析并提取有用数据的程序

3.爬虫的基本流程

#1、发起请求
使用http库向目标站点发起请求,即发送一个Request,Request包含:请求头、请求体等

#2、获取响应内容
如果服务器能正常响应,则会得到一个Response,Response包含:html,json,图片,视频等

#3、解析内容
解析html数据:正则表达式,第三方解析库如Beautifulsoup,pyquery等
解析json数据:json模块
解析二进制数据:以b的方式写入文件

#4、保存数据
数据库,文件

4.request和response

Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)

Response:服务器接收请求,分析用户发来的请求信息,然后返回数据(返回的数据中可能包含其他链接,如:图片,js,css等)

浏览器在接收Response后,会解析其内容来显示给用户,而爬虫程序在模拟浏览器发送请求然后接收Response后,是要提取其中的有用数据。

5.Request

  1. #1、请求方式:
  2. 常用的请求方式:GETPOST
  3. 其他请求方式:HEADPUTDELETEOPTHONS
  4.  
  5. ps:用浏览器演示getpost的区别,(用登录演示post
  6.  
  7. postget请求最终都会拼接成这种形式:k1=xxx&k2=yyy&k3=zzz
  8. post请求的参数放在请求体内:
  9. 可用浏览器查看,存放于form data
  10. get请求的参数直接放在url
  11.  
  12. #2、请求url
  13. url全称统一资源定位符,如一个网页文档,一张图片
  14. 一个视频等都可以用url唯一来确定
  15.  
  16. url编码
  17. https://www.baidu.com/s?wd=图片
  18. 图片会被编码(看示例代码)
  19.  
  20. 网页的加载过程是:
  21. 加载一个网页,通常都是先加载document文档,
  22. 在解析document文档的时候,遇到链接,则针对超链接发起下载图片的请求
  23.  
  24. #3、请求头
  25. User-agent:请求头中如果没有user-agent客户端配置,
  26. 服务端可能将你当做一个非法用户
  27. host
  28. cookiescookie用来保存登录信息
  29.  
  30. 一般做爬虫都会加上请求头
  31.  
  32. #4、请求体
  33. 如果是get方式,请求体没有内容
  34. 如果是post方式,请求体是format data
  35.  
  36. ps
  37. 1、登录窗口,文件上传等,信息都会被附加到请求体内
  38. 2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post

6.Response 

  1. #1、响应状态
  2. 200:代表成功
  3. 301:代表跳转
  4. 404:文件不存在
  5. 403:权限
  6. 502:服务器错误
  7.  
  8. #2、Respone header
  9. set-cookie:可能有多个,是来告诉浏览器,把cookie保存下来
  10.  
  11. #3、preview就是网页源代码
  12. 最主要的部分,包含了请求资源的内容
  13. 如网页html,图片
  14. 二进制数据等

Python爬虫【一】爬虫的基本原理的更多相关文章

  1. python应用之爬虫实战1 爬虫基本原理

    知识内容: 1.爬虫是什么 2.爬虫的基本流程 3.request和response 4.python爬虫工具 参考:http://www.cnblogs.com/linhaifeng/article ...

  2. 【网络爬虫】【python】网络爬虫(四):scrapy爬虫框架(架构、win/linux安装、文件结构)

    scrapy框架的学习,目前个人觉得比较详尽的资料主要有两个: 1.官方教程文档.scrapy的github wiki: 2.一个很好的scrapy中文文档:http://scrapy-chs.rea ...

  3. Python 爬虫1——爬虫简述

    Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的. 一.爬虫的定义: 爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区 ...

  4. Python 开发轻量级爬虫08

    Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据. 本实例确定抓 ...

  5. Python 开发轻量级爬虫07

    Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装 使用pip install 安装:在命令行cmd之后输入,pip i ...

  6. Python 开发轻量级爬虫06

    Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器 将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有 ...

  7. Python 开发轻量级爬虫05

    Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器 网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器 ...

  8. Python 开发轻量级爬虫04

    Python 开发轻量级爬虫 (imooc总结04--url管理器) 介绍抓取URL管理器 url管理器用来管理待抓取url集合和已抓取url集合. 这里有一个问题,遇到一个url,我们就抓取它的内容 ...

  9. Python 开发轻量级爬虫03

    Python 开发轻量级爬虫 (imooc总结03--简单的爬虫架构) 现在来看一下一个简单的爬虫架构. 要实现一个简单的爬虫,有哪些方面需要考虑呢? 首先需要一个爬虫调度端,来启动爬虫.停止爬虫.监 ...

  10. Python 开发轻量级爬虫02

    Python 开发轻量级爬虫 (imooc总结02--爬虫简介) 爬虫简介 首先爬虫是什么?它是一段自动抓取互联网信息的程序. 什么意思呢? 互联网由各种各样的的网页组成,每一个网页都有对应的url, ...

随机推荐

  1. JS 8-2 再谈原型

    var bosn = new Student创建了Student的实例bosn.bosn的原型(__proto__)指向构造器Student的prototype属性. Student.prototyp ...

  2. [LeetCode] 110. Balanced Binary Tree_Easy tag: DFS

    Given a binary tree, determine if it is height-balanced. For this problem, a height-balanced binary ...

  3. SpringMVC项目模块浅析

    本文为个人笔记,对于springmvc模块的规划,仁者见仁.智者见智,请不要生搬硬套. 一.基础模块-basic 主要内容是dao.spring-xml.domain.service等内容,模块内分层 ...

  4. react native 初识生命周期

    关于生命周期这块,我是看到慕课堂的一个视频,觉得将的很好,引入很容易理解,地址是:https://www.imooc.com/video/14288  如果你们想了解一下,也可以去看看 RN 组件的生 ...

  5. 海量交通大数据应用平台MTDAP_nchang的经验记录

    WRONGTYPE Operation against a key holding the wrong kind of value 根本的就是redis同一个key的value值前后类型不一致,比如最 ...

  6. POJ 2155 Matrix(二维BIT)

    Matrix [题目链接]Matrix [题目类型]二维BIT &题解: bit只能单点更新,恰好,这题可以想一下就可以用单点更新解决了. 只不过最后我交上去居然T了,想了10多分钟,试了一下 ...

  7. Spring中集合注入方法

    集合注入重要是对数组.List.Set.map的注入,具体注入方法请参照一下代码(重点是applicationContext.xml中对这几个集合注入的方式): 1.在工程中新建一个Departmen ...

  8. hbase-java-api003(put list)

    package api; import java.io.IOException; import java.util.ArrayList; import java.util.List; import o ...

  9. FutureTask demo

    package com.xinwei.order.entity; import java.util.concurrent.ExecutorService; import java.util.concu ...

  10. python 爬取qidian某一页全部小说

      本文纯粹用于技术练习,请勿用作非法途径 import re import urllib.request from bs4 import BeautifulSoup import time url= ...