网络爬虫基础知识（Python实现）

浏览器的请求

url=请求协议（http/https）+网站域名+资源路径+参数

http:超文本传输协议（以明文的形式进行传输），传输效率高，但不安全。

https:由http+ssl（安全套接子层）组成；传输之前数据先加密，之后解密获取内容，传输效率低但安全。

HTTP协议之请求

1请求行

2.请求头（user-Agent：用户代理【对方服务器通过user-Agent知道当前请求资源的是神么网站】）

3.请求体（get 请求没有请求体，post有；get 请求把数据放在url地址中）

post请求常用于登入，注册以及传输大文本时

HTTP协议之响应

1.响应头（set cookie:对方服务通过该字段设置cookie的值到本地）

2.响应体（url地址对应的响应内容）

网络爬虫的逻辑

1.确定起始url

2.发送请求获取响应

3.提取数据

4.保存

5构造下一个url 地址，循环2-5步。（使用retrying，当请求不成功时，重复进行请求）

response.request.url:得到的是发送请求url地址

response.url是resonse响应的url地址

发送get post 请求获取响应；

url="https://i.cnblogs.com"

headers={

}

response=request.get(url,headers=headers)

response=request.post(url,headers=headers,data={请求体字典【键值对格式】})

获取网页源码内容的方法；（依次使用三种方式一定可以获取网页的正确内容，当前面一种方式不能获取到时，改用下一种）

1)response.content.decode()//把响应的二进制字节流转化为str 类型.默认使用的是utf-8编码

2）response.content.decode("gbk")用指定的编码进行编码

3）response.text 浏览器会以自己猜测的编码形式进行编码

处理cookie相关请求的方法

1）直接放在headers中

2）把cookie放在字典中

3）先发送post请求，带上cookie请求登入

session=request.session()// 实例化session对象

session.post(url,data,headers)// 获取对方保存在本地的cookie内容

session.get(url) //session会自动带上cookie

数据提取的方法：

json.loads 作用：把json字符串转化为python类型

json.dumps 把python类型转化为json字符串

ensure_ascill 能让页面中的中文字符正确显示为中文

indent: 能够让下一行显示时在下一行的基础上显示空格

xpath：一门从html中提取数据的语言

xpath语法：

1.选择节点（标签）/html/head/meta 表示选中head下的所有meta标签

2.//双斜线能够从任一节点开始选择

./a 表示当前节点下的a 标签

3.@的用途

@的作用是取某个节点属性的值

例如：//div[@class='box1']/

4.获取文本

/a/text() 表示获取a标签的文本

/a//text() 表示获取a标签下的所有文本（可能不是直接在a标签下）

网络爬虫基础知识（Python实现）的更多相关文章

java网络爬虫基础学习（一）
刚开始接触java爬虫,在这里是搜索网上做一些理论知识的总结主要参考文章:gitchat 的java 网络爬虫基础入门,好像要付费,也不贵,感觉内容对新手很友好. 一.爬虫介绍网络爬虫是一个自动提 ...
python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...
C#网络编程基础知识
C#网络编程基础知识一 1.IPAddress类用于表示一个IP地址.IPAddress默认构造函数 public IPAddress(long address);一般不用其中Parse()方法最 ...
【RL-TCPnet网络教程】第2章嵌入式网络协议栈基础知识
第2章嵌入式网络协议栈基础知识本章教程为大家介绍嵌入式网络协议栈基础知识,本章先让大家有一个全面的认识,后面章节中会为大家逐一讲解用到的协议. 基础知识整理自百度百科,wiki百科等 ...
java网络爬虫基础学习（三）
尝试直接请求URL获取资源豆瓣电影 https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort= ...
[转帖]IPC网络高清摄像机基础知识1(IPC芯片市场分析以及“搅局者”华为海思 “来自2013年”)
IPC网络高清摄像机基础知识1(IPC芯片市场分析以及“搅局者”华为海思 “来自2013年”) 2016-06-02 14:23:49 Times_poem 阅读数 9734更多分类专栏: IPC网 ...
python网络爬虫，知识储备，简单爬虫的必知必会，【核心】
知识储备,简单爬虫的必知必会,[核心] 一.实验说明 1. 环境登录无需密码自动登录,系统用户名shiyanlou 2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌 ...
python 爬虫基础知识一
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 网络爬虫必备知识点 1. Python基础知识2. P ...
Python爬虫基础知识入门一
一.什么是爬虫,爬虫能做什么爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.比如它在抓取一个网 ...

随机推荐

用SSH登录远程的机器，在远程机器上执行本地机器上的脚本
假设本地的机器IP为10.245.111.90,我们想要在10.245.111.93上执行一个保存在10.245.111.90上的脚本. 经过测试通过的命令如下: ssh root@10.245.11 ...
SSE图像算法优化系列二十：一种快速简单而又有效的低照度图像恢复算法。
又有很久没有动笔了,主要是最近没研究什么东西,而且现在主流的趋势都是研究深度学习去了,但自己没这方面的需求,同时也就很少有动力再去看传统算法,今天一个人在家,还是抽空分享一个简单的算法吧. 前段日子在 ...
每天一个linux命令:iostat
1.命令简介 iostat(I/O statistics 输入/输出统计) 命令对系统的磁盘操作活动进行监视.它的特点是汇报磁盘活动统计情况,同时也会汇报出CPU使用情况 2.用法 iostat [ ...
NOIP2011普及组数字反转
题目OJ链接: http://codevs.cn/problem/1130/ https://www.luogu.org/problemnew/show/P1307 2011年NOIP全国联赛普及组 ...
mysql 线程等待时间，解决sleep进程过多的办法
如果你没有修改过MySQL的配置,缺省情况下,wait_timeout的初始值是28800. wait_timeout 过大有弊端,其体现就是MySQL里大量的SLEEP进程无法及时释放,拖累系统 ...
C#做单元测试，如何查看输出的调试信息？
Introducing Apache Spark Datasets（中英双语）
文章标题 Introducing Apache Spark Datasets 作者介绍 Michael Armbrust, Wenchen Fan, Reynold Xin and Matei Zah ...
用xcode9编译出ios越狱机程序使用的dylib
因为xcode9默认不能创建dylib工程,所以选择静态库工程后,修改编译选项使得变成dylib工程. 步骤: 一.xcode9 -> File -> New -> Proje ...
解决远程连接mysql很慢的方法
开发某应用系统连接公司的测试服务器的mysql数据库连接打开的很慢,但是连接本地的mysql数据库很快,刚开始认为可能是网络连接问题导致的,在进行 ping和route后发现网络通信都是正常的,而且在 ...
Mysql数据按天分区,定期删除
需求: 1.日志表需要按天分区 2.只保留一个月数据方案: 1.创建两个事件,一个事件生成未来需要的分区,另一个事件定期检查过期数据(移除分区) 2.创建事件每小时执行一次,删除事件每天执行一次 3 ...

网络爬虫基础知识（Python实现）

网络爬虫基础知识（Python实现）的更多相关文章

随机推荐

热门专题