如果要从一个互联网前端开发的小白,学习爬虫开发,结合自己的经验老猿认为爬虫学习之路应该是这样的:

一、 了解HTML语言及css知识

这方面的知识请大家通过w3school 去学习,老猿对于html总结了部分基础知识内容,在《第14.2节 HTML知识简介》进行介绍,其他的大家到w3school 去学习。

二、 学习http协议相关的知识

需要了解url的构成、http协议头的结构、http协议支持的get方法等内容。这方面推荐大家学习如下老猿转发的博文:

  1. url的组成结构信息
  2. HTTP请求头和响应头详解【转】
  3. 转:解析HTTP协议六种请求方法,get,head,put,delete,post有什么区别

三、 学习cookies相关知识

要登录网站爬取信息,按现在绝大多数网站的会话管理机制,cookies是必不可少的,了解cookies并利用cookies实现网站登录管理。这方面推荐大家学习如下老猿转发的博文:

  1. 转:Http协议中Cookie详细介绍
  2. 转:Chrome浏览器查看网站登录 Cookie 信息的方法

四、 分析浏览器访问网站网址的过程,如是否需要先登录、是否有代理、是否多次交互等,可以通过浏览器来获取网站访问信息来分析访问过程,这个与具体要爬取的网站及爬取内容相关。老猿将介绍通过IE11及google浏览器获取网站访问信息的方法;

五、 学习Python访问web网站编程的知识,这个老猿主要介绍使用urllib模块相关方法读取网页内容;

六、 学习网页解析的方法,老猿将比较详细BeautifulSoup的使用;

七、 分析准备爬取网页内容的结构,获取网页内容后,根据爬取内容的要求针对性进行分析;

八、 分析怎么完成爬取自己感兴趣内容的http交互过程。

其中最后两步有可能是交替的,有可能爬取一个网页分析其结构解读内容,再根据解读内容爬取下一个网页。老猿将以此为主线介绍爬虫相关的知识,但第一、二步就不介绍了。

老猿Python,跟老猿学Python!

博客地址:https://blog.csdn.net/LaoYuanPython


老猿Python博客文章目录:https://blog.csdn.net/LaoYuanPython/article/details/98245036

请大家多多支持,点赞、评论和加关注!谢谢!

第14.1节 通过Python爬取网页的学习步骤的更多相关文章

  1. Python爬取网页信息

    Python爬取网页信息的步骤 以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址 在浏览器中输入初 ...

  2. python爬取网页的通用代码框架

    python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...

  3. 如何使用python爬取网页动态数据

    我们在使用python爬取网页数据的时候,会遇到页面的数据是通过js脚本动态加载的情况,这时候我们就得模拟接口请求信息,根据接口返回结果来获取我们想要的数据. 以某电影网站为例:我们要获取到电影名称以 ...

  4. 利用Python爬取网页图片

    最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载 我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片 ...

  5. 使用 Python 爬取网页数据

    1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...

  6. python 爬取网页简单数据---以及详细解释用法

    一.准备工作(找到所需网站,获取请求头,并用到请求头) 找到所需爬取的网站(这里举拉勾网的一些静态数据的获取)----------- https://www.lagou.com/zhaopin/Pyt ...

  7. python 爬取网页内的代理服务器列表(需调整优化)

    #!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-30 20:38:23 # @Author : EnderZhou (z ...

  8. python爬取网页文本、图片

    从网页爬取文本信息: eg:从http://computer.swu.edu.cn/s/computer/kxyj2xsky/中爬取讲座信息(讲座时间和讲座名称) 注:如果要爬取的内容是多页的话,网址 ...

  9. python 爬取网页基础 requests使用

    pip install requests  安装requests库 基本顺序: import requests r=requests.get("url路径") r.status_c ...

随机推荐

  1. 9.集合set和frozenset冻结集合函数

    集合set set和dict类似,也是一组key的集合,但不存储value.由于key不能重复,所以在set中没有重复的key. 集合中的元素要求是不可变的并且还是唯一的,我们就利用它是唯一来做去重. ...

  2. react 中组件状态的一些理解

    组件状态:即 state 只有当state发生变化时,组件才会更新. 当一个html标签的值依赖于state的值得时候,如果state的值没有更新时,这个标签的值无论如何也是不会更新的. 看下面示例: ...

  3. python之路《九》 迭代器与生成器

    1.生成器 通过列表生成式,我们可以直接创建一个列表.但是,受到内存限制,列表容量肯定是有限的.而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面 ...

  4. Idea eclipse 快捷键Debug调试

    运行下一行             F6 进入下一次计算      F5 运行到下一个断电  F7 恢复运行                F8

  5. mysql多表查询之子语句查询

    1.子语句查询 1.1子语句查询出来的结果集作为临时表名使用 select * from (select * from person) as aaa; -- as这个起别名关键字是可以省略的 1.2查 ...

  6. 使用XSL解析XML输出HTML(XSL学习笔记一)

    最近项目用到 XSL + XML,XML大家应该很熟悉,XSL暂且不解释,先看效果,如果想学习XSL的内容,可以先访问: https://www.w3school.com.cn/xsl/xsl_lan ...

  7. php递归无限查询上级或者下级

    $this->get_array($user['uid'],1); function get_array($user_id,$top=0){ $sql = 'SELECT * FROM ' . ...

  8. 为什么TCP连接时是三次握手,而不是两次或四次?

    TCP连接时有一个重要的任务就是服务端和客户端双方互相确认收发功能是否正常.图中步骤1,当客户端发起连接,服务端接收到请求,对于服务端来说,它此时知道客户端的发送功能和自己的接收功能是正常的. 图中步 ...

  9. 从维基百科等网站复制公式到MathType中

    在写论文的时候你会想要一些比书本上更好的实例,所以你会在网上寻找资源.当你发现一个你想要的公式时,发现网页公式复制粘贴后太模糊而不适合打印或者投影.这种问题在MathType中如何解决呢? 你可以将网 ...

  10. php bypass disable_function 命令执行 方法汇总简述

    1.使用未被禁用的其他函数 exec,shell_exec,system,popen,proc_open,passthru (python_eval?perl_system ? weevely3 wi ...