如何学习Python爬虫[入门篇]?

路人甲

1 年前

想写这么一篇文章,但是知乎社区爬虫大神很多,光是整理他们的答案就够我这篇文章的内容了。对于我个人来说我更喜欢那种非常实用的教程,这种教程对于想直接上手爬虫做一些小东西的朋友来说是极好的。

用一个精彩的回答作为开头:如何入门 Python 爬虫? - 谢科的回答

如果你想学习编程,但是找不到学习路径和资源,欢迎关注专栏:学习编程

第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html

Python版本:2.7

整体目录:

一、爬虫入门

1. Python爬虫入门一之综述

2. Python爬虫入门二之爬虫基础了解

3. Python爬虫入门三之Urllib库的基本使用

4. Python爬虫入门四之Urllib库的高级用法

5. Python爬虫入门五之URLError异常处理

6. Python爬虫入门六之Cookie的使用

7. Python爬虫入门七之正则表达式

二、爬虫实战

1. Python爬虫实战一之爬取糗事百科段子

2. Python爬虫实战二之爬取百度贴吧帖子

3. Python爬虫实战三之实现山东大学无线网络掉线自动重连

4. Python爬虫实战四之抓取淘宝MM照片

5. Python爬虫实战五之模拟登录淘宝并获取所有订单

6. Python爬虫实战六之抓取爱问知识人问题并保存至数据库

7. Python爬虫实战七之计算大学本学期绩点

8. Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺

三、爬虫利器

1. Python爬虫利器一之Requests库的用法

2. Python爬虫利器二之Beautiful Soup的用法

3. Python爬虫利器三之Xpath语法与lxml库的用法

4. Python爬虫利器四之PhantomJS的用法

5. Python爬虫利器五之Selenium的用法

6. Python爬虫利器六之PyQuery的用法

四、爬虫进阶

1. Python爬虫进阶一之爬虫框架概述

2. Python爬虫进阶二之PySpider框架安装配置

3. Python爬虫进阶三之爬虫框架Scrapy安装配置

4. Python爬虫进阶四之PySpider的用法

第二(第一的姊妹篇):Python爬虫入门教程(来源于博主:blog.csdn.net/column/details/why-bug.html)

Python版本:2.7

教程目录:

[Python]网络爬虫(一):抓取网页的含义和URL基本构成

[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容

[Python]网络爬虫(三):异常的处理和HTTP状态码的分类

[Python]网络爬虫(四):Opener与Handler的介绍和实例应用

[Python]网络爬虫(五):urllib2的使用细节与抓站技巧

[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫

[Python]网络爬虫(七):Python中的正则表达式教程

[Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)

[Python]网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析

[Python]网络爬虫(十):一个爬虫的诞生全过程(以山东大学绩点运算为例)

[Python]网络爬虫(11):亮剑!爬虫框架小抓抓Scrapy闪亮登场!

[Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程

第三:你已经看完上面(第一或者第二)的教程:再推荐知乎用户@陈唯源 的实战练习博客

Python爬虫学习记录(1)——Xiami全站播放数

Python爬虫学习记录(2)——LDA处理歌词

百度音乐带标签,作曲,演唱者,类别的歌词数据

Python爬虫学习记录(4)——传说中的足彩倍投法。。好像也不是那么靠谱

2011~2013.5全球所有足球比赛比分数据以及足彩各公司盘口

Python爬虫学习记录(3)——用Python获取虾米加心歌曲,并获取MP3下载地址

Python爬虫学习记录(5)——python mongodb + 爬虫 + web.py 的acfun视频排行榜

Python爬虫学习记录(0)——Python 爬虫抓站 记录(虾米,百度,豆瓣,新浪微博)

第四:最后推荐知乎用户@gaga salamer 的实战练习博客

爬虫教程(1)基础入门

爬虫教程(2)性能进阶

知乎用户信息爬虫(规模化爬取)

用scrapy爬取豆瓣电影新片榜

用scrapy对豆瓣top250页面爬取(多页面爬取)

用scrapy自动爬取下载图片

用scrapy自动下载石原sama的豆瓣影人图集(727张图片,自动下载)

希望以上的教程可以帮助到大家。

如果你想学习编程,但是找不到学习路径和资源,欢迎关注专栏:学习编程

如何一步一步的学Java - 知乎专栏
C、C++语言学习资料 - 知乎专栏
学好Python的11个优秀资源 - 知乎专栏
程序员把妹指南之修电脑篇 - 知乎专栏
编程教程资源整理汇总- 知乎专栏
免费实用的API接口 - 知乎专栏
零基础如何开发游戏 - 知乎专栏
代码编辑器的配色方案 - 知乎专栏

【Python】【爬虫】如何学习Python爬虫?的更多相关文章

  1. 【Python3爬虫】学习分布式爬虫第一步--Redis分布式爬虫初体验

    一.写在前面 之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...

  2. 【Python】深入浅出学习Python的yield和generator

    背景 之前走马观花接触过Python协程的概念,这两天和一个同事聊到了协程,死活想不起来曾经看过的东西,就记得一个yield,概念不清: 所以想捋一捋相关的东西,此篇作为学习的记录. Generato ...

  3. 学习Python编程的11个精品资源

    本文由 伯乐在线 - atupal 翻译自 Alex Ivanovs.欢迎加入技术翻译小组.转载请参见文章末尾处的要求. 用 Python 写代码并不难,事实上,它一直以来都是被声称为最容易学习的编程 ...

  4. 怎么高效学习python?其实只需要这个方法,快速掌握不叫事儿

    很多人想学python,并且希望能快速高效的学习python,但一直都没有找到合适的方法,下面谈一下我的方法. 首先,高效入门python 怎么高效学习python?想要高效,就要先搞清楚你这个阶段, ...

  5. 学习python须知,Python基础进阶需掌握哪些知识点?

    Python基础进阶需要掌握哪些知识点?Python将是每个程序员的标配,有编程基础再掌握Python语言对于日后的升职加薪更有利.Python语言简洁利于理解,语法上相对容易能够让开发者更专注于业务 ...

  6. 《Python 二三事》——python学习必看(转载)

        面向初学者介绍Python相关的一些工具,以及可能遇到的常见问题. 原文出处 原文作者:八八年出生的男性,互联网上常用id是 jagttt .目前正从事 IT 行业的工作.业余爱好是动漫游加电 ...

  7. Python的基础学习(第二周)

    模块初始 sys模块 import sys sys.path #打印环境变量 sys.argv#打印该文件路径 #注意:该文件名字不能跟导入模块名字相同 os模块 import os cmd_res ...

  8. 新手想掌握Python技能需要众多Python项目练习,适合项目有哪些?

    适合新手练习的Python项目有哪些?简单易上手的Python项目汇总:Web 项目设计:内容聚合器.正则表达式查询工具.网址缩短.便利贴.功能.测验.GUI 项目设计:MP3 播放器.闹铃提醒工具. ...

  9. 感受python之美,python简单易懂的小例子

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 简洁之美 通过一行代码,体会Python语言简洁之美 2 Python ...

  10. Python开发基础之Python常用的数据类型

    一.Python介绍 Python是一种动态解释型的编程语言.Python它简单易学.功能强大.支持面向对象.函数式编程,可以在Windows.Linux等多种操作系统上使用,同时Python可以在J ...

随机推荐

  1. Spring-注入外部值

    Spring注入需要初始化,但前面均使用硬编码注入,如: JavaConfig配置: package soundSystem; import org.springframework.stereotyp ...

  2. maven 配置多模块项目 pom modules

    所有用Maven管理的真实的项目都应该是分模块的,每个模块都对应着一个pom.xml.它们之间通过继承和聚合(也称作多模块,multi-module)相互关联.那么,为什么要这么做呢?我们明明在开发一 ...

  3. 超全面的JavaWeb笔记day23<AJAX>

    AJAX AJAX概述 1 什么是AJAX AJAX(Asynchronous Javascript And XML)翻译成中文就是“异步Javascript和XML”.即使用Javascript语言 ...

  4. EF的代码优先设计

    CodeFirst 用中文说是代码优先,此技术可以让我们先写代码,然后由Entity Framework根据我们的代码建立数据库 接下来用学生这个例子来演示,有学生表,课程表,和成绩表三张表 首先是M ...

  5. swift - UIProgressView的用法

    1.创建进度条 progressView.frame = CGRect(x:10, y:230, width:self.view.bounds.size.width - 20, height:150) ...

  6. 【RF库Collections库测试】关键字append to list

    Arguments:[ list_ | *values ]Adds `values` to the end of `list`.

  7. C语言编程基础学习字符型数据的ASCII码值为何是负数?

    C语言是面向过程的,而C++是面向对象的 C和C++的区别: C是一个结构化语言,它的重点在于算法和数据结构.C程序的设计首要考虑的是如何通过一个过程,对输入(或环境条件)进行运算处理得到输出(或实现 ...

  8. Sphinx以及coreseek的安装及使用 .No1

    检索结构php -> sphinx -> mysql非结构化数据又叫全文数据,非固定长度字段例如文章标题搜索这类适用sphinx 全文数据搜索:顺序扫描 : 如like查找索引扫描 : 把 ...

  9. 控制input框的内容输入为数字

    <script> function toNum(v) { return v.replace(/[^\d.]/g, '').replace(/^\./g, "").rep ...

  10. 微信公众号支付JSAPI,提示:2支付缺少参数:appId

    因为demo中支付金额是定死的,所以需要调整. 所以在使用的JS上添加了参数传入.这里的传入string类型的参数,直接使用是错误的,对于方法,会出现appid缺少参数的错误 //调用微信JS api ...