项目为爬取Python词条的信息。

项目代码在我的码云仓库。

https://gitee.com/libo-sober/learn-python/tree/master/baike_spider

1.开发轻量级爬虫

1.1爬虫简介

爬虫：一段自动抓取互联网信息的程序。

自动访问互联网并且提取数据。

价值：互联网数据为我所用。

1.2简单爬虫架构

运行流程：

1.3URL管理器

URL管理器：管理待抓取URL集合和已抓取URL集合。防止重复抓取和循环抓取。

实现方式：

一般大公司都存在缓存数据库中。

1.4网页下载器

网页下载器：将互联网上URL对应的网页下载到本地的工具。

Python有哪几种网页下载器？

1.5 urllib2

urllib2下载网页方法1：最简洁方法

python3中把urllib2改为了urllib.request

对应到代码：

urllib2下载网页方法2：添加data、http header

urllib2下载网页方法3：添加特殊情景的处理器。

有些网页需要登录才能处理，需要添加Cookie的处理；

有些网页需要代理才能访问，使用ProxyHandler；

有些网页使用Https加密访问，使用HTTPSHandler；

有些网页url是相互自动跳转的关系，使用HTTPRedirectHandler。

对应到代码：

1.6网页解析器

网页解析器：从网页中提取出有价值的数据的工具。

python有哪几种网页解析器？

结构化解析-DOM（Document Object Model）树

1.7 Beautiful Soup

python第三方库，用于从HTML或XML中提取数据

安装并测试beautifulsoup4

安装：pip install beautifulsoup4

测试：import bs4

语法：

例如：

创建BeautifulSoup对象

搜索节点(find_all, find)

访问节点信息

1.8 实例爬虫

目标：百度百科python词条相关词条网页-标题和简介。

入口页：https://baike.baidu.com/item/Python/407313

词条页面URL:/item/opencv 这不是一个完整的URL，需要补全。

数据格式：

标题：

《dd class="lemmaWgt-lemmaTitle-title">

Python

简介：

《div class=''para''>

python爬虫学习过程记录的更多相关文章

Python爬虫个人记录（三）爬取妹子图
这此教程可能会比较简洁,具体细节可参考我的第一篇教程: Python爬虫个人记录(一)豆瓣250 Python爬虫个人记录(二)fishc爬虫一.目的分析获取煎蛋妹子图并下载 http://jan ...
Python爬虫个人记录（二）获取fishc 课件下载链接
参考: Python爬虫个人记录(一)豆瓣250 (2017.9.6更新,通过cookie模拟登陆方法,已成功实现下载文件功能!!) 一.目的分析获取http://bbs.fishc.com/for ...
python爬虫学习记录
爬虫基础 urllib,urllib2,re都是python自带的模块 urllib,urllib2区别是urllib2可以接受一个Request类的实例来设置url请求的headers,即可以模拟浏 ...
Python爬虫学习记录【内附代码、详细步骤】
引言: 昨天在网易云课堂自学了<Python网络爬虫实战>,视频链接老师讲的很清晰,跟着实践一遍就能掌握爬虫基础了,强烈推荐! 另外,在网上看到一位学友整理的课程记录,非常详细,可以优先 ...
Python爬虫之记录一次下载验证码的尝试
好久没有写过爬虫的文章了,今天在尝试着做验证码相关的研究时,遇到了验证码的收集问题. 一般,验证码的加载都有着比较复杂的算法和加密在里边,但是笔者今天碰到的验证码却比较幸运,有迹可循.在此,给 ...
Python爬虫实践 -- 记录我的第二只爬虫
1.爬虫基本原理我们爬取中国电影最受欢迎的影片<红海行动>的相关信息.其实,爬虫获取网页信息和人工获取信息,原理基本是一致的. 人工操作步骤: 1. 获取电影信息的页面 2. 定位(找到 ...
Python爬虫个人记录（四）利用Python在豆瓣上写一篇日记
涉及关键词:requests库 requests.post方法 cookies登陆 version 1.5(附录):使用post方法登陆豆瓣,成功! 缺点:无法获得登陆成功后的cookie,要使用js ...
Python 爬虫个人记录（一）豆瓣电影250
一.爬虫环境 Python3.6 scrapy1.4 火狐浏览器 qq浏览器二.scrapy shell 测试并获取 xpath 1.进入scrapy shell 2 .获取html fetch(' ...
Python爬虫实践 -- 记录我的第一只爬虫
一.环境配置 1. 下载安装 python3 .(或者安装 Anaconda) 2. 安装requests和lxml 进入到 pip 目录,CMD --> C:\Python\Scripts,输 ...

随机推荐

Java indexof
java中字符串方法 indexof() indexof()可以返回输入的字符串在目标字符串中第一次出现的位置,如果没有出现返回int 0:
Android开发进程0.1 轮播图 Scrollview Fragment
轮播图的实现轮播图通过banner可以较为便捷的实现 1.添加本地依赖,在dependence中搜索相关依赖 2.添加banner的view组件 3.创建适配器GlideImageLoader ex ...
把H2数据库从jar包部署到Kubernetes，并解决Ingress不支持TCP的问题
1 前言欢迎访问南瓜慢说 www.pkslow.com获取更多精彩文章! H2 Database是一个优秀的数据库,又小又方便,支持内存和文件形式,经常会在测试.POC(proof of conce ...
Storcli64 工具操作指南
1.1 介绍 storcli64可对LSIRAID卡基本操作进行管理,本文主要是对LSIRAID卡常使用到的命令进行介绍 1.2 基本语法获取控制器号:storcli64 /call show al ...
JavaScript学习系列博客_18_JavaScript中的匿名函数
匿名函数 - 用函数声明的方式创建一个函数时,不加函数名称. function sum(){ console.log("我是函数sum")} - 不加名称,这样写浏览器是会报错的. ...
IDEA_Shelve代码搁置与恢复
日常开发中,经常会遇到在当前分支开发到一半,但是需要Checkout上个版本解决bug或调查问题的情况.这个时候,我们是将代码提到Push远程?还是直接Rollback? 最理想的做法,就是将当前的开 ...
Vscode配置C++环境
(终于申请博客了qaq) 之前用了那么久Dev-C++,总算换了一个编辑器,Visual Studio Code (Vscode). 界面可比以前的舒适多了. Vscode作为一款功能极其丰富的开发工 ...
计算机网络-网络层（3）DHCP协议
主机获得IP地址,除了可以通过静态配置,还可以通过动态主机配置协议DHCP: Dynamic Host Configuration Protocol从服务器动态获取IP地址.子网掩码.默认网关地址.D ...
Deep and Beautiful. The Reward Prediction Error Hypothesis of Dopamine
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Contents: Abstract 1. Introduction 2. Reward-Prediction Error Meets D ...
[C#.NET 拾遗补漏]08：强大的LINQ
大家好,这是 [C#.NET 拾遗补漏] 系列的第 08 篇文章,今天讲 C# 强大的 LINQ 查询.LINQ 是我最喜欢的 C# 语言特性之一. LINQ 是 Language INtegrate ...

python爬虫学习过程记录