Python 开发轻量级爬虫

(imooc总结06--网页解析器)

介绍网页解析器

    将互联网的网页获取到本地以后，我们需要对它们进行解析才能够提取出我们需要的内容。

    也就是说网页解析器是从网页中提取有价值数据的一种工具，对于搜索引擎来说它会提取出网页所有的url，用于后续的访问。

    但是，对于我们定向爬虫来说，除了提取出待爬取的url之外，会提取出我们感兴趣的想要的有价值的数据。

    也就是说，网页解析器会以下载好的HTML网页字符串作为输入，然后提取出有价值的数据和新的待爬取的url列表。

Python有哪几种网页解析器呢？

    最直观的一种使用正则表达式，它会将整个网页当做一个字符串，然后使用模糊匹配方式来提取出有价值数据。

    虽然直观，但是文档要是比较复杂的话，这种方式非常的麻烦。

    我们可以使用python自带的html.parser来解析网页。

    可以使用BeautifulSoup这个第三方插件来解析网页。

    可以使用lxml这个第三方的插件来解析html网页或xml网页。

    其中BeautifulSoup这个第三方插件，它可以使用python自带的html.Parser作为它的解析器，也可以用lxml作为它的解析器，相对来说比较强大。

    这里使用BeautifulSoup来解析网页。

    其中正则表达式是一种字符串型的模糊匹配，另外三种是结构化的解析。

    什么是结构化的解析呢？

    是将整个网页文档下载成一个DOM(document object model)树，

    也就是document object model文档对象模型这么一棵树，以树的形式来进行元素的上下级遍历和访问的。

    DOM树是W3C官方定义的访问解析html的标准接口。

    它会将整个网页的文档当成document对象，在它的下面就是html根节点，再下面就是head元素和body元素，head元素下面又会包含titile元素每个元素。

    如果没有子元素，就会对应文本，比如说文本“我的标题”，Body元素下也会包含很多的子元素 a元素 div元素，a元素下包含需要文本链接文本 Div元素 包含段落文本。

    同时每个元素有自身属性的话，herf就是链接元素它指定的url。

    如何使用这种方式？

    dom就将整个文档下载成树型结构，使用树型的上下级关系，可以很方便的定位到某个元素，然后访问这个元素的自身的属性、文本。

    BeautifulSoup这个第三方的插件就是使用dom的方式来解析网页的。

Python 开发轻量级爬虫06的更多相关文章

Python 开发轻量级爬虫08
Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据. 本实例确定抓 ...
Python 开发轻量级爬虫07
Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip i ...
Python 开发轻量级爬虫05
Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器 ...
Python 开发轻量级爬虫04
Python 开发轻量级爬虫 (imooc总结04--url管理器) 介绍抓取URL管理器 url管理器用来管理待抓取url集合和已抓取url集合. 这里有一个问题,遇到一个url,我们就抓取它的内容 ...
Python 开发轻量级爬虫03
Python 开发轻量级爬虫 (imooc总结03--简单的爬虫架构) 现在来看一下一个简单的爬虫架构. 要实现一个简单的爬虫,有哪些方面需要考虑呢? 首先需要一个爬虫调度端,来启动爬虫.停止爬虫.监 ...
Python 开发轻量级爬虫02
Python 开发轻量级爬虫 (imooc总结02--爬虫简介) 爬虫简介首先爬虫是什么?它是一段自动抓取互联网信息的程序. 什么意思呢? 互联网由各种各样的的网页组成,每一个网页都有对应的url, ...
Python 开发轻量级爬虫01
Python 开发轻量级爬虫 (imooc总结01--课程目标) 课程目标:掌握开发轻量级爬虫为什么说是轻量级的呢?因为一个复杂的爬虫需要考虑的问题场景非常多,比如有些网页需要用户登录了以后才能够访 ...
Python开发轻量级爬虫
这两天自学了python写爬虫,总结一下: 开发目的:抓取百度百科python词条页面的1000个网页设计思路: 1,了解简单的爬虫架构: 2,动态的执行流程: 3,各部分的实现: URL管理器:p ...
Python开发简单爬虫 - 慕课网
课程链接:Python开发简单爬虫环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程用Eclipse编写Python程序课程目录第1章课程介绍 ...

随机推荐

基于jquery的has()方法以及与find()方法以及filter()方法的区别详解
has(selector选择器或DOM元素) 将匹配元素集合根据选择器或DOM元素为条件,检索该条件在每个元素的后代中是否存在,将符合条件的的元素构成新的结果集. 下面举一个例子: <ul& ...
Markdown 11种基本语法
markdown真的很方便! 我根据自己在github上维护的项目编写的readme文件总结一些最基本的使用方法 ,学完这些Markdown的基本使用已经不成问题. 1. 标题设置(让字体变大,和wo ...
让游戏以高性能GPU（独立显卡）运行
在EXE中导出全局变量: N卡: extern "C" { __declspec(dllexport) DWORD NvOptimusEnablement = 0x00000001 ...
Swagger+AutoRest 生成web api客户端(.Net)
简介对于.net来说,用web api来构建服务是一个不错的选择,都是http请求,调用简单,但是如果真的要在程序中调用,则还有些工作要做,比如我们需要手写httpClient调用,并映射Model ...
CURL
基本语法: function curl($url){ $ch=curl_init(); //初始化 curl_setopt($ch, CURLOPT_URL, $url); //核心 curl_se ...
Filter(过滤器)学习
一.Filter简介 Filter也称之为过滤器,它是Servlet技术中最激动人心的技术,WEB开发人员通过Filter技术,对web服务器管理的所有web资源:例如Jsp, Servlet, 静态 ...
滑动控件-FlipView
<Grid> <FlipView> <FlipView.Items> &l ...
Java排序算法——拓扑排序
package graph; import java.util.LinkedList; import java.util.Queue; import thinkinjava.net.mindview. ...
js中的逻辑与（&&）和逻辑或（||）
之前有一个同事去面试,面试过程中碰到这样一个问题: 在js中写出如下的答案 : var a = 2; var b = 3; var andflag = a && b ; var orf ...
在Activity之间传递参数(三)——serializable和parcelable的区别
传递值对象: 一.serializable实现:简单易用 serializable的迷人之处在于你只需要对某个类以及它的属性实现Serializable 接口即可.Serializable 接口是一种 ...

Python 开发轻量级爬虫06

Python 开发轻量级爬虫

(imooc总结06--网页解析器)

Python 开发轻量级爬虫06的更多相关文章

随机推荐

热门专题