Python爬虫之旅(一):小白也能懂的爬虫入门

 

爬虫是什么

爬虫就是按照一定的规则,去抓取网页中的信息。爬虫流程大致分为以下几步:

  • 向目标网页发送请求
  • 获取请求的响应内容
  • 按照一定的规则解析返回的响应内容,获得想要的信息
  • 将获取的信息保存下来

战前准备

在正式开始前,我们先看下我们需要准备些什么:

  • 开发环境:Python3.6
  • 开发工具:PyCharm
  • 使用框架:requests2.21.0、lxml4.3.3

以上是本次开发中使用到的东西,使用 PyCharm 在 Python3.6 下开发,开发使用到两个框架 requests 和 lxml,非常简单。

开战

创建项目

  • 创建一个 Pure Python(纯净的Python项目) 项目即可,不需要使用其他框架,项目名随意,我在例子中取的是 py-spiderman

  • 创建一个python文件,文件名随意,我在例子中取的是 first_spider

安装 requests 和 lxml

  • requests 是 Python 中非常强大的一个网络请求模块,简单易用,
    直接在 PyCharm 的 Terminal 中输入 pip install requests 即可。

  • lxml 是我们用来解析请求的响应内容的模块,使用 XPath 语法,非常强大。安装方法同上,在 Terminal 中输入pip install lxml 即可。

开始编程

开始编程前,我们先选择一个目标网页,本示例的目标网页是 https://www.archdaily.cn/cn/915495/luo-shan-ji-guo-ji-ji-chang-xin-lu-ke-jie-yun-xi-tong-yi-dong-gong
我们需要抓取网页中的文章标题、时间、作者以及内容文本信息。

我们在创建的 python 文件中,先导入需要使用到的模块,再创建一个名为 SimpleSpider 的 class,然后在 class 编写爬虫方法

# 导入系统信息模块,用于获取项目根目录
import os
# 导入网络请求库,用于请求目标网页,获取网页内容
import requests
# 导入时间库,用于获取当前时间
from datetime import datetime
# 导入 lxml 的 etree 模块,用于解析请求返回的 html
from lxml import etree # 创建一个爬虫类
class SimpleSpider:
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

发送请求,获取网页内容

python 中方法使用 def 进行标识,方法前添加双下滑线表示方法为类的私有方法,不得被外部访问。requests 的 get() 方法可以直接向网页发送一个 get 请求,并返回一个 response 对象。

  def __get_target_response(self, target):
"""
发送请求,获取响应内容 :param target(str): 目标网页链接
"""
# 向目标 url 发送一个 get 请求,返回一个 response 对象
res = requests.get(target)
# 返回目标 url 的网页 html 文本
return res.text
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

解析网页内容,获取想要的信息

在解析响应内容前,我们先使用Chrome浏览器打开目标网页,并打开网页源码,点击键盘的 F12 即可,然后在源码中寻在我们需要的信息,比如说标题,如下图:

从图中可知,标题在 header 标签下的 h1 标签中,那么我们如何提取出来呢?这时就需要用到我们导入的 lxml 库中的 etree 模块,那么 etree 如何使用呢?

  • 首先我们先通过 etree.HTML() 的方法创建一个 基于XPath的解析对象,这里如果不懂 XPath 的去花一分钟时间了解下,很简单 。
dom = etree.HTML(上述方法返回的响应内容文本)
  • 1

这里的 dom 对象就是将 html 文本转换后的 html 内容元素

  • 然后就可以开始解析了,如下
title = dom.xpath('//h1/text()')[0]
  • 1

//h1/text()是一句 XPath语句,//指当前节点下的所有子孙节点,你可以简单的理解为 <html> 标签下的所有节点,//h1 就是指 <html> 节点下的所有 <h1> 标签,h1/text() 则是指 <h1> 标签下的文本内容,但是仅仅是第一层级的文本内容,例:<h1> ABC </h1>的 h1/text() 值为 ABC,但是 <h1> ABC <span> SS </span></h1> 的h1/text() 值还是 ABC,而不是 ABCSS,因为 SS 被 <span> 标签包裹,属于第二层级了。

所以以上 //h1/text() 的意思就是获取 <html> 标签下所有 <h1> 标签下的第一层的文本内容,如果有多个 <h1> 标签就会按 <h1> 标签在 html 中的顺序返回一个文本内容数组。如果只有一个 <h1> 标签,还是返回一个数组,不过里面只有一个文本内容。在当前网页中,只有一个 <h1> 标签,所以返回一个只有一个元素的数组,[0]则表示获取数组中的第一个元素。

完整的解析代码如下:

    def __parse_html(self, res):
"""
解析响应内容,使用 XPath 解析 html 文本,并保存 :param res(str): 目标网页的 html 文本
"""
# 初始化生成一个 XPath 解析对象,获取 html 内容元素
dom = etree.HTML(res)
# 获取 h1 标签中的文字内容,其中 dom.xpath('//h1/text()')返回的是数组,提取一个元素
title = dom.xpath('//h1/text()')[0]
# 获取 class="theDate" 的 li 标签中的文字内容
date = dom.xpath('//li[@class="theDate"]/text()')[0]
# 获取 rel="author" 的 a 标签中的文字内容
author = dom.xpath('//a[@rel="author"]/strong/text()')[0]
# 获取 rel="author" 的 a 标签中的 href 属性内容
author_link = 'https://www.archdaily.cn/' + dom.xpath('//a[@rel="author"]/@href')[0]
# 获取 article 标签下的所有不含属性的 p 标签元素
p_arr = dom.xpath('//article/p[not(@*)]')
# 创建一个数组用于存储文章中的段落文本
paragraphs = []
# 遍历 p 标签数组
for p in p_arr:
# 提取 p 标签下的所有文本内容
p_txt = p.xpath('string(.)')
if p_txt.strip() != '':
paragraphs.append(p_txt)
paragraphs = paragraphs
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27

保存信息到txt文件中

此部分是拼接上一部分代码,属于方法 __parse_html(self, res) ,为了更好理解爬虫流程,故此拆分。我们将信息写入一个txt文件,文件名是字符串 first 后面拼接当前时间字符串,文件所在目录为项目的根目录。

        # 如果文件不存在会自动创建
# os.getcwd() 获取项目的根目录
# datetime.now().strftime('%Y%m%d%H%M%S')获取当前的时间字符串
with open('{}/first{}.txt'.format(os.getcwd(), datetime.now().strftime('%Y%m%d%H%M%S')), 'w') as ft:
ft.write('标题:{}\n'.format(title))
ft.write('时间:{}\n'.format(date))
ft.write('作者:{}({})\n\n'.format(author, author_link))
ft.write('正文:\n')
for txt in paragraphs:
ft.write(txt + '\n\n')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

执行

既然基本方法都写好了,那么我们先把所有方法串联起来,我们可以另写一个方法将上述方法连接起来:

    def crawl_web_content(self, target):
"""
爬虫执行方法 :param target(str): 目标网页链接
"""
# 调用网络请求方法,并返回一个 response
res = self.__get_target_response(target)
# 调用解析 response 方法
self.__parse_html(res)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

然后我们编写一个执行方法

if __name__ == '__main__':
url = 'https://www.archdaily.cn/cn/915495/luo-shan-ji-guo-ji-ji-chang-xin-lu-ke-jie-yun-xi-tong-yi-dong-gong'
spider = SimpleSpider()
spider.crawl_web_content(url)
  • 1
  • 2
  • 3
  • 4

保存下来的txt的文本内容如下:

标题:
洛杉矶国际机场新旅客捷运系统动工 时间:11:30 - 24 四月, 2019
作者:Eric Baldwin(https://www.archdaily.cn//cn/author/eric-baldwin) 正文:
洛杉矶国际机场的新旅客捷运系统现已开工。建成后,地上火车将帮助旅客穿梭于洛杉矶轻轨与机场。上周,洛杉矶市长Eric Garcetti 参加了为庆祝工程开工的市政活动,LAX希望该项目能提升航站楼之间的联系,并且减少进出机场的机动车拥堵。作为世界上最繁忙的机场之一,新系统将刚落成的租车设施串联起来,旨在为LAX减少交通压力。 捷运系统破土动工仪式于上周四举行。去年,城市委员会同意了LAX联合捷运方案,整个工程将花费49亿美元。作为全球第四大繁忙的机场,LAX正在寻找降低机动车出入依赖的方式。LAWA的官员预计新系统建成后,每年访客的流量将达8500万次。新系统将在 6 个站点停留,其中有3 个站点在机场航站楼中。 正如LAWA申明,捷运系统期望连接绿线地铁(the Metro Green)、Crenshaw/ LAX轻轨线以及固定的租车中心,目标是将超过20个租车办公室集中在一个地点。这个设施将减少因租车需求而进出中心航站楼区域的免费通行车辆,并且每天减少约3200辆进出机场的机动车。地上火车约两分钟一班,每班可载客200人。 捷运系统预计2023年完工。翻译:彭莉
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

传送门

Github:https://github.com/albert-lii/py-spiderman

总结

以上是本文的全部内容,只是个简单的爬虫示例,在后续文章中会逐渐进行升级爬虫功能,比如同时爬取多个网页内容,如何提高效率,如何使用强大的爬虫框架 scrapy 等。

Python爬虫之旅(一):小白也能懂的爬虫入门的更多相关文章

  1. 小白学 Python 爬虫(32):异步请求库 AIOHTTP 基础入门

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  2. 180分钟的python学习之旅

    最近在很多地方都可以看到Python的身影,尤其在人工智能等科学领域,其丰富的科学计算等方面类库无比强大.很多身边的哥们也提到Python非常的简洁方便,比如用Django搭建一个见得网站只需要半天时 ...

  3. Python之路【第十九篇】:爬虫

    Python之路[第十九篇]:爬虫   网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用 ...

  4. 【Python开发】【神经网络与深度学习】网络爬虫之python实现

    一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一 ...

  5. Python 爬虫工程师必看,深入解读字体反爬虫

    字体反爬虫开篇概述 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人 ...

  6. 人脸检测及识别python实现系列(4)——卷积神经网络(CNN)入门

    人脸检测及识别python实现系列(4)——卷积神经网络(CNN)入门 上篇博文我们准备好了2000张训练数据,接下来的几节我们将详细讲述如何利用这些数据训练我们的识别模型.前面说过,原博文给出的训练 ...

  7. 转:python的nltk中文使用和学习资料汇总帮你入门提高

    python的nltk中文使用和学习资料汇总帮你入门提高 转:http://blog.csdn.net/huyoo/article/details/12188573 nltk的安装 nltk初步使用入 ...

  8. 《C# 爬虫 破境之道》:第二境 爬虫应用 — 第六节:反爬策略研究

    之前的章节也略有提及反爬策略,本节,我们就来系统的对反爬.反反爬的种种,做一个了结. 从防盗链说起: 自从论坛兴起的时候,网上就有很多人会在论坛里发布一些很棒的文章,与当下流行的“点赞”“分享”一样, ...

  9. python小白的爬虫之旅

    1.爬www.haha56.net/main/youmo网站的内容 ieimport requests import re response=requests.get("http://www ...

随机推荐

  1. 为什么学习JavaScript设计模式,因为它是核心

    那么什么是设计模式呢?当我们在玩游戏的时候,我们会去追求如何最快地通过,去追求获得已什么高效率的操作获得最好的奖品:下班回家,我们打开手机app查询最便捷的路线去坐车:叫外卖时候,也会找附近最近又实惠 ...

  2. OpenVSwitch实验参考

    1. 使用Floodlight管理OVS桥 (1) 下载:https://codeload.github.com/floodlight/floodlight/tar.gz/v1.2 (2) tar x ...

  3. plsql tables 表存在,但是看不到所有的表信息

      1.情景展示 tables目录存在,但是看不到该数据库下的表信息. 2.解决方案 对比同事的发现,原来是选错用户了. 将用户切换为当前用户就行了,不知道什么时候搞成所有用户了. 写在最后 哪位大佬 ...

  4. C# using 的使用方法

    1.  using :对命名空间的引用 比如 using System; 这样的命名空间,在加入了dll 包之后,也要对包进行引用 对不同命名空间同一方法别名的区分即:定义别名 using Syste ...

  5. [BUAA软工]Beta阶段测试报告

    Beta阶段测试报告 Bug发现与报告 BUG 出现原因 解决方案 将shell加上编辑器UI以后,两边显示的文件不同步 两边的根目录不一致 修改编辑器获取根目录的函数,使其与shell的/home目 ...

  6. oracle通过dblink连接mysql配置详解(全Windows下)

    关于oracle通过dblink连接mysql,经过了两周的空闲时间研究学习,终于配置好了,真是不容易啊,仔细想想的话,其实也没花多长时间,就是刚开始走了一段弯路,所以把这次的经验分享出来,让大家少走 ...

  7. nestjs pm2 启动 静态文件404报错

    不要直接使用pm2 start 可执行文件,静态文件会显示404. 使用如下方式:

  8. gcc编译链接std::__cxx11::string和std::string的问题

    今天公司的小伙伴遇到一个问题,这里做一个记录. 问题是这样的,他编译了公司的基础库,然后在程序中链接的时候遇到点问题,报错找不到定义. 用到的函数声明大概是这样的: void function(con ...

  9. url的长度问题

    url最长支持多少字符? 在http协议中,其实并没有对url长度作出限制,往往url的最大长度和用户浏览器和Web服务器有关,不一样的浏览器,能接受的最大长度往往是不一样的,当然,不一样的Web服务 ...

  10. 统计git提交代码量

    # a新增行数,d删除行数 git log  --author="`git config --get user.name`" --pretty="%H" --a ...