Python使用urllib/urllib3/requests库+beautifulsoup爬取网页

urllib
urllib3
requests
笔者在爬取时遇到的问题
进阶
- urllib
- - parse
  - error
- re库
beautifulsoup
例子:

笔者使用的是python 3.8.1

urllib

urllib提供了一系列用于操作URL的功能。
urllib的request模块可以非常方便地抓取URL内容，也就是发送一个GET请求到指定的页面，然后返回HTTP的响应。

使用pip下载:

pip install urllib

例如对百度搜索界面的抓取(www.baidu.com)

#!/usr/bin/python

# -*- coding: UTF-8 -*-

import urllib

from urllib import request

if __name__ == "__main__":

	headers = {

            'Connection': 'Keep-Alive',

            'Accept': 'text/html, application/xhtml+xml, */*',

            'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',

            'Accept-Encoding': 'gzip, deflate',

            'User-Agent': 'Mozilla/6.1 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',

            'Host': 'www.so.com',

            'Referer': 'https://www.so.com'

        }

    respond = urllib.request.urlopen('http://www.baidu.com', headers=headers)

    print(respond.read().decode('utf-8'))

参考网站:
廖雪峰的官方网站

urllib3

urllib3是一个功能强大且友好的Python HTTP客户端。大多数Python生态系统已经使用urllib3，您也应该使用。urllib3带来了Python标准库中缺少的许多关键功能：

线程安全。
连接池。
客户端SSL / TLS验证。
使用分段编码上传文件。
重试请求和处理HTTP重定向的助手。
支持gzip，deflate和brotli编码。
HTTP和SOCKS的代理支持。
100％的测试覆盖率。
urllib3功能强大且易于使用：
下载：

pip install urllib3

例如抓取百度搜索界面(www.baidu.com)

#!/usr/bin/python

# -*- coding: UTF-8 -*-

import urllib3

if __name__ == "__main__":

    http = urllib3.PoolManager()

    headers = {

        'Connection': 'Keep-Alive',

        'Accept': 'text/html, application/xhtml+xml, */*',

        'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',

        'Accept-Encoding': 'gzip, deflate',

        'User-Agent': 'Mozilla/6.1 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko'

    }

    r=http.request('GET', 'http://www.baidu.com', headers=headers)

    print(r.data)

requests

我们已经讲解了Python内置的urllib模块和其升级版urllib3，用于访问网络资源。但是，它用起来比较麻烦，而且，缺少很多实用的高级功能。

更好的方案是使用requests。它是一个Python第三方库，处理URL资源特别方便。
下载：

pip install requests

注意有 s 在requests中

例如抓取360搜索结果:

# -*- coding: utf-8 -*-

import requests

if __name__ == '__main__':

    keyword = "123sad"

    keyword = input("请输入你想搜索的内容")

    try:

		#添加headers防止被最简单的反爬虫阻止，在chrome按F12后点击Network中一个下滑查看

        headers = {

            'Connection': 'Keep-Alive',

            'Accept': 'text/html, application/xhtml+xml, */*',

            'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',

            'Accept-Encoding': 'gzip, deflate',

            'User-Agent': 'Mozilla/6.1 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',

            'Host': 'www.so.com',

            'Referer': 'https://www.so.com'

        }

        page = 1

        #GET参数列表

        kv = {'q': keyword, 'ie': 'utf-8', 'pn': page}

        # requests.ReadTimeout(60)

        r = requests.get("http://www.so.com/s", headers=headers,

                         params=kv)

        print('url:'+r.request.url)

        r.raise_for_status()

        html = r.text

        print(html)

    except requests.HTTPError as a:

        print(a)

        print("爬取失败")

    except:

        print('失败')

参考网站：廖雪峰的官方网站

笔者在爬取时遇到的问题

1.结果不全

笔者在vs code 中执行时，结果显示不全
如果结果显示不全，需要在cmd中执行文件

python xxx.py

2.‘抓取失败’

显示该问题，一般是因为IP被屏蔽
目前很多搜索引擎都装备了反爬虫，这个时候需要重启路由器（重新拨号）或者挂代理(proxy)，或者试一试别的搜索引擎，笔者抓取百度时频繁出现错误，只能抓取360搜索

3.返回乱码

对返回结果解码

html.decode('utf-8')

进阶

urllib

parse

使用parse模块拼接参数：

params = {'ie': 'utf-8', 'wd': 'python是这个世界上最好的语言'}

url = 'www.baidu.com/s?'+urllib.parse.urlencode(params)

print(url)

结果：

www.baidu.com/s?ie=utf-8&wd=python%E6%98%AF%E8%BF%99%E4%B8%AA%E4%B8%96%E7%95%8C%E4%B8%8A%E6%9C%80%E5%A5%BD%E7%9A%84%E8%AF%AD%E8%A8%80

error

在urllib中设置了两个主要异常类，一个是URLError，一个是HTTPError

try:

...

except urllib.error.HTTPError as e:

    print(e.code)#错误码

    print(e.reason)#错误的原因

    pring(e.headers)#响应的报头

except urllib.error.URLError as e:

    print(e)

re库

re库是用来分析网页返回结果的正则库
安装:

pip install re

正则:

import re

pattern = re.compile(

            r'<li class="res-list" data-lazyload="1"><h3 class="res-title "><a href="(.*?)"', re.S)

        results = pattern.findall(html)

其中,re.compile是创建正则式,findall是在文本中匹配全部，并返回数组格式的数据
有关正则表达式写法和更多数据请看官方文档

笔者推荐使用requests库

beautifulsoup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
pip安装:

pip install bs4

如果要使用lxml解析器请参考博客园，因为下载太慢，笔者使用html解析器

使用beautifulsoup提取指定的html元素:

soup = BeautifulSoup(req.text, "html")

#req是resquests返回的结果

soup.find(name="div", attrs={"class" :"a","id":"b"})

#提取<div class="a" id="b">的元素内容

soup.select(".a")

#提取class="a"的元素,可以使用# .等选择器

human_list=beautifulsoup("<p class='a'></p>")

print(human_list.p["class"])#输出 a

如果要取html元素里的内容，用xx.string或者.text
参考链接
 点我跳转官方文档

例子:

以下代码爬取了https://www.baidu.com/s?ie=UTF-8&wd=afs的第一条搜索结果的名字

import requests

from bs4 import BeautifulSoup

url = "https://www.baidu.com/s?ie=UTF-8&wd=afs"

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'}

req = requests.get(url, headers=headers)

#soup = BeautifulSoup(req.text, "lxml")#使用lxml解析器

soup = BeautifulSoup(req.text, "html")#使用html解析器

human_list=soup.find(name="div", attrs={"class" :"c-abstract"})

human_list=str(human_list)

human_list=human_list.replace('<div class="c-abstract c-abstract-en">',"")

human_list=human_list.replace("</div>","")

human_list=human_list.replace("\n","")

print(human_list)

输出:

<em>AFS</em> study abroad, education and volunteer programs empower people of all ages and backgrounds with essential intercultural knowledge, skills and understanding.

END

Python使用urllib,urllib3,requests库+beautifulsoup爬取网页的更多相关文章

Python Requests库网络爬取全代码
#爬取京东商品全代码 import requestsurl = "http://item.jd.com/2967929.html"try: r = requests.get(url ...
python Requests库网络爬取IP地址归属地的自动查询
#IP地址查询全代码import requestsurl = "http://m.ip138.com/ip.asp?ip="try: r = requests.get(url + ...
利用requests和BeautifulSoup爬取菜鸟教程的代码与图片并保存为markdown格式
还是设计模式的开卷考试,我想要多准备一点资料,于是写了个爬虫爬取代码与图片,有巧妙地进行格式化进一步处理,最终变为了markdown的格式 import requests from bs4 impor ...
python网络爬虫之scrapy 调试以及爬取网页
Shell调试: 进入项目所在目录,scrapy shell “网址” 如下例中的: scrapy shell http://www.w3school.com.cn/xml/xml_syntax.as ...
[原创]python爬虫之BeautifulSoup,爬取网页上所有图片标题并存储到本地文件
from bs4 import BeautifulSoup import requests import re import os r = requests.get("https://re. ...
python爬虫之一：requests库
目录安装requtests requests库的连接异常 HTTP协议 HTTP协议对资源的操作 requests库的7个主要方法 request方法 get方法网络爬虫引发的问题 robots协 ...
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多分类专栏: 网络爬虫版权声明: ...
requests爬取网页的通用框架
概述代码编写完成时间:2017.12.28 写文章时间:2017.12.29 看完中国大学MOOC上的爬虫教程后,觉得自己之前的学习完全是野蛮生长,决定把之前学的东西再梳理一遍,主要是觉得自己写的程 ...
python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...

随机推荐

CloudIDE插件开发实战：教你如何调试代码
摘要:今天我们来重点介绍下CloudIDE插件的调试技巧,在插件开发过程中调试作为重要的问题分析和定位手段能够有效帮助开发者提升插件质量. 今天文章中的样例工程我们继续以上一篇<实战CloudI ...
谈Vite在Electron环境下吃花卷拉馒头的现象
缘起在Electron的渲染进程中(也就是页面代码中), 我们常常使用process.env来携带一些环境变量, 比如HTTP服务地址的基质,本地静态资源的路径等这样做主要有两个目的一个是方便开 ...
Oracle批量新增数据最佳实践
一.需求描述现在的项目改造过程中,从国产的Gbase数据库改造为Oracle数据库,遇到一个问题有的业务操作需要批量新增数据. 这也是一个比较常规的操作,有很多地方确实需要一次性新增多条数据.Gba ...
jmeter跨线程使用token
项目的接口测试,今早所有接口都不通了,查看原因是登录接口地址变了..... 原来的方式是每个线程中都写了登陆接口来获取token,但是因为登陆接口地址改变的原因,要改好多个登陆接口,所以就想把toke ...
CET4词汇
abandon vt.丢弃:放弃,抛弃 ability n.能力:能耐,本领 abnormal a.不正常的:变态的 aboard ad.在船(车)上:上船 abroad ad.(在)国外:到处 ab ...
第一次软件工程与UML的编程作业
博客班级 https://edu.cnblogs.com/campus/fzzcxy/2018SE1/ 作业要求 https://edu.cnblogs.com/campus/fzzcxy/2018S ...
07-flask-使用sqlalchemy
代码 from flask import Flask, render_template from sqlalchemy import create_engine from sqlalchemy.ext ...
css进阶 07-CSS面试题
07-CSS面试题 #常见问题 #你是如何理解 HTML 语义化的? 语义化:指对文本内容的结构化(内容语义化),选择合乎语义的标签(代码语义化). 举例:段落用 p,边栏用 aside,主要内容用 ...
一文搞懂 CountDownLatch 用法和源码！
CountDownLatch 是多线程控制的一种工具,它被称为门阀. 计数器或者闭锁.这个工具经常用来用来协调多个线程之间的同步,或者说起到线程之间的通信(而不是用作互斥的作用).下面我们就来一起 ...
【收藏】关于元数据(Metadata)和元数据管理，这是我的见过最全的解读！
本文主要从元数据的定义.作用.元数据管理现状.管理标准和元数据管理功能等方面讲述了我对元数据(Metadata)和元数据管理的认知及理解. 元数据管理一.元数据的定义按照传统的定义,元数据(Met ...

Python使用urllib,urllib3,requests库+beautifulsoup爬取网页

Python使用urllib/urllib3/requests库+beautifulsoup爬取网页

urllib

urllib3

requests

笔者在爬取时遇到的问题

1.结果不全

2.‘抓取失败’

3.返回乱码

进阶

urllib

parse

error

re库

beautifulsoup

例子:

Python使用urllib,urllib3,requests库+beautifulsoup爬取网页的更多相关文章

随机推荐

热门专题