Python爬虫（一）抓取指定的页面

DockerChen 2024-10-02 04:13:28 原文

(以下是在windows环境下的操作，python版本为3)

1.urllib库介绍

官方文档上的解释是：

urllib is a package that collects several modules for working with URLs

简单的说就是用来处理url的，它包含以下几个模块：

urllib.request
urllib.request，打开并且读取url
urllib.error，包含了一些urllib.request引起的异常
urllib.parse，解析url
urllib.robotparser，解析robots.txt文件

2.request模块

The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication, redirections, cookies and more.

这里，只需用到urllib.request模块，request模块包含了一些函数，用来处理打开的url。

urlopen()

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

该函数主要的参数就是url，可以是一个字符串也可以是一个request对象。

函数返回一个可以作为文本管理器的对象，有如下方法：

geturl()，返回检索到的url资源，通常用于确定是否允许重定向
info()，返回页面的元信息，例如headers
getcode()，返回响应的http状态码

为了清楚这些函数的作用是什么，我们运行如下python代码：

import urllib.request

url = "http://www.baidu.com"

a = urllib.request.urlopen(url)

print('----------type of a----------')

print(type(a))

print('----------geturl()----------')

print(a.geturl())

print('----------info()----------')

print(a.info())

print('----------getcode()----------')

print(a.getcode())

运行结果：

3.抓取百度上关键词的搜索结果

首先我们需要知道百度搜索的url，打开百度随便搜索一个词，就能在地址栏看到url

得到url之后，剩下的就是对url进行爬取了，代码如下：

# coding=utf-8

# Created by dockerchen

import urllib.request

data = {}

data['word'] = '网络安全'

url_values = urllib.parse.urlencode(data)

url = 'http://www.baidu.com/s?wd='

full_url = url + url_values

data = urllib.request.urlopen(full_url).read()

data = data.decode('utf-8')

print(data)

urllib.parse.urlencode()可以将字符串转换为url格式的字符串，这里data进行转换后，我们可以得到wd=%E7%BD%91%E7%BB%9C%E5%AE%89%E5%85%A8的字符串。

要是只想对一个字符串进行urlencode转换，可以使用urllib.parse.quote()，例如：

>>> import urllib.parse

>>> urllib.parse.quote('网络安全')

'%E7%BD%91%E7%BB%9C%E5%AE%89%E5%85%A8'

上面代码的输出结果其实就是爬取的百度页面搜索结果的源代码，之后要做的事，就是对爬取到的东西进行处理，来获取我们想要的数据

参考：

http://jecvay.com/2014/09/python3-web-bug-series1.html

Python爬虫（一）抓取指定的页面的更多相关文章

Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
【转】Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫实现抓取腾讯视频所有电影【实战必学】
2019-06-27 23:51:51 阅读数 407 收藏更多分类专栏: python爬虫前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问 ...
Python爬虫，抓取淘宝商品评论内容!
作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路我们就拿"德州扒鸡&qu ...
python爬虫数据抓取方法汇总
概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...
python爬虫批量抓取ip代理
使用爬虫抓取数据时,经常要用到多个ip代理,防止单个ip访问太过频繁被封禁.ip代理可以从这个网站获取:http://www.xicidaili.com/nn/.因此写一个python程序来获取ip代 ...
Python爬虫：抓取手机APP的数据
摘要大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1.抓取APP数据包表单: 表单中包括了用户名和密码,当然都是加密 ...
Python爬虫之抓取豆瓣影评数据
脚本功能: 1.访问豆瓣最受欢迎影评页面(http://movie.douban.com/review/best/?start=0),抓取所有影评数据中的标题.作者.影片以及影评信息 2.将抓取的信息 ...

随机推荐

【基础算法-模拟-例题-*校长的问题】-C++
为什么在题目前面打上星号呢? 这道题的正解不是模拟! 正解树状数组! 正解树状数组! 正解树状数组! 重要的事情说够三遍了! 但是,歪解模拟因为数据水都能AC! 因为这道题放在模拟专题中,所以我们就讨 ...
使用C＃调试Windows服务模板项目
Windows服务是非常强大的应用程序,可用于在backgorund中执行许多不同类型的任务.他们可以在不需要任何用户登录的情况下启动,并且可以使用除登录用户之外的其他用户帐户运行.但是,如果通过遵循 ...
Excel催化剂开源第47波-Excel与PowerBIDeskTop互通互联之第一篇
当国外都在追求软件开源,并且在GitHub等平台上产生了大量优质的开源代码时,但在国内却在刮着一股收割小白智商税的知识付费热潮,实在可悲. 互联网的精神乃是分享,让分享带来更多人的受益. 在Power ...
c语言进阶6-指针
指针是c语言的一个重要组成部分是c语言的核心.精髓所在,用好指针可以在c语言编程中起到事半功倍的效果.一方面,可以提高程序的编译效率和执行速度以及实现动态的存储分配:另一方面,使用指针可使程序更灵活 ...
Python在office开发中的应用
Python with Excel 有几个很好的Python模块能够方便地操作Excel的数据,包括读与写,不要求本地安装Excel.例如pandas, openpyxl, xlrd, xlutils ...
python模块知识一自定义模块、time、datetime时间模块
第五章模块 1.自定义模块: 模块分类: 内置模块(标准库)-- python解释器自带的.py文件(模块) 第三方模块(各种大神写的)-- 需要额外下载(并发编程pypi) 自定义模块(自己写的) ...
【RabbitMQ】一文带你搞定RabbitMQ延迟队列
本文口味:鱼香肉丝预计阅读:10分钟一.说明在上一篇中,介绍了RabbitMQ中的死信队列是什么,何时使用以及如何使用RabbitMQ的死信队列.相信通过上一篇的学习,对于死信队列已经有了更 ...
KNN算法实现手写体区分
KNN算法在python里面可以使用pip install指令安装,我在实现之前查看过安装的KNN算法,十分全面,包括了对于手写体数据集的处理.我这里只是实现了基础的识别方法,能力有限,没有数据处理方 ...
go 学习之路（三）
一.strings和strconv使用 1.strings.HasPrefix(s string,prefix string) bool :判断字符串s是否以prefix开头 2.stings.Has ...
iOS基础面试题汇总
目录 1. #import 跟#include.@class有什么区别?#import<> 跟 #import""又什么区别? 都可以完整包含某个文件的内容,但是#im ...