urllib基础

urlretrieve()

urlretrieve(网址,本地文件存储地址) 直接下载网页到本地

import urllib.request
#urlretrieve(网址,本地文件存储地址) 直接下载网页到本地
urllib.request.urlretrieve("http://www.baidu.com","dld.html")

urlcleanup()

清除缓存

urllib.request.urlcleanup()

info()

查看网页简介

file=urllib.request.urlopen("http://www.baidu.com")
print(file.info())

getcode()

输出网页爬取状态码,200为正常,其他都不正常

file=urllib.request.urlopen("http://www.baidu.com")
print(file.getcode())

geturl()

获取当前访问的网页的url

file=urllib.request.urlopen("http://www.baidu.com")
print(file.geturl())

超时设置

timeout设置为多少秒才判断超时

import urllib.request
for i in range(1000):
try:
file = urllib.request.urlopen("https://www.cnblogs.com/mcq1999/", timeout=1)
print(len(file.read().decode("utf-8")))
except Exception as e:
print("出现异常")

自动模拟HTTP请求

get请求

模拟百度搜索python:

import urllib.request
import re
keywd="python"
url="http://www.baidu.com/s?wd="+keywd
data=urllib.request.urlopen(url).read().decode("utf-8")
pat='{"title":"(.*?)",'
res=re.compile(pat).findall(data)
print(res)

关键字为中文:

import urllib.request
import re
keywd="百度"
keywd=urllib.request.quote(keywd) #如果有中文
url="http://www.baidu.com/s?wd="+keywd
data=urllib.request.urlopen(url).read().decode("utf-8")
pat='{"title":"(.*?)",'
res=re.compile(pat).findall(data)
print(res)

提取前1~10页:

import urllib.request
import re
keywd="百度"
keywd=urllib.request.quote(keywd) #如果有中文
# 页码公式:page=(num-1)*10
for i in range(1,11):
url="http://www.baidu.com/s?wd="+keywd+"&pn="+str((i-1)*10)
data=urllib.request.urlopen(url).read().decode("utf-8")
pat='{"title":"(.*?)",'
res=re.compile(pat).findall(data)
for j in range(len(res)):
print(res[j])

post请求

import urllib.request
import urllib.parse
posturl="https://www.iqianyue.com/mypost"
postdata=urllib.parse.urlencode({
"name":"mcq@163.com",
"pass":"123456",
}).encode("utf-8")
#进行post,需要使用urllib.request下面的Request(真实post地址,post数据)
req=urllib.request.Request(posturl,postdata)
res=urllib.request.urlopen(req).read().decode("utf-8")
print(res)
fh=open("post.html","w")
fh.write(res)

爬虫的异常处理

如果没有异常处理,爬虫遇到异常时就会直接崩溃停止运行,下次再次运行时,又会从头开始,所以,要开发一个具有顽强生命力的爬虫,必须要进行异常处理。

常见状态码及含义

HTTPError和URLError

两者都是异常处理的类,HTTPError是URLError的子类,HTTPError有异常状态码与异常原因,URLError没有异常状态码,所以在处理的时候,不能使用URLError直接代替HTTPError。如果要代替,必须要判断是否有状态码属性。

URLError出现的原因:

  1. 连不上服务器
  2. 远程url不存在
  3. 无网络
  4. 触发HTTPError
import urllib.request
import urllib.error
for i in range(20):
try:
urllib.request.urlopen("https://www.cnblogs.com/mcq1999/p/python_Crawler_1.html")
print("gg")
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)

浏览器伪装技术

有的网站爬取的时候会返回403,因为对方服务器会对爬虫进行屏蔽。此时,我们要伪装成浏览器才能爬取。

浏览器伪装一般通过报头实现。

由于urlopen()对于一些HTTP的高级功能不支持,所以要修改报头,可以使用urllib.request.build_opener()或urllib.request.Request()下的add_header()实现浏览器的模拟。

opener的全局安装在下面的糗事百科爬虫里有应用

import urllib.request
url="https://blog.csdn.net/"
#头文件格式header=("User-Agent",具体用户代理制)
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
data=opener.open(url).read()
fh=open("ua.html","wb")
fh.write(data)
fh.close()

python新闻爬虫实战

需求:将新浪新闻首页所有新闻都爬倒本地

思路:先爬首页,通过正则表达式获取所有新闻链接,然后依次爬各新闻,并存储到本地

import urllib.request
import re
url="https://news.sina.com.cn/"
data=urllib.request.urlopen(url).read().decode("utf-8","ignore") #忽略有异常的编码
pat1='<a target="_blank" href="(.*?)"'
alllink=re.compile(pat1).findall(data)
for i in range(len(alllink)):
thislink=alllink[i]
urllib.request.urlopen(thislink).read().decode("utf-8","ignore")
urllib.request.urlretrieve(thislink,"news/"+str(i)+".html")

糗事百科爬取

目标1:爬取糗事百科首页的内容(包括视频、图片)

涉及伪装浏览器、opener安装为全局等知识

import urllib.request
import re
url="https://www.qiushibaike.com/"
#测试是否需要伪装浏览器
try:
urllib.request.urlopen(url)
except Exception as e:
print(e)
#显示Remote end closed connection without response,要伪装
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener) #安装为全局
data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
pat='<a class="recmd-content" href="/(.*?)"'
alllink=re.compile(pat).findall(data)
for i in range(len(alllink)):
realurl=url+alllink[i]
print(realurl)
urllib.request.urlretrieve(realurl,"糗事百科/"+str(i)+".html")

目标2:爬取1~10页的文章

import urllib.request
import re
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener) #安装为全局
for i in range(10):
thisurl="https://www.qiushibaike.com/text/page/"+str(i+1)+"/";
data=urllib.request.urlopen(thisurl).read().decode("utf-8","ignore")
pat='<div class="content">.*?<span>(.*?)</span>.*?</div>'
res=re.compile(pat,re.S).findall(data)
for j in range(len(res)):
print(res[j])
print('---------------------')

python爬虫(2)——urllib、get和post请求、异常处理、浏览器伪装的更多相关文章

  1. python爬虫之urllib库(三)

    python爬虫之urllib库(三) urllib库 访问网页都是通过HTTP协议进行的,而HTTP协议是一种无状态的协议,即记不住来者何人.举个栗子,天猫上买东西,需要先登录天猫账号进入主页,再去 ...

  2. python爬虫之urllib库(二)

    python爬虫之urllib库(二) urllib库 超时设置 网页长时间无法响应的,系统会判断网页超时,无法打开网页.对于爬虫而言,我们作为网页的访问者,不能一直等着服务器给我们返回错误信息,耗费 ...

  3. python爬虫之urllib库(一)

    python爬虫之urllib库(一) urllib库 urllib库是python提供的一种用于操作URL的模块,python2中是urllib和urllib2两个库文件,python3中整合在了u ...

  4. Python爬虫之urllib模块2

    Python爬虫之urllib模块2 本文来自网友投稿 作者:PG-55,一个待毕业待就业的二流大学生. 看了一下上一节的反馈,有些同学认为这个没什么意义,也有的同学觉得太简单,关于Beautiful ...

  5. Python爬虫之urllib模块1

    Python爬虫之urllib模块1 本文来自网友投稿.作者PG,一个待毕业待就业二流大学生.玄魂工作室未对该文章内容做任何改变. 因为本人一直对推理悬疑比较感兴趣,所以这次爬取的网站也是平时看一些悬 ...

  6. Python爬虫之urllib.parse详解

    Python爬虫之urllib.parse 转载地址 Python 中的 urllib.parse 模块提供了很多解析和组建 URL 的函数. 解析url 解析url( urlparse() ) ur ...

  7. 第三百二十八节,web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术、设置用户代理

    第三百二十八节,web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术.设置用户代理 如果爬虫没有异常处理,那么爬行中一旦出现错误,程序将崩溃停止工作,有异常处理即使出现错误也能继续执 ...

  8. python爬虫之urllib库介绍

    一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...

  9. 小白学 Python 爬虫(32):异步请求库 AIOHTTP 基础入门

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  10. Python 爬虫之urllib库的使用

    urllib库 urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urlli ...

随机推荐

  1. Django—开发具体流程

    1.创建Django项目 [root@localhost ~]# django-admin startproject 项目名 [root@localhost ~]# django-admin star ...

  2. acwing 17. 从尾到头打印链表

    题目地址 https://www.acwing.com/problem/content/description/18/ 来源:剑指Offer 输入一个链表的头结点,按照 从尾到头 的顺序返回节点的值. ...

  3. QT使用LIBS添加绝对路径的dll引用

    http://blog.sina.com.cn/s/blog_70b93da90100n6w8.html 参考这篇文章 举例: 要引用 F:\QT\parttime_work\build-JChart ...

  4. Java流程控制之循环语句

    循环概述 循环语句可以在满足循环条件的情况下,反复执行某一段代码,这段被重复执行的代码被称为循环体语句,当反复执行这个循环体时,需要在合适的时候把循环判断条件修改为false,从而结束循环,否则循环将 ...

  5. 解决谷歌浏览器在F12情况下自动断点问题(Paused in debugger)

    解决谷歌浏览器在F12情况下自动断点问题(Paused in debugger) 最近在使用谷歌浏览器在调试js脚本的时候,每次按F12,再刷新页面,都会跳出如上图所示的图标,自动进入断点调试.如果不 ...

  6. R语言-laohuji

    项目三-tiger机 说明:每玩一次老ji游戏需要花费一元钱.钻石符号(DD)可以百搭,并且能够将最终的金额加倍. 任务分解: 任务分解的步骤: 将复杂的任务分解为一些简单的子任务: 使用实例: 用通 ...

  7. Ant默认配置文件不是build.xml该如何编写命令进行编译打包

    Ant的构件文件是基于XML编写的,默认名称为build.xml. ant命令默认寻找build.xml文件.若文件名为hello.xml时,读者还需要对命令做少许改变, 改为:ant –f hell ...

  8. promise 极简版封装

    Promise 优点: 解决回调地狱, 对异步任务写法更标准化与简洁化 缺点: 首先,无法取消Promise,一旦新建它就会立即执行,无法中途取消; 其次,如果不设置回调函数,Promise内部抛出的 ...

  9. ASP.NET Core快速入门--学习笔记系列文章索引目录

    课程链接:http://video.jessetalk.cn/course/explore 良心课程,大家一起来学习哈! 抓住国庆假期的尾巴完成了此系列课程的学习笔记输出! ASP.NET Core快 ...

  10. 练手WPF(三)——扫雷小游戏的简易实现(上)

    一.创建项目1.创建WPF项目,设置初始化窗口大小(初级难度):高x宽为430x350.2.添加文件夹Images,并添加相关图片. 3.xaml中引入图片资源. <Window.Resourc ...