请求网址获取网页代码

import urllib.request

url = "http://www.baidu.com"

response = urllib.request.urlopen(url)

data = response.read()

# print(data)

# 将文件获取的内容转换成字符串

str_data = data.decode("utf-8")

print(str_data)

# 将结果保存到文件中

with open("baidu.html", "w", encoding="utf-8") as f:

    f.write(str_data)

get带参数请求

import urllib.request

def get_method_params(wd):

    url = "http://www.baidu.com/s?wd="

    # 拼接字符串

    final_url = url + wd

    # 发送网络请求

    response = urllib.request.urlopen(final_url)

    print(response.read().decode("utf-8"))

get_method_params("美女")

直接这么写会报错：

原因是，网址里面包含了汉字，但是ascii码是没有汉字的，需要转义一下：

import urllib.request

import urllib.parse

import string

def get_method_params(wd):

    url = "http://www.baidu.com/s?wd="

    # 拼接字符串

    final_url = url + wd

    # 将包含汉字的网址进行转义

    encode_new_url = urllib.parse.quote(final_url, safe=string.printable)

    # 发送网络请求

    response = urllib.request.urlopen(encode_new_url)

    print(response.read().decode("utf-8"))

get_method_params("美女")

使用字典拼接参数

import urllib.request

import urllib.parse

import string

def get_params():

    url = "http://www.baidu.com/s?w"

    params = {

        "wd": "美女",

        "key": "zhang",

        "value": "san"

    }

    str_params = urllib.parse.urlencode(params)

    print(str_params)

    final_url = url + str_params

    # 将带有中文的url转义

    encode_url = urllib.parse.quote(final_url, safe=string.printable)

    response = urllib.request.urlopen(encode_url)

    data = response.read().decode("utf-8")

    print(data)

get_params()

设置请求的超时时间

urlopen的参数，timeout：可以设置请求的超时时间

post请求

urllib.request.urlopen(url, data="服务器接收的数据")

User-Agent

可以伪装请求头的用户信息

常用的请求头整理：https://www.cnblogs.com/wbyixx/p/12231755.html

import urllib.request

import urllib.parse

import string

import random

def get_random_user_agent():

    import random

    user_agent_list = [......]

    random_user_agent = random.choice(user_agent_list)

    return random_user_agent

url = "http://www.baidu.com"

request = urllib.request.Request(url)

# 添加请求头信息

request.add_header("User-Agent", get_random_user_agent())

# 请求数据

response = urllib.request.urlopen(request)

# print(response.read().decode("utf-8"))

# 获取请求头信息，注意这里的agent小写

print(request.get_header("User-agent"))

handler处理器的使用

import urllib.request

def handler_openner():

    # urlopen为什么可以请求数据

    # 根据源码可以看出，是由于 openner，而openner又由handler而来

    url = "http://www.baidu.com"

    # 创建自己的处理器

    handler = urllib.request.HTTPHandler()

    # 创建自己的openner

    openner = urllib.request.build_opener(handler)

    # 用openner去请求

    response = openner.open(url)

    print(response.read().decode("utf-8"))

handler_openner()

添加ip代理

ip代理的分类

免费的：时效性差，错误率高

付费的：贵，也有失效不能用的

性质分类：

透明：对方知道我们的ip
匿名：对方不知道我们的真实ip，但是知道我们使用了代理
高匿：对方不知道我们的真实ip，也不知道我们使用了代理

使用代理ip去请求

创建 ProxyHandler

import urllib.request

def create_proxy_handler():

    url = "http://www.baidu.com"

    proxy = {

        # 免费的写法

        "http": "http://36.27.28.215:9999"

    }

    # 代理的处理器

    proxy_handler = urllib.request.ProxyHandler(proxy)

    # 创建自己的openner

    openner = urllib.request.build_opener(proxy_handler)

    # 拿着代理ip去发送请求

    response = openner.open(url)

    print(response.read().decode("utf-8"))

create_proxy_handler()

付费的代理写法：

{"http": "username:password@ip:port"}
使用密码管理器

password_manager = urllib.request.HTTPPasswordMgrWithDefaultRealm()

password_manager.add_password(None, proxy_uri, user, pwd)

handler_auth_proxy = urllib.request.ProxyBasicAuthHandler(password_manager)

openner_auth_proxy = urllib.request.build_opener(handler_auth_proxy)

response = openner_auth_proxy.open(url)

Cookie验证请求

手动粘贴cookie

import urllib.request

url = "需要cookie验证才能访问的链接"

headers = {

    'User-Agent': 'User-Agent,Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',

    "Cookie": 'xxx手动粘贴cookie到这里'

}

request = urllib.request.Request(url, headers=headers)

response = urllib.request.urlopen(request)

data = response.read()

with open("data.html", "wb") as f:

    f.write(data)

自动获取cookie

使用代码发送登录请求，获取有效的cookie
自动带着cookie去请求其他页面

import urllib.request

import urllib.parse

from http import cookiejar

headers = {

    'User-Agent': 'User-Agent,Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',

}

login_url = "..."

target_url = "https://i-beta.cnblogs.com/posts"

login_form_data = {

    "username": "xxx",

    "password": "xxx",

    # ......其他参数

}

# 转码

login_form_data = urllib.parse(login_form_data).encode("utf-8")

# 发送请求，拿到response里的cookie

cookie_jar = cookiejar.CookieJar()

# 定义有添加cookie功能的处理器

cookie_handler = urllib.request.HTTPCookieProcessor(cookie_jar)

# 根据处理器生成openner

openner = urllib.request.build_opener(cookie_handler)

# 带着参数，发送post请求

login_request = urllib.request.Request(login_url, headers=headers, data=login_form_data)

# 如果登录成功，cookiejar会自动保存cookie

openner.open(login_request)

target_request = urllib.request.Request(target_url, headers=headers)

response = openner.open(target_request)

data = response.read()

print(data)

错误处理

常见的Error

HTTPError

UrlError

Python爬虫：urllib库的基本使用的更多相关文章

Python爬虫Urllib库的高级用法
Python爬虫Urllib库的高级用法设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Head ...
Python爬虫Urllib库的基本使用
Python爬虫Urllib库的基本使用深入理解urllib.urllib2及requests 请访问: http://www.mamicode.com/info-detail-1224080.h ...
python爬虫 - Urllib库及cookie的使用
http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...
对于python爬虫urllib库的一些理解（抽空更新）
urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urllib库中,所有和网 ...
Python爬虫--Urllib库
Urllib库 Urllib是python内置的HTTP请求库,包括以下模块:urllib.request (请求模块).urllib.error( 异常处理模块).urllib.parse (url ...
python爬虫---urllib库的基本用法
urllib是python自带的请求库,各种功能相比较之下也是比较完备的,urllib库包含了一下四个模块: urllib.request 请求模块 urllib.error 异常处理模块 u ...
python爬虫 urllib库基本使用
以下内容均为python3.6.*代码学习爬虫,首先有学会使用urllib库,这个库可以方便的使我们解析网页的内容,本篇讲一下它的基本用法解析网页 #导入urllib from urllib im ...
Python爬虫urllib库的使用
urllib 在Python2中,有urllib和urllib2两个库实现请求发送,在Python3中,统一为urllib,是Python内置的HTTP请求库 request:最基本的HTTP请求模块 ...
Python爬虫 Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
python爬虫urllib库使用
urllib包括以下四个模块: 1.request:基本的HTTP请求模块,可以用来模拟发送请求.就像在浏览器里输入网址然后回车一样,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程. ...

随机推荐

mongo 改数据库名称
用命令 db.copyDatabase('old_name', 'new_name') 可以备份出一个新的数据库. 然后 use old_name 并db.dropDatabase() 即可删除旧的 ...
Codeforces补题2020.2.28（Round624 Div 3)
A.Add Odd or Subtract Even 签到题~ #include<bits/stdc++.h> using namespace std; int T; int a,b; i ...
webpack配置的说明
{devtool: 'source-map',//要启用source-map需加上此配置项,同时css或less的loader要加上参数?sourceMap,js的loader不用加 entry: e ...
robots.txt 让搜索引擎不再收录网站
有没有担心过自己的隐私会在强大的搜索引擎面前无所遁形?想象一下,如果要向世界上所有的人公开你的私人日记,你能接受吗?的确是很矛盾的问题,站长们大都忧虑“如何让搜索引擎收录的我的网站?”,而我们还是要研 ...
IIS7.x经典模式与集成模式
参考文档:http://book.51cto.com/art/200908/146143.htm 个人理解: 经典模式: 在IIS6中aspnet_isapi.dll只是ISAPI的一个实现,对asp ...
十大常见web漏洞及防范
十大常见web漏洞一.SQL注入漏洞 SQL注入攻击(SQL Injection),简称注入攻击.SQL注入,被广泛用于非法获取网站控制权,是发生在应用程序的数据库层上的安全漏洞.在设计程序,忽略了 ...
自定义ViewPager，避免左右滑动时与水平滑动控件冲突
import android.content.Context;import android.support.v4.view.ViewPager;import android.util.Attribut ...
js实现文字上下滚动
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
Spring - 周边设施 - H2 embedded 版本引入
1. 概述在 Spring 开发中, 引入 H2 做辅助测试数据库 2. 场景复习 Spring, 复习到持久化部分需要一个数据库来做测试方案方案1: 搭建 MySQL 实例虽然现 ...
RAID 0实验：mdadm
*独立冗余磁盘阵列---RAID0* RAID0: 把多块物理硬盘设备(至少两块)通过硬件或软件的方式串联在一起, 组成一个大的卷组,并将数据依次写入到各个物理硬盘中.任意一块硬盘发生故障将导致整 ...

Python爬虫：urllib库的基本使用