Urllib2基础操作

1、打开网页(urlopen)

打开一个网页

import urllib2

response = urllib2.urlopen('http://www.baidu.com')

html= response.read()

print html

urlopen一般常用的有三个参数，它的参数如下：

urllib.requeset.urlopen(url,data,timeout)

data参数的使用(GET)

import urllib

import urllib2  

data = {'email':'myemail', 'password':'password'}

params = urllib.urlencode(params) 
response= urllib.urlopen("%s?%s"%(uri, params))
code = response.getcode()

data参数的使用(POST)

import urllib

import urllib2  

data = {'email':'myemail', 'password':'password'}

params = urllib.urlencode(data)

response= urllib.urlopen(uri, params)

code = response.getcode()

所以如果我们添加data参数的时候就是以post请求方式请求，如果没有data参数就是get请求方式

timeout参数的使用

在某些网络情况不好或者服务器端异常的情况会出现请求慢的情况，请求设置一个超时时间

import urllib2

response = urllib2.urlopen('http://www.baidu.com', timeout=1)

print(response.read())

2、打开网页(request)

打开一个网页

import urllib.request

request = urllib.request.Request('https://www.baidu.com')

response = urllib.request.urlopen(request)

print(response.read().decode('utf-8'))

指定请求头

import urllib2

# 制定请求头

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64)"}

# 封装请求

request = urllib2.Request(url=url, headers=headers)

response = urllib2.urlopen(request)

content = response.read().decode('utf-8')

print content

3、进阶

增加代理

# 自定义headers

headers = {

    'Host':'www.dianping.com',

    'Cookie': 'JSESSIONID=F1C38C2F1A7F7BF3BCB0C4E3CCDBE245 aburl=1; cy=2;'

    'User-Agent': "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/532.5 (KHTML, like Gecko) Chrome/4.0.249.0 Safari/532.5",

    }

proxy_handler = urllib2.ProxyHandler({'http': 'http://host:port'})

opener = urllib2.build_opener(proxy_handler)

urllib2.install_opener(opener)

request = urllib2.Request(url, headers=headers)

response = urllib2.urlopen(request)

content = response.read().decode('utf-8')

操作cookie

import urllib2

import cookielib

import json

cookie = cookielib.CookieJar()

cookie_s = urllib2.HTTPCookieProcessor(cookie)  # 创建cookie处理器

opener = urllib2.build_opener(cookie_s)

# 构建opener

urllib2.install_opener(opener)

response= urllib2.urlopen('http://www.dianping.com').read()  # 读取指定网站的内容  cj = urllib2.HTTPCookieProcessor(cookie)

print response    # 网页HTML

# 查看cookie

print cookie, type(cookie)

for item in cookie:

    print 'name:' + item.name + '-value:' + item.value

保存cookie

def saveCookie():

    # 设置保存cookie的文件

    filename = 'cookie.txt'

    # 声明一个MozillaCookieJar对象来保存cookie，之后写入文件

    cookie = cookielib.MozillaCookieJar(filename)

    # 创建cookie处理器

    handler = urllib2.HTTPCookieProcessor(cookie)

    # 构建opener

    opener = urllib2.build_opener(handler)

    # 创建请求

    res = opener.open('http://www.baidu.com')

    # 保存cookie到文件

    # ignore_discard的意思是即使cookies将被丢弃也将它保存下来

    # ignore_expires的意思是如果在该文件中cookies已经存在，则覆盖原文件写入

    cookie.save(ignore_discard=True, ignore_expires=True)

在文件中取出cookie

def getCookie():

    # 创建一个MozillaCookieJar对象

    cookie = cookielib.MozillaCookieJar()

    # 从文件中的读取cookie内容到变量

    cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)

    # 打印cookie内容,证明获取cookie成功

    for item in cookie:

        print 'name:' + item.name + '-value:' + item.value

    # 利用获取到的cookie创建一个opener

    handler = urllib2.HTTPCookieProcessor(cookie)

    opener = urllib2.build_opener(handler)

    res = opener.open('http://www.baidu.com')

    print res.read()

来个实例

def my_cookie_test():

    headers = {

        'User-Agent': "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/532.5 (KHTML, like Gecko) Chrome/4.0.249.0 Safari/532.5",

        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

        'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4',

        'Connection': 'keep-alive',

        'Cookie': 'cy=2; _lxsdk_cuid=16000a1a16cc8-0629d2ca3b9f7-40544230-100200-16000a1a16dc8; _lxsdk=16000a1a16cc8-0629d2ca3b9f7-40544230-100200-16000a1a16dc8; _lxsdk_s=16000a1a16f-c56-870-2aa%7C%7C23; _hc.v=44792549-7147-7394-ac0a-eefed1fa19a2.1511839081; s_ViewType=10',

        'Host': 'www.dianping.com',

        'Referer': 'http://www.dianping.com/shop',

        'Upgrade-Insecure-Requests': 1

    }

    # 请求cookie

    cj_a = cookielib.CookieJar()

    cj_s = urllib2.HTTPCookieProcessor(cj_a)

    proxy_s = urllib2.ProxyHandler({'http': '0.0.0.0:8080'})

    opener = urllib2.build_opener(proxy_s, cj_s)

    urllib2.install_opener(opener)

    try:

        request = urllib2.Request("http://www.dianping.com/shop/000000/", headers=headers)

        response = urllib2.urlopen(request)

        content = response.read().decode('utf-8')

        # HTML

        print content

        cookie_data = {}

        for item in cj_a:

            # print '请求之后：name:' + item.name + '-value:' + item.value

            cookie_data[item.name] = item.value

        cookie_str = json.dumps(cookie_data)

        with open('cookie.txt', 'w') as f:

            f.write(cookie_str)

        print("cookies信息已保存到本地")

    except Exception as e:

        print e

网页信息抽取。。。待下期。。。

urllib2基础操作的更多相关文章

python基础操作以及hdfs操作
目录前言基础操作 hdfs操作总结一.前言作为一个全栈工程师,必须要熟练掌握各种语言...HelloWorld.最近就被"逼着"走向了python开发之路, ...
MYSQL基础操作
MYSQL基础操作 [TOC] 1.基本定义 1.1.关系型数据库系统关系型数据库系统是建立在关系模型上的数据库系统什么是关系模型呢? 1.数据结构可以规定,同类数据结构一致,就是一个二维的表格 ...
【Learning Python】【第二章】Python基础类型和基础操作
基础类型: 整型: py 3.0解决了整数溢出的问题,意味着整型不必考虑32位,64位,有无符号等问题,你写一个1亿亿亿,就是1亿亿亿,不会溢出 a = 10 ** 240 print(a) 执行以上 ...
Emacs学习心得之基础操作
作者:枫雪庭出处:http://www.cnblogs.com/FengXueTing-px/ 欢迎转载 Emacs学习心得之基础操作 1.前言与学习计划2.Emacs基础操作一. 前言与学习计 ...
Git基础操作
配置秘钥 1.检查本机有没有秘钥检查~/.ssh看看是否有名为d_rsa.pub和id_dsa.pub的2个文件. $ ~/.sshbash: /c/Users/lenovo/.ssh: Is a ...
activiti基础操作
package activitiTest; import java.io.InputStream; import java.util.List; import java.util.zip.ZipInp ...
《Genesis-3D开源游戏引擎-官方录制系列视频教程：基础操作篇》
注:本系列教程仅针对引擎编辑器:v1.2.2及以下版本 G3D基础操作第一课<G3D编辑器初探> G3D编辑器介绍,依托于一个复杂场景,讲解了场景视图及其基本操作,属性面板和工具栏的 ...
MYSQL 基础操作
1.MySQL基础操作一:MySQL基础操作 1:MySQL表复制复制表结构 + 复制表数据 create table t3 like t1; --创建一个和t1一样的表,用like(表结构也一样 ...
php之文件基础操作
在php中对文件的基础操作非常的简单,php提供的函数粗略的用了一遍. file_get_contents():可以获取文件的内容获取一个网络资源的内容,这是php给我封装的一个比较快捷的读取文件的内 ...

随机推荐

jQuery Validate 插件为表单提供了强大的验证功能
之前项目开发中,表单校验用的jQuery Validate 插件,这个插件为表单提供了强大的验证功能,让客户端表单验证变得更简单,同时提供了大量的定制选项,满足应用程序各种需求.该插件捆绑了一套有用的 ...
SpringMVC框架<mvc:default-servlet-handler/>的作用
1.创建一个新工程 Eclipse下新建一个web项目,File>New>Dynamic Web Project 2.添加Jar包 3.配置Web.xml 4.配置 ...
static修饰类的作用
Java里面static一般用来修饰成员变量或函数.但有一种特殊用法是用static修饰内部类,普通类是不允许声明为静态的,只有内部类才可以.被static修饰的内部类可以直接作为一个普通类来使用,而 ...
机器视觉之 Gabor Feature
在机器视觉中,gabor feature是一种比较常见的特征,因为其可以很好地模拟人类的视觉冲击响应而被广泛应用于图像处理, gabor feature 一般是通过对图像与gabor filter做卷 ...
POI2014
...一个shabi和一堆神题的故事今天只写了两道之后随缘更吧啊顺便 snake我是不会更的 bzoj3829 POI2014 Farmcraft mhy住在一棵有n个点的树的1号结点上,每个 ...
ntp服务器同步时间详细配置
部署NTP服务器进行时间同步 NTP服务端:linl_S IP:10.0.0.15 NTP客户端:lin_C IP:10.0.0.16 NTP服务概述 1.原理 NTP(Network ...
MySQL当月负毛利订单明细_20161027
#当月每天负毛利订单明细 SELECT c.ID,a.city AS 城市,a.username AS 用户ID,a.订单日期,a.订单号,a.销售确认额,a.成本额,a.毛利1, CASE THEN ...
WebSocket的C++服务器端实现
由于需要在项目中增加Websocket协议,与客户端进行通信,不想使用开源的库,比如WebSocketPP,就自己根据WebSocket协议实现一套函数,完全使用C++实现. 代码已经实现,放在个人g ...
有关mapminmax的用法详解
几个要说明的函数接口: [Y,PS] = mapminmax(X) [Y,PS] = mapminmax(X,FP) Y = mapminmax('apply',X,PS) X = mapminmax ...
C# FileStream Write追加写入文本
该例子为追加 C盘中的 file1.txt 的文本内容完整代码如下: 引入命名空间: [csharp] view plain copy print? using System.IO; 完整代码: [ ...

urllib2基础操作