python使用urllib2抓取网页

1、使用python的库urllib2，用到urlopen和Request方法。

2、方法urlopen原形

urllib2.urlopen(url[, data][, timeout])

其中：

url表示目标网页地址，可以是字符串，也可以是请求对象Request

data表示post方式提交给目标服务器的参数

timeout表示超时时间设置

改方法返回一个类似文件的对象，有geturl()、info()、read()方法其中geturl()返回连接地址，info()返回网页信息。

要获取网页内容可以使用read()方法，read也可以带参数，表示读取内容的大小（字节）。

例子：

>>> import urllib2

>>> socket = urllib2.urlopen("http://www.baidu.com")

>>> content = socket.read()

>>> socket.close()

这样，网页的内容（content）就爬下来了，但是有些网站禁止爬虫，如果直接请求会出现以下错误：

urllib2.HTTPError: HTTP Error 403: Forbidden

解决方法是可以在请求加上头信息，伪装成浏览器的访问行为，需要用到Request方法：

3、方法Request原型

urllib2.Request(url[,
data][, headers][, origin_req_host][, unverifiable])

其中：

url表示目标网页地址，可以是字符串，也可以是请求对象Request

data表示post方式提交给目标服务器的参数

headers表示用户标识，是一
个字典类型的数据，有些不允许脚本的抓取，所以需要用户代理，像火狐浏览器的代理就是类似：Mozilla/5.0 (X11; U; Linux
i686)Gecko/20071127 Firefox/2.0.0.11 浏览器的标准UA格式为：浏览器标识 (操作系统标识; 加密等级标识;
浏览器语言) 渲染引擎标识版本信息，headers默认是Python-urllib/2.6

origin_req_host表示请求方的主机域名或者ip地址

看一个例子：

>>> headers = {'User-Agent':'Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11'}
>>> req = urllib2.Request(url="http://blog.csdn.net/deqingguo",headers=headers)
>>> socket = urllib2.urlopen(req)
>>> content = socket.read()
>>> socket.close()

列子2：

 import urllib2 as ul

url = 'http://www.dd.com/products?selected.classification=Primary+antibodies&selected.researchAreas=Metabolism--Types+of+disease--Cancer'

headers = {'User-Agent':'Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11'}  

req = ul.Request(url,headers=headers)

f = ul.urlopen( req )

content = f.read();

print f.getcode();

<pre></pre>
<p></p>
<pre></pre>

python使用urllib2抓取网页的更多相关文章

python多线程实现抓取网页
Python实现抓取网页以下的Python抓取网页的程序比較0基础.仅仅能抓取第一页的url所属的页面,仅仅要预定URL足够多.保证你抓取的网页是无限级别的哈,以下是代码: ##coding:utf ...
【Python开发】python使用urllib2抓取防爬取链接
前几天刚看完<Linux/Unix设计思想>,真是一本不错的书,推荐想提高自己代码质量的童鞋看一下,里面经常提到要以小为美,一个程序做好一件事,短小精悍,因此我也按照这种思想来写pytho ...
Python和Ruby抓取网页时的中文乱码问题(在Eclipse和Apatana Studio下均是这种解决方法
Python抓取中文网页乱码 :Eclipse+pydev2.2+python2.7 :Apatana Studio3+ pydev2.2+python2.7 run时设置 run--&g ...
怎么用Python写爬虫抓取网页数据
机器学习首先面临的一个问题就是准备数据,数据的来源大概有这么几种:公司积累数据,购买,交换,政府机构及企业公开的数据,通过爬虫从网上抓取.本篇介绍怎么写一个爬虫从网上抓取公开的数据. 很多语言都可以写 ...
Python -- 网络编程 -- 抓取网页图片 -- 豆瓣妹子
首先分析页面URL,形如http://dbmeizi.com/category/[1-14]?p=[0-476] 图片种类对应编号: 1:'性感', 2:'有沟', 3:'美腿', 4:'小露点', ...
Python -- 网络编程 -- 抓取网页图片 -- 图虫网
字符串(str)编码成字节码(bytes),字节码解码为字符串获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.pa ...
《与小卡特一起学Python》Code3 抓取网页中的某个数据
import urllib2 file = urllib2.urlopen('http://common.cnblogs.com/script/jquery.js') message = file.r ...
python 解决抓取网页中的中文显示乱码问题
关于爬虫乱码有很多各式各样的问题,这里不仅是中文乱码,编码转换.还包括一些如日文.韩文 .俄文.藏文之类的乱码处理,因为解决方式是一致的,故在此统一说明. 网络爬虫出现乱码的原因源网页编码和爬取下来 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...

随机推荐

SQL SERVER赋权限
--创建登录账户 use master GO EXEC sp_addlogin 'jacky', 'pwd' --EXEC sp_droplogin 'jacky' --删除登陆账户 use Test ...
android MTK驱动背光唤醒流程
在标准的android驱动中,睡眠唤醒流程非常清晰,能够较方便的更改lcd唤醒时间和led背光的点亮时间,但是也很容易出现问题,比如说闪屏,唤醒慢! 出现闪屏有两个原因 1. 开背光时间在唤醒lcd前 ...
JSP连接数据库的两种方式：Jdbc-Odbc桥和Jdbc直连（转）
学JSP的同学都要知道怎么连数据库,网上的示例各有各的做法,弄得都不知道用谁的好.其实方法千变万化,本质上就两种:Jdbc-Odbc桥和Jdbc直连. 下面先以MySQL为例说说这两种方式各是怎么连的 ...
(四)linux网络编程
一.CS架构,BS架构 (1)CS架构介绍(client server,客户端服务器架构),例如:qq.360网盘(2)BS架构介绍(broswer server,浏览器服务器架构)例如:浏览器二. ...
如何让Service自动重启而不被kill掉
重写service的onStartCommand方法. @Override public int onStartCommand(Intent intent, int flags, int sta ...
Android网络编程系列一 TCP/IP协议族之链路层
这篇借鉴的文章主要是用于后续文章知识点的扩散,在此特作备份和扩散学习交流. 数据链路层有三个目的: 为IP模块发送和接收IP数据报. 为ARP模块发送ARP请求和接收ARP应答. 为RARP发送RA ...
Java 文件IO
文件IO Java IO IO流用来处理设备之间的数据传输 Java对数据的操作是通过流的方式 Java用于操作流的对象都在IO包中按操作数据分为字节流和字符流字符流的 ...
[Hibernate] - EAGER and LAZY
Hibernate中的字段映射中的Fetch有两种方式:EAGER和LAZY Eager:全部抓取 Lazy:延迟抓取如果在字段中声明为Eager,那么在取得当前Bean时,同时会抓取Bean中的关 ...
D3.js 第一个程序 HelloWorld
一.HTML 是怎么输出 HelloWorld 的 <html> <head> <meta charset="utf-8"> <title ...
省身 (zhuan)
http://blog.csdn.net/marksinoberg/article/details/52419152 ***************************************** ...

python使用urllib2抓取网页

python使用urllib2抓取网页的更多相关文章

随机推荐

热门专题