通过urllib2抓取网页内容（1）

一、urllib2发送请求

import urllib2

url = 'http://www.baidu.com'

req = urllib2.Request(url)

response = urllib2.urlopen(req)

print response.read()

print response.geturl()

print response.info()

urllib2用一个Request对象，来映射HTTP请求。并将这个请求传入urlopen()中去,返回response对象

Request =>Response http就是基于这样的请求/应答机制

response对象，是一个文件对象，能够调用read(),info(),geturl()等方法

response.read() 读取返回的内容

response.info()获取返回header

response.geturl() 获取实际訪问的url

urllib2使用同样的接口处理全部的URL头，比方能够这样创建一个ftp请求

req = urllib2.Request('ftp://duote.com')

二、POST请求

import urllib2

url = "http://www.duote.com/index?php"

data = {"softname":"quicktime.exe","size":"18763","md5":"HEN35FLK3WP"}

req = urllib2.Request(url,data)

response = urllib2.urlopen(req)

print response.read()

Request(url,data=None,headers={}，orgin_req_host=None。univerifiable=False)

urlopen(url, data=None, timeout=<object object>, cafile=None, capath=None, cadefault=False, context=None)

三、GET请求

import urllib

import urllib2

url = "http://www.2345.com"

data = {'name':'Tom','age':'18','studynum':'002195'}

urlvalue = urllib.urlencode(data)

print urlvalue

r_url = url +'?' +urlvalue

data = urllib2.urlopen(r_url)

一般html表单，data须要编写成标准的形式，调用urllib.urlencode()进行urlencode编码，编写完然后用问号衔接加到url后面

通过urllib2抓取网页内容（1）的更多相关文章

爬虫学习一系列：urllib2抓取网页内容
爬虫学习一系列:urllib2抓取网页内容所谓网页抓取,就是把URL地址中指定的网络资源从网络中读取出来,保存到本地.我们平时在浏览器中通过网址浏览网页,只不过我们看到的是解析过的页面效果,而通过程 ...
paip.抓取网页内容--java php python
paip.抓取网页内容--java php python.txt 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog ...
urllib2抓取HTML存入Excel
通过urllib2抓取HTML网页,然后过滤出包含特定字符的行,并写入Excel文件: # -*- coding: utf-8 -*- import sys #import urllib import ...
使用Jsoup函数包抓取网页内容
之前写过一篇用Java抓取网页内容的文章,当时是用url.openStream()函数创建一个流,然后用BufferedReader把这个inputstream读取进来.抓取的结果是一整个字符串.如果 ...
Asp.Net 之抓取网页内容
一.获取网页内容——html ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest.WebResponse.StreamRea ...
ASP.NET抓取网页内容的实现方法
这篇文章主要介绍了ASP.NET抓取网页内容的实现方法,涉及使用HttpWebRequest及WebResponse抓取网页内容的技巧,需要的朋友可以参考下一.ASP.NET 使用HttpWebRe ...
ASP.NET抓取网页内容
原文:ASP.NET抓取网页内容一.ASP.NET 使用HttpWebRequest抓取网页内容这种方式抓取某些页面会失败不过,有时候我们会发现,这个程序在抓取某些页面时,是获不到所需的内容的, ...
c#抓取网页内容乱码的解决方案
写过爬虫的同学都知道,这是个很常见的问题了,一般处理思路是: 使用HttpWebRequest发送请求,HttpWebResponse来接收,判断HttpWebResponse中”Content-Ty ...
C# 抓取网页内容的方法
1.抓取一般内容需要三个类:WebRequest.WebResponse.StreamReader 所需命名空间:System.Net.System.IO 核心代码: view plaincopy ...

随机推荐

git配置用户信息
git配置用户信息一.在本地配置用户信息配置内容:user.name 和 user.email 配置目的:Git用来记录谁做了什么事配置方法:windows下打开Git Bash进行操作 gi ...
JavaScript--控制类名（className 属性）
className 属性设置或返回元素的class 属性. 语法: object.className = classname 作用: 1.获取元素的class 属性 2. 为网页内的某个元素指定一个c ...
HTML--使用提交按钮，提交数据
在表单中有两种按钮可以使用,分别为:提交按钮.重置.这一小节讲解提交按钮:当用户需要提交表单信息到服务器时,需要用到提交按钮. 语法: <input type="submit" ...
Wannafly挑战赛19 A-队列Q
题目描述 ZZT 创造了一个队列 Q.这个队列包含了 N 个元素,队列中的第 i 个元素用 Qi 表示.Q1 表示队头元素,QN 表示队尾元素.队列中的元素是 N 的一个全排列. ZZT 需要在这个队 ...
es6杂记
es6杂记 let 和 const let 仅在代码块里有效 { let a = 10; var b = 1; } a // ReferenceError: a is not defined. b / ...
css3 绘制书本
<!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title&g ...
C#入门经典 Chapter5 变量的更多内容
5.1类型转换 1.类型转换 1.1隐式转换:所有情况下可进行,编译器执行转换. 1.2显示转换强制转换:强迫数据从一种类型转换为另一种类型. (<destinationType>)&l ...
mac中显示隐藏文件和.开头的文件
在控制台中执行一下命令,即可在finder中看到此类文件: defaults write com.apple.Finder AppleShowAllFiles YES killall Finder
ASP.net参数传递总结
同一页面.aspx与.aspx.cs之间参数传递 1. .aspx.cs接收.aspx的参数:由于.aspx和.aspx.cs为继承关系,所以.aspx.cs可以直接对.aspx中的ID进行值提取,具 ...
MYSQL数据库迁移到ORACLE数据库
一.环境和需求1.环境 MySQL数据库服务器: OS version:Linux 5.3 for 64 bit mysql Server version: 5.0.45 Oracle数据库服务器: ...

通过urllib2抓取网页内容（1）

通过urllib2抓取网页内容（1）的更多相关文章

随机推荐

热门专题