urllib2

【Python网络爬虫二】使用urllib2抓去网页内容

在Python中通过导入urllib2组件,来完成网页的抓取工作.在python3.x中被改为urllib.request. 爬取具体的过程类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 实现过程: import urllib2 response=urllib2.urlopen('http://gs.ccnu.edu.cn/') html=response.read() print html 将返回的html信息打印出来,这和在网…

Python urllib2 调试

#!/usr/bin/env python # coding=utf-8 __author__ = 'zhaoyingnan' import urllib import urllib2 import chardet class HtmlLoader: def urlLoad(self, sUrl, isPost=False, isDebug=False): try: sContent = None dictHeaders = { 'User-Agent': 'Mozilla/5.0 (X11;…

使用urllib2打开网页的三种方法

#coding:utf-8 import urllib2 import cookielib url="http://www.baidu.com" print '方法 1' response1=urllib2.urlopen(url) print response1.getcode()#验证打开网页是否成功,成功返回200 print len(response1.read())#打印读取网页长度 print'方法 2' request=urllib2.Request(url) reque…

No module named 'urllib2'

import urllib2 response = urllib2.urlopen('http://www.baidu.com/') html = response.read() print html 报错 import urllib2ImportError: No module named 'urllib2' import urllib.request resp=urllib.request.urlopen('http://www.baidu.com') html=resp.read() pr…

Python自动化测试（九）urllib2 发送HTTP Request

urllib2 是Python自带的标准模块, 用来发送HTTP Request的. 类似于 .NET中的, HttpWebRequest类 urllib2 的优点 Python urllib2 发出的HTTP Request, 能自动被Fiddler截获, 方便了调试. Python 可以自动处理Cookie urllib2 的缺点 Python urllib2 发出的http Request, 中的header 会被修改成“首字母大写”, 比如你的代码里写的header 是: conte…

urllib2抓取HTML存入Excel

通过urllib2抓取HTML网页,然后过滤出包含特定字符的行,并写入Excel文件: # -*- coding: utf-8 -*- import sys #import urllib import urllib2 from xlwt import Workbook def getdata(keywords, line): date = '' if keywords in line: # 本行包含keywords start = line.find('>',) end = line.find(…

[Python] urllib2.HTTPError: HTTP Error 403: Forbidden

搬运自http://www.2cto.com/kf/201309/242273.html,感谢原作. 之所以出现上面的异常,是因为如果用 urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的对于该页面访问的请求.但是服务器并不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息,而缺失这些信息的请求往往都是非正常的访问,例如爬虫.有些网站为了防止这种非正常的访问,会验证请求信息中的UserAgent(它的信息包括硬件平台.系统软件.应用软件和用户个人偏好…

python urllib2 发起http请求post

使用urllib2发起post请求 def GetCsspToken(): data = json.dumps({"userName":"wenbin", "password":"passwd"}) try: req = urllib2.Request('http:9.123.127.9/api/system/login', data, {'Content-Type':'application/json'}) f = urll…

cookielib和urllib2模块相结合模拟网站登录

1.cookielib模块 cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源.例如可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送.coiokielib模块用到的对象主要有下面几个:CookieJar.FileCookieJar.MozillaCookieJar.LWPCookieJar.其中他们的关系如下: 2.urllib2模块说到urllib2模块最强大的部分绝对是它的o…

使用python标准库urllib2访问网页

#访问不需要登录的网页import urllib2target_page_url='http://10.224.110.118/myweb/view.jsp' f = urllib2.urlopen(target_page_url)httpCodes=f.getcode()responseStr = f.read()f.close()successful= httpCodes in [200,201,202]#print(responseStr) ######访问需要登录的网页#步骤1. 创建一…

Urllib2 总结

Urllib2 总结介绍 Urllib2是用于获取URLs(统一资源定位符)的一个Python模块.它以urlopen函数的形式提供了非常简单的接口.能够使用各种不同的协议来获取网址.它还提供一个稍微复杂的接口用于处理常见的情况:如基本身份验证.cookies.proxies(代理)等.这些是由handlers和openers对象提供. Urllib2使用相关的网络协议(FTP,http),支持多种获取URLs的方案(以URL前面的”: ”定义,如:ftp://python.org),这里主要…

Python3 安装bulitwith 和urllib2包

# 背景最近在看PACKT的Python Web Scraping, 书上用的是Python 2.X,但是自己电脑上却用的Python 3.4. 版本升级没什么好说的,只是很多的工具包并没有跟着升级.同时目前很多经典教材都是2.X为基础的,并没有跟着升级3.X的内容.十分无语. 搜了下知乎,发现许多人还是认可Python3的升级. 只是我记得Python的快速原型部署一直是程序员津津乐道的话题,现在因为许多常用lib的原因,纠结在语言升级后工具的安装上,令人十分火大. Windows没有设置p…

Python 爬虫学习 urllib2

用urllib2抓取被限制的网站页面 # coding:utf-8 import urllib2 url = "http://blog.csdn.net/troubleshooter" html = urllib2.urlopen(url) print html.read() 返回403错误模拟用户访问 # coding:utf-8 import urllib2 url = "http://blog.csdn.net/troubleshooter" url_hea…

urllib2.open(req).read() 报403的错误：怎么办？

http://www.douban.com/group/topic/18095751/ heads = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Charset':'GB2312,utf-8;q=0.7,*;q=0.7', 'Accept-Language':'zh-cn,zh;q=0.5', 'Cache-Control':'max-age=0', 'Connecti…

网络爬虫urllib2 tornado

百度不支持用tornado请求,可以用美团开放API 测试. import tornado.httpclient def fetch(url): http_header={'User-Agent':'Chrome'} http_request=tornado.httpclient.HTTPRequest(url=url,method='GET',headers=http_header,connect_timeout=200, request_timeout=600) http_client=to…

PYTHON3 urllib2库

python 3.x中urllib库和urilib2库合并成了urllib库..其中urllib2.urlopen()变成了urllib.request.urlopen() urllib2.Request()变成了urllib.request.Request()…

urllib2.URLError: <urlopen error [Errno 10061] >

今天来运行以前的python脚本,结果报这个错:urllib2.URLError: <urlopen error [Errno 10061] > 原来是因为解决方法:打开IE浏览器,依次选择工具——Internet选项——连接——局域网设置,取消代理服务器复选框坑中之最…

python运行报错：urllib2.URLError: <urlopen error [Errno 10061] >

Traceback (most recent call last): File "F:\adt-bundle-windows-x86_64-20140702\eclipse\workspace1\XueChe\src\xueche2\0\xueche.py", line 19, in <module> driver = webdriver.Remote('http://127.0.0.1:4723/wd/hub', desired_caps) File "buil…

python urllib2使用心得

python urllib2使用心得 1.http GET请求过程:获取返回结果,关闭连接,打印结果 f = urllib2.urlopen(req, timeout=10) the_page = f.read() f.close() print the_page 2.http GET请求 + 包头 paras = "Token=1234567890;Uuid=0987654321" url = http://www.cnblogs.com/shhnwangjian send_hea…

urllib2加入header及解决中文乱码问题

def main(): url = "http://www.douban.com" #伪装桌面浏览器 headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} #伪装移动浏览器 #header = {'User-Agent':'Mozilla/5.0 (Linux; U; Android 4.0.3; ko-kr;…

python urllib2 Basic认证

1.通过添加http header 来实现 import urllib2 from base64 import encodestring url = 'http://202.108.1.51' user = 'a' passwd = 'aa' req = urllib2.Request(url) basestr = encodestring('%s:%s' % (user,passwd))[:-1] req.add_header('Authorization','Basic %s' % base…

WEB urllib2 module note

收藏好文,看的懂文档,但效率太慢 cookie 清空 import urllib2 import cookielib from time import sleep cookie=cookielib.CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) for n in range(6): response = opener.open('http://www.docin.com/p-976549…

Python之urllib2

urllib2 - extensible library for opening URLs Note The urllib2 module has been split across several modules in Python 3 named urllib.request and urllib.error. The 2to3 tool will automatically adapt imports when converting your sources to Python 3. Th…

python urllib2 模拟网站登陆

python urllib2 模拟网站登陆 1. 可用浏览器先登陆,然后查看网页源码,分析登录表单 2. 使用python urllib2,cookielib 模拟网页登录 import urllib,urllib2,cookielib #urllib2 支持 http,https def loginWeb(site,user,pwd): ''' 模拟网页登陆,登陆网址,用户名,密码不能为空登录post form 表单逻辑需要对应登录网站,可以使用火狐浏览器firebug插件查看登陆请求的网址…

python中urllib和urllib2的简单用法

import urllib #引入urllib模块,这里用urllib2也可以 fpage = urllib.urlopen( url ) #打开网页:例如url=‘http://www.xxx.com’ html = fpage.read() #获取到url的html数据 import urllib2 try: response = urllib2.urlopen(url) except u2.HTTPError, e: # HTTPError表示服务器不能满足请求: 要放置在URLError…

python使用urllib2抓取网页

1.使用python的库urllib2,用到urlopen和Request方法. 2.方法urlopen原形 urllib2.urlopen(url[, data][, timeout]) 其中: url表示目标网页地址,可以是字符串,也可以是请求对象Request data表示post方式提交给目标服务器的参数 timeout表示超时时间设置改方法返回一个类似文件的对象,有geturl().info().read()方法其中geturl()返回连接地址,info()返回网页信息. 要获取网页…

urllib,urllib2,requests对比

#coding:utf-8 import urllib2 import urllib import httplib import socket import requests #实现以下几个方面内容: ##get请求,post请求 ##请求参数自定义(querystring 针对get,form针对post,cookie,header) ##返回内容格式 ##实现代理 def testforurllib(): r=urllib.urlopen('http://www.baidu.com') #返…

import urllib2response = urllib2.urlopen("http://www.baidu.com")print response.read() urlopen(url, data, timeout) 构造Requset import urllib2 request = urllib2.Request("http://www.baidu.com")response = urllib2.urlopen(request)print respon…

[转]Python中urllib与urllib2的区别与联系

引用文章1:http://my.oschina.net/u/558071/blog/144792 引用文章2:http://zhuoqiang.me/python-urllib2-usage.html#proxy 在python中,urllib2并不是urllib的升级版,urllib和urllib2不可相互替代的,urllib一般和urllib2一起搭配使用.整体来说,urllib2是urllib的增强,但是urllib中有urllib2中所没有的函数. urllib2可以用urllib2.o…

python中urllib, urllib2,urllib3, httplib,httplib2, request的区别

permike原文python中urllib, urllib2,urllib3, httplib,httplib2, request的区别若只使用python3.X, 下面可以不看了, 记住有个urllib的库就行了 python2.X 有这些库名可用: urllib, urllib2, urllib3, httplib, httplib2, requests python3.X 有这些库名可用: urllib, urllib3, httplib2, requests 两者都有的urllib3…

【urllib2】的更多相关文章