urllib2】的更多相关文章

在Python中通过导入urllib2组件,来完成网页的抓取工作.在python3.x中被改为urllib.request. 爬取具体的过程类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 实现过程: import urllib2 response=urllib2.urlopen('http://gs.ccnu.edu.cn/') html=response.read() print html 将返回的html信息打印出来,这和在网…
#!/usr/bin/env python # coding=utf-8 __author__ = 'zhaoyingnan' import urllib import urllib2 import chardet class HtmlLoader: def urlLoad(self, sUrl, isPost=False, isDebug=False): try: sContent = None dictHeaders = { 'User-Agent': 'Mozilla/5.0 (X11;…
#coding:utf-8 import urllib2 import cookielib url="http://www.baidu.com" print '方法 1' response1=urllib2.urlopen(url) print response1.getcode()#验证打开网页是否成功,成功返回200 print len(response1.read())#打印读取网页长度 print'方法 2' request=urllib2.Request(url) reque…
import urllib2 response = urllib2.urlopen('http://www.baidu.com/') html = response.read() print html 报错 import urllib2ImportError: No module named 'urllib2' import urllib.request resp=urllib.request.urlopen('http://www.baidu.com') html=resp.read() pr…
urllib2 是Python自带的标准模块, 用来发送HTTP Request的.  类似于 .NET中的,  HttpWebRequest类 urllib2 的优点 Python urllib2 发出的HTTP Request, 能自动被Fiddler截获, 方便了调试. Python 可以自动处理Cookie urllib2 的缺点 Python urllib2 发出的http Request, 中的header 会被修改成“首字母大写”, 比如你的代码里写的header 是: conte…
通过urllib2抓取HTML网页,然后过滤出包含特定字符的行,并写入Excel文件: # -*- coding: utf-8 -*- import sys #import urllib import urllib2 from xlwt import Workbook def getdata(keywords, line): date = '' if keywords in line: # 本行包含keywords start = line.find('>',) end = line.find(…
搬运自http://www.2cto.com/kf/201309/242273.html,感谢原作. 之所以出现上面的异常,是因为如果用 urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的对于该页面访问的请求.但是服务器并不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息,而缺失这些信息的请求往往都是非正常的访问,例如爬虫.有些网站为了防止这种非正常的访问,会验证请求信息中的UserAgent(它的信息包括硬件平台.系统软件.应用软件和用户个人偏好…
使用urllib2发起post请求 def GetCsspToken(): data = json.dumps({"userName":"wenbin", "password":"passwd"}) try: req = urllib2.Request('http:9.123.127.9/api/system/login', data, {'Content-Type':'application/json'}) f = urll…
1.cookielib模块 cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源.例如可以利用 本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送.coiokielib模块用到的对象主要有下面几 个:CookieJar.FileCookieJar.MozillaCookieJar.LWPCookieJar.其中他们的关系如下: 2.urllib2模块 说到urllib2模块最强大的部分绝对是它的o…
#访问不需要登录的网页import urllib2target_page_url='http://10.224.110.118/myweb/view.jsp' f = urllib2.urlopen(target_page_url)httpCodes=f.getcode()responseStr = f.read()f.close()successful= httpCodes in [200,201,202]#print(responseStr) ######访问需要登录的网页#步骤1. 创建一…
Urllib2 总结 介绍 Urllib2是用于获取URLs(统一资源定位符)的一个Python模块.它以urlopen函数的形式提供了非常简单的接口.能够使用各种不同的协议来获取网址.它还提供一个稍微复杂的接口用于处理常见的情况:如基本身份验证.cookies.proxies(代理)等.这些是由handlers和openers对象提供. Urllib2使用相关的网络协议(FTP,http),支持多种获取URLs的方案(以URL前面的”: ”定义,如:ftp://python.org),这里主要…
# 背景 最近在看PACKT的Python Web Scraping, 书上用的是Python 2.X,但是自己电脑上却用的Python 3.4. 版本升级没什么好说的,只是很多的工具包并没有跟着升级.同时目前很多经典教材都是2.X为基础的,并没有跟着升级3.X的内容.十分无语. 搜了下知乎,发现许多人还是认可Python3的升级. 只是我记得Python的快速原型部署一直是程序员津津乐道的话题,现在因为许多常用lib的原因,纠结在语言升级后工具的安装上,令人十分火大. Windows没有设置p…
用urllib2抓取被限制的网站页面 # coding:utf-8 import urllib2 url = "http://blog.csdn.net/troubleshooter" html = urllib2.urlopen(url) print html.read() 返回403错误 模拟用户访问 # coding:utf-8 import urllib2 url = "http://blog.csdn.net/troubleshooter" url_hea…
http://www.douban.com/group/topic/18095751/ heads = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Charset':'GB2312,utf-8;q=0.7,*;q=0.7', 'Accept-Language':'zh-cn,zh;q=0.5', 'Cache-Control':'max-age=0', 'Connecti…
百度不支持用tornado请求,可以用美团开放API 测试. import tornado.httpclient def fetch(url): http_header={'User-Agent':'Chrome'} http_request=tornado.httpclient.HTTPRequest(url=url,method='GET',headers=http_header,connect_timeout=200, request_timeout=600) http_client=to…
python 3.x中urllib库和urilib2库合并成了urllib库..其中urllib2.urlopen()变成了urllib.request.urlopen() urllib2.Request()变成了urllib.request.Request()…
今天来运行以前的python脚本,结果报这个错:urllib2.URLError: <urlopen error [Errno 10061] > 原来是因为 解决方法:打开IE浏览器,依次选择 工具——Internet选项——连接——局域网设置,取消代理服务器复选框 坑中之最…
Traceback (most recent call last): File "F:\adt-bundle-windows-x86_64-20140702\eclipse\workspace1\XueChe\src\xueche2\0\xueche.py", line 19, in <module> driver = webdriver.Remote('http://127.0.0.1:4723/wd/hub', desired_caps) File "buil…
python urllib2使用心得 1.http GET请求 过程:获取返回结果,关闭连接,打印结果 f = urllib2.urlopen(req, timeout=10) the_page = f.read() f.close() print the_page 2.http GET请求 + 包头 paras = "Token=1234567890;Uuid=0987654321" url = http://www.cnblogs.com/shhnwangjian send_hea…
def main(): url = "http://www.douban.com" #伪装桌面浏览器 headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} #伪装移动浏览器 #header = {'User-Agent':'Mozilla/5.0 (Linux; U; Android 4.0.3; ko-kr;…
1.通过添加http header 来实现 import urllib2 from base64 import encodestring url = 'http://202.108.1.51' user = 'a' passwd = 'aa' req = urllib2.Request(url) basestr = encodestring('%s:%s' % (user,passwd))[:-1] req.add_header('Authorization','Basic %s' % base…
收藏好文,看的懂文档,但效率太慢 cookie 清空 import urllib2 import cookielib from time import sleep cookie=cookielib.CookieJar() opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) for n in range(6): response = opener.open('http://www.docin.com/p-976549…
urllib2 - extensible library for opening URLs Note The urllib2 module has been split across several modules in Python 3 named urllib.request and urllib.error. The 2to3 tool will automatically adapt imports when converting your sources to Python 3. Th…
python urllib2 模拟网站登陆 1. 可用浏览器先登陆,然后查看网页源码,分析登录表单 2. 使用python urllib2,cookielib 模拟网页登录 import urllib,urllib2,cookielib #urllib2 支持 http,https def loginWeb(site,user,pwd): ''' 模拟网页登陆,登陆网址,用户名,密码不能为空 登录post form 表单逻辑需要对应登录网站,可以使用火狐浏览器firebug插件查看登陆请求的网址…
import urllib #引入urllib模块,这里用urllib2也可以 fpage = urllib.urlopen( url ) #打开网页:例如url=‘http://www.xxx.com’ html = fpage.read() #获取到url的html数据 import urllib2 try: response = urllib2.urlopen(url) except u2.HTTPError, e: # HTTPError表示服务器不能满足请求: 要放置在URLError…
1.使用python的库urllib2,用到urlopen和Request方法. 2.方法urlopen原形 urllib2.urlopen(url[, data][, timeout]) 其中: url表示目标网页地址,可以是字符串,也可以是请求对象Request data表示post方式提交给目标服务器的参数 timeout表示超时时间设置 改方法返回一个类似文件的对象,有geturl().info().read()方法其中geturl()返回连接地址,info()返回网页信息. 要获取网页…
#coding:utf-8 import urllib2 import urllib import httplib import socket import requests #实现以下几个方面内容: ##get请求,post请求 ##请求参数自定义(querystring 针对get,form针对post,cookie,header) ##返回内容格式 ##实现代理 def testforurllib(): r=urllib.urlopen('http://www.baidu.com') #返…
import urllib2response = urllib2.urlopen("http://www.baidu.com")print response.read() urlopen(url, data, timeout) 构造Requset import urllib2 request = urllib2.Request("http://www.baidu.com")response = urllib2.urlopen(request)print respon…
引用文章1:http://my.oschina.net/u/558071/blog/144792 引用文章2:http://zhuoqiang.me/python-urllib2-usage.html#proxy 在python中,urllib2并不是urllib的升级版,urllib和urllib2不可相互替代的,urllib一般和urllib2一起搭配使用.整体来说,urllib2是urllib的增强,但是urllib中有urllib2中所没有的函数. urllib2可以用urllib2.o…
permike原文python中urllib, urllib2,urllib3, httplib,httplib2, request的区别 若只使用python3.X, 下面可以不看了, 记住有个urllib的库就行了 python2.X 有这些库名可用: urllib, urllib2, urllib3, httplib, httplib2, requests python3.X 有这些库名可用: urllib, urllib3, httplib2, requests 两者都有的urllib3…