Pyhont-Urllib2】的更多相关文章

在Python中通过导入urllib2组件,来完成网页的抓取工作.在python3.x中被改为urllib.request. 爬取具体的过程类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 实现过程: import urllib2 response=urllib2.urlopen('http://gs.ccnu.edu.cn/') html=response.read() print html 将返回的html信息打印出来,这和在网…
#!/usr/bin/env python # coding=utf-8 __author__ = 'zhaoyingnan' import urllib import urllib2 import chardet class HtmlLoader: def urlLoad(self, sUrl, isPost=False, isDebug=False): try: sContent = None dictHeaders = { 'User-Agent': 'Mozilla/5.0 (X11;…
#coding:utf-8 import urllib2 import cookielib url="http://www.baidu.com" print '方法 1' response1=urllib2.urlopen(url) print response1.getcode()#验证打开网页是否成功,成功返回200 print len(response1.read())#打印读取网页长度 print'方法 2' request=urllib2.Request(url) reque…
import urllib2 response = urllib2.urlopen('http://www.baidu.com/') html = response.read() print html 报错 import urllib2ImportError: No module named 'urllib2' import urllib.request resp=urllib.request.urlopen('http://www.baidu.com') html=resp.read() pr…
urllib2 是Python自带的标准模块, 用来发送HTTP Request的.  类似于 .NET中的,  HttpWebRequest类 urllib2 的优点 Python urllib2 发出的HTTP Request, 能自动被Fiddler截获, 方便了调试. Python 可以自动处理Cookie urllib2 的缺点 Python urllib2 发出的http Request, 中的header 会被修改成“首字母大写”, 比如你的代码里写的header 是: conte…
通过urllib2抓取HTML网页,然后过滤出包含特定字符的行,并写入Excel文件: # -*- coding: utf-8 -*- import sys #import urllib import urllib2 from xlwt import Workbook def getdata(keywords, line): date = '' if keywords in line: # 本行包含keywords start = line.find('>',) end = line.find(…
搬运自http://www.2cto.com/kf/201309/242273.html,感谢原作. 之所以出现上面的异常,是因为如果用 urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的对于该页面访问的请求.但是服务器并不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息,而缺失这些信息的请求往往都是非正常的访问,例如爬虫.有些网站为了防止这种非正常的访问,会验证请求信息中的UserAgent(它的信息包括硬件平台.系统软件.应用软件和用户个人偏好…
使用urllib2发起post请求 def GetCsspToken(): data = json.dumps({"userName":"wenbin", "password":"passwd"}) try: req = urllib2.Request('http:9.123.127.9/api/system/login', data, {'Content-Type':'application/json'}) f = urll…
1.cookielib模块 cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源.例如可以利用 本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送.coiokielib模块用到的对象主要有下面几 个:CookieJar.FileCookieJar.MozillaCookieJar.LWPCookieJar.其中他们的关系如下: 2.urllib2模块 说到urllib2模块最强大的部分绝对是它的o…
#访问不需要登录的网页import urllib2target_page_url='http://10.224.110.118/myweb/view.jsp' f = urllib2.urlopen(target_page_url)httpCodes=f.getcode()responseStr = f.read()f.close()successful= httpCodes in [200,201,202]#print(responseStr) ######访问需要登录的网页#步骤1. 创建一…