学习笔记 urllib

第一步：

get

# -*- coding:utf-8  -*-

# 日期：2018/5/15 19:39

# Author:小鼠标

from urllib import request

url = 'http://news.sina.com.cn/guide/'

response = request.urlopen(url)  #返回http对象

web_data = response.read().decode('utf-8')  #响应内容

web_status = response.status                #响应状态码

print(web_status,web_data)

post

# -*- coding:utf-8  -*-

# 日期：2018/5/15 19:39

# Author:小鼠标

from urllib import request,parse

url = 'http://news.sina.com.cn/guide/'

#post表单提交的内容

data = [

    ('name','xiaoshubiao'),

    ('pwd','xiaoshubiao')

]

login_data = parse.urlencode(data).encode('utf-8')

response = request.urlopen(url,data = login_data)  #返回http对象

web_data = response.read().decode('utf-8')  #响应内容

web_status = response.status                #响应状态码

print(web_status,web_data)

第二步：伪装浏览器

# -*- coding:utf-8  -*-

# 日期：2018/5/15 19:39

# Author:小鼠标

from urllib import request,parse

url = 'http://news.sina.com.cn/guide/'

req = request.Request(url)

req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3964.2 Safari/537.36')

req.add_header('Accept','text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8')

response = request.urlopen(req)

web_data = response.read().decode('utf-8')  #响应内容

web_status = response.status                #响应状态码

print(web_status,web_data)

第三步：使用代理ip

# -*- coding:utf-8  -*-

# 日期：2018/5/15 19:39

# Author:小鼠标

from urllib import request,parse

url = 'http://news.sina.com.cn/guide/'

req = request.Request(url)

#使用代理ip

proxy = request.ProxyHandler({'http':'221.207.29.185:80'})

opener = request.build_opener(proxy, request.HTTPHandler)

request.install_opener(opener)

req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3964.2 Safari/537.36')

req.add_header('Accept','text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8')

response = request.urlopen(req)

web_data = response.read().decode('utf-8')  #响应内容

web_status = response.status                #响应状态码

print(web_status,web_data)

第四步：内容解析

　　可以使用封装好的BeautifulSoup，也可以使用re正则来匹配，原理都差不多。

学习笔记 urllib的更多相关文章

爬虫学习笔记-urllib库
urllib库是python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数:在python3的urllib库中,所有和网络 ...
python学习笔记——urllib库中的parse
1 urllib.parse urllib 库中包含有如下内容 Package contents error parse request response robotparser 其中urllib.p ...
Python3学习笔记（urllib模块的使用）转http://www.cnblogs.com/Lands-ljk/p/5447127.html
Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ...
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例
python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
学习笔记：python3，代码。小例子习作（2017）
http://www.cnblogs.com/qq21270/p/7634025.html 学习笔记:python3,一些基本语句(一些基础语法的代码,被挪到这里了) 日期和时间操作 http://b ...
python3.4学习笔记(二十三) Python调用淘宝IP库获取IP归属地返回省市运营商实例代码
python3.4学习笔记(二十三) Python调用淘宝IP库获取IP归属地返回省市运营商实例代码淘宝IP地址库 http://ip.taobao.com/目前提供的服务包括:1. 根据用户提供的 ...
python3.4学习笔记(四) 3.x和2.x的区别，持续更新
python3.4学习笔记(四) 3.x和2.x的区别在2.x中:print html,3.x中必须改成:print(html) import urllib2ImportError: No modu ...

随机推荐

VMware 虚拟机安装-->wrf、cmaq安装
微信关注公众号 “软件安装管家” 下载并安装VMware 下面简要记载我的安装和设置步骤: 下载解压,右键以管理员方式运行安装好了之后双击桌面的VMware 输入许可证密钥:AA510-2DF1 ...
swiper插件使用遇到的一点小问题
最近做移动端开发给出的静态页使用了Swiper,用的是4.0.3版本,应该是比较新的. 静态页这种东西,一般就是给你个雏形,设计部虽然使用了这个插件,但毕竟这个活儿毕竟还是得开发人员来干,所以,静态 ...
寒假作业 pta编程总结2
实验代码: #include<stdio.h>#include<stdbool.h> void toNUM(int n);void toUNIT(int n); int mai ...
The Best Books on Game Dev
https://www.goodreads.com/list/show/99288.The_Best_Books_on_Game_Dev
【备份】如何在 PADS Layout 中选择 Gerber 274X 格式
如何在 PADS Layout 中选择 Gerber 274X 格式. 起初原因是 JLC 说 274X 和 274D 的差别. 有小伙伴使用了 274D 的格式,结果做出来的 PCB 有问题.
Unity 3D入门简介
最近在刚开始学习Unity 3D,在这里记录一下学习心得和学习笔记,边学边写,可能会比较零散.好了,废话不多说,今天从Unity 3D入门写起,主要简要介绍一下Unity 3D的和一些学习资料.以下如 ...
基于scrapy源码实现的自定义微型异步爬虫框架
一.scrapy原理 Scrapy 使用了 Twisted异步网络库来处理网络通讯.整体架构大致如下 Scrapy主要包括了以下组件: 引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框 ...
接口自动化基于python+Testlink+Jenkins实现的接口自动化测试框架
链接:http://blog.sina.com.cn/s/blog_13cc013b50102w94u.html
Docker端口映射与容器互联
Docker提供了两个功能来满足访问的基本需求:一是允许映射容器内应用的服务端口到本地宿主主机:另一个是互联机制实现多个容器间通过容器名来快速实现访问. 一.端口映射实现访问容器当容器中运行一些网络 ...
iOS 12 tabbar 从二级页面返回时，出现跳动解决办法
APP push一个界面,返回的时候,tabBar上的图标和文字出现一个从上往下的神奇动画经过测试发现,如果使用系统OS12.1 UINavigationController + UITabBarC ...

学习笔记 urllib

第一步：

get

post

第二步：伪装浏览器

第三步：使用代理ip

第四步：内容解析

学习笔记 urllib的更多相关文章

随机推荐

热门专题