爬虫第一篇：爬虫详解之urllib.request模块

我将urllib.request 的GET请求和POST请求两种方法做了总结

GET请求

GET请求爬取：

import urllib.request

import urllib.parse

headers = {"User-Agent":"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 2.0.50727; SLCC2; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; Tablet PC 2.0; .NET4.0E)"}

-------对字符串进行编码的第一种方法---------

baseurl = "http://www.baidu.com/s?wd="

key = input("请输入要搜索的内容:")

url = baseurl + urllib.parse.quote(key)

-------对字符串进行编码的第二种方法---------

baseurl = "http://www.baidu.com/s?"

key = input("请输入要搜索的内容:")

key = urllib.parse.urlencode({"wd":key})

url = baseurl + key

-------获取响应对象的第一种方法-------------

# 创建请求对象

req = urllib.request.Request(url,headers=headers)

# 获取响应对象

res = urllib.request.urlopen(req)

-------获取响应对象的第二种方法-------------

# 直接发请求,并得到响应对象

res = urllib.request.urlopen(url)

# 获取内容

　　html = res.read().decode("utf-8") # 获取字符串
　　# res.read() # 数据类型bytes
　　# res.getcode() : 返回HTTP的响应码

POST请求

Post请求：

import urllib.request

import urllib.parse

import json

key = input("请输入要翻译的内容:")

data = {

        "i":key,

        "from":"AUTO",

        "to":"AUTO",

        "smartresult":"dict",

        "client":"fanyideskweb",

        "salt":"15458120942800",

        "sign":"108feafc7c01c7461a41034463a8df9b",

        "ts":"1545812094280",

        "bv":"363eb5a1de8cfbadd0cd78bd6bd43bee",

        "doctype":"json",

        "version":"2.1",

        "keyfrom":"fanyi.web",

        "action":"FY_BY_REALTIME",

        "typoResult":"false"

    }

# 把data转为bytes数据类型

data = urllib.parse.urlencode(data).encode("utf-8")

# 发请求,获响应,获取内容

url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"

headers = {"User-Agent":"Mozilla/5.0"}

req = urllib.request.Request\

            (url,data=data,headers=headers)

res = urllib.request.urlopen(req)

html = res.read().decode("utf-8")

# 把json格式的字符串转为python中字典

rDict = json.loads(html)

result = rDict["translateResult"][0][0]["tgt"]

print(result)

总结

从上面我们可以看出，GET请求和POST请求的区别主要是数据的组织形式不同。

GET请求数据是通过url直接传过去， POST请求数据是通过body传过去的

我上面的data数据是直接去网站 F12 拦截请求拿到的

爬虫第一篇：爬虫详解之urllib.request模块的更多相关文章

学会Git玩转GitHub(第一篇) 入门详解 - 精简归纳
学会Git玩转GitHub(第一篇) 入门详解 - 精简归纳 JERRY_Z. ~ 2020 / 9 / 25 转载请注明出处!️ 目录学会Git玩转GitHub(第一篇) 入门详解 - 精简归纳 ...
爬虫第一篇基本库的使用——urllib
在Python2中有urllib2和urllib3两个库来实现请求的发送,在Pyhon3中则统一为urllib. urilib包含以下4个模块 request:最基本的请求模块,可以用来实现请求的发送 ...
python应用：爬虫框架Scrapy系统学习第一篇——xpath详解
HTML的三大概念:标签.元素以及属性标签:尖括号中的文本例:<head>……</head> 标签通常成对出现元素:标签中的所有内容元素中可包 ...
DevExpress控件使用方法：第一篇 gridControl详解
GridControl (1)层次设计器有五种视图模式,banded gridview多行表头,数据还是一行一组,最靠近数据的表头与数据一一对应:advanced banded gridview多行 ...
Flask第一篇——URL详解
原创 2018-02-14 孟船长自动化测试实战 URL是Uniform Resource Locator的缩写,即统一资源定位符. 一个URL通常由一下几个部分组成: scheme://host: ...
小白进阶之Scrapy第六篇Scrapy-Redis详解（转）
Scrapy-Redis 详解通常我们在一个站站点进行采集的时候,如果是小站的话我们使用scrapy本身就可以满足. 但是如果在面对一些比较大型的站点的时候,单个scrapy就显得力不从心了. 要 ...
《手把手教你》系列技巧篇（三十一）-java+ selenium自动化测试- Actions的相关操作-番外篇（详解教程）
1.简介上一篇中,宏哥说的宏哥在最后提到网站的反爬虫机制,那么宏哥在自己本地做一个网页,没有那个反爬虫的机制,谷歌浏览器是不是就可以验证成功了,宏哥就想验证一下自己想法,于是写了这一篇文章,另外也是 ...
Mysql高手系列 - 第8篇：详解排序和分页(order by & limit)，及存在的坑
这是Mysql系列第8篇. 环境:mysql5.7.25,cmd命令中进行演示. 代码中被[]包含的表示可选,|符号分开的表示可选其一. 本章内容详解排序查询详解limit limit存在的坑分 ...
Mysql高手系列 - 第9篇：详解分组查询，mysql分组有大坑！
这是Mysql系列第9篇. 环境:mysql5.7.25,cmd命令中进行演示. 本篇内容分组查询语法聚合函数单字段分组多字段分组分组前筛选数据分组后筛选数据 where和having的区 ...

随机推荐

Effective C++ Item 34 区分接口继承与实现继承
本文为senlie原创,转载请保留此地址:http://blog.csdn.net/zhengsenlie 关联条款 Item 36 接口继承和实现继承不同.在 public 继承下, derived ...
bbb u-boot SPI 启动
beagle bone black的u-boot编译时已经为SPI准备好了 MLO.byteswap,这个文件应该直接写入到SPI flash的偏移0位置,根据am335x的手册,SPI内可以保存多份 ...
vi 详解
1.vi的基本概念基本上vi可以分为三种状态,分别是命令模式(command mode).插入模式(Insert mode)和底行模式(last line mode),各模式的功能区分如下: ...
mysql数据库去除重复数据
(一)最原始的方法: delete from test where id not in (select * from ((select min(id) from test group by(name) ...
hdu3068 最长回文（manacher 算法）
题意: 给定字符串.求字符串中的最长回文序列解题思路: manacher 算法时间复杂度:O(N) 代码: #include <cstdio> #include <cstring ...
Linq系列(7)——表达式树之ExpressionVisitor
大家好,由于今天项目升级,大家都在获最新代码,所以我又有时间在这里写点东西,跟大家分享. 在上一篇的文章中我介绍了一个dll,使大家在debug的时候可以可视化的看到ExpressionTree的Bo ...
ios uitableview button 获取cell indexpath.row
在iOS7下面已经无效,因为iOS7的层级关系发生变化 UITableViewCell->UITableViewCellScrollView->UITableViewCellContent ...
【BZOJ1000】A+B Problem ★BZOJ1000题达成★
[BZOJ1000]A+B Problem Description 输入两个数字,输出它们之和 Input 一行两个数字A,B(0<=A,B<100) Output 输出这两个数字之和 S ...
【BZOJ4269】再见Xor 高斯消元
[BZOJ4269]再见Xor Description 给定N个数,你可以在这些数中任意选一些数出来,每个数可以选任意多次,试求出你能选出的数的异或和的最大值和严格次大值. Input 第一行一个正整 ...
Hadoop伪分布式环境快速搭建
Hadoop分支 Apache Cloudera Hortonworks 本文是采用Cloudera分支的hadoop. 下载cdh-5.3.6 版本下载地址:http://archive.clou ...

爬虫第一篇：爬虫详解之urllib.request模块

GET请求

POST请求

爬虫第一篇：爬虫详解之urllib.request模块的更多相关文章

随机推荐

热门专题