urllib库使用方法 3 get html】的更多相关文章

这周打算把学过的内容重新总结一下,便于以后翻阅查找资料. urllib库是python的内置库,不需要单独下载.其主要分为四个模块: 1.urllib.request——请求模块 2.urllib.error——异常处理模块 3.urllib.parse——url解析模块 4.urllib.robotparser——用来识别网站的robot.txt文件(看看哪些内容是可以爬的,不常用) 1.urlopen import urllib.request response = urllib.reque…
import urllib.requestimport urllib.parse url = "https://www.baidu.com/"#普通请求方法response = urllib.request.urlopen(url)print(response.read().decode()) #伪装头部请求方法#构建伪装头headers = { "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x6…
import urllib.requestimport urllib.parse #https://www.baidu.com/s?ie=UTF-8&wd=中国#将上面的中国部分内容,可以动态的变化内容.并编码,并得到html页面#1 得到url地址wd = input("请输入搜索内容:")url = "http://www.baidu.com/s?" #完整url https://www.baidu.com/s?ie=UTF-8&wd=中国 #以…
import urllib.parse #url.parse用法包含三个方法:quote url, unquote rul, urlencode#quote url 编码函数,url规范只识别字母.数字.下划线,中文.符号等均不支持,parse url可以将不支持的编码为url能识别的内容img_url = "http://www.baidu.com/index.html?name=狗蛋&pwd=123456"response = urllib.parse.quote(img_…
urllib是可以模仿浏览器发送请求的库,Python自带 Python3中urllib分为:urllib.request和urllib.parse import urllib.request url ="http://www.baidu.com/"#必须要完整格式 - 带上协议类型response = urllib.request.urlopen(url = url) #模拟浏览器向url发送请求,返回请求对象(响应内容)print(response)#返回请求对象print(res…
学习目的: urllib提供了url解析函数,所以需要学习正式步骤 Step1:什么是urllib urllib库是Python自带模块,是Python内置的HTTP请求库 包含4个模块: >>> import urllib >>> # urllib.request 请求模块 >>> # urllib.error 异常处理模块 >>> # urllib.parse url解析模块 >>> # urllib.robot…
python系列均基于python3.4环境 ---------@_@? -------------------------------------------------------------------- 提出问题:如何简单抓取一个网页的源码 解决方法:利用urllib库,抓取一个网页的源代码 ------------------------------------------------------------------------------------ 代码示例 #python3.…
提出问题:如何简单抓取一个网页的源码 解决方法:利用urllib库,抓取一个网页的源代码 ------------------------------------------------------------------------------------ 代码示例 #python3.4 import urllib.request response = urllib.request.urlopen("http://zzk.cnblogs.com/b") print(response.…
1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服.所以最重要的部分是存在于HTML中的,下面我们就写个例子来扒一个网页下来. import urllib2 request = urllib2.Request("http://www.baidu.com"…
1.分分钟扒一个网页下来 怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它 是一段HTML代码,加 JS.CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服.所以最重要的部分是存在于HTML中的,下面我 们就写个例子来扒一个网页下来. Python 1 2 3 4 #设置代理IP #代理IP可以上http://zhimaruanjian.com/获取 import …