• 使用urllib---Python内置的HTTP请求模块

    • urllib包含模块:request模块、error模块、parse模块、robotparser模块

      • 发送请求

        • 使用 urllib 的 request模块,实现请求的发送并得到响应
        • urlopen()

            1. urllib.request 里的urlopen()方法发送一个请求
            1. 输入:
            1. import urllib.request
            2.  
            3. # 向指定的url发送请求,并返回服务器响应的类文件对象
            4. response = urllib.request.urlopen('https://www.python.org') # 这里所指定的url是https://www.python.org
            5.  
            6. # read()方法读取文件全部内容
            7. html = response.read()
            8.  
            9. # decode()的作用是将其他编码的字符串转换成unicode编码
            10. print(html.decode('utf-8'))
            1. 部分输出:

            涉及方法decode()---该方法返回解码后的字符串。其中有编码方法encode()

            1. 备注:urllib.request 里的 urlopen()不支持构造HTTP请求,不能给编写的请求添加head,无法模拟真实的浏览器发送请求。
            • type()方法输出响应的类型:

              1. import urllib.request
              2.  
              3. # 向指定的url发送请求,并返回服务器响应的类文件对象
              4. response = urllib.request.urlopen('https://www.python.org')
              5.  
              6. print(type(response))
              7.  
              8. # 输出结果如下:
              9. <class 'http.client.HTTPResponse'>
              10. # 它是一个 HTTPResposne类型的对象,主要包含 read()、 readinto()、 getheader(name)、getheaders()、 fileno()等方法,以及 msg、 version、 status、 reason、 debuglevel、 ιlosed等属性 
          • 实例(部分方法或属性):
            1. import urllib.request
            2.  
            3. response = urllib.request.urlopen('https://www.python.org')
            4. print(response.status) # status属性:返回响应的状态码,如200代表请求成功
            5. print(response.getheaders()) # getheaders()方法:返回响应的头信息
            6. print(response.getheader('Server')) # getheader('name')方法:获取响应头中的name值
            7.  
            8. # 输出:
            9. 200
            10. [('Server', 'nginx'), ('Content-Type', 'text/html; charset=utf-8'), ('X-Frame-Options', 'DENY'), ('Via', '1.1 vegur'), ('Via', '1.1 varnish'), ('Content-Length', ''), ('Accept-Ranges', 'bytes'), ('Date', 'Fri, 14 Jun 2019 04:36:05 GMT'), ('Via', '1.1 varnish'), ('Age', ''), ('Connection', 'close'), ('X-Served-By', 'cache-iad2125-IAD, cache-hnd18748-HND'), ('X-Cache', 'HIT, HIT'), ('X-Cache-Hits', '3, 736'), ('X-Timer', 'S1560486966.523393,VS0,VE0'), ('Vary', 'Cookie'), ('Strict-Transport-Security', 'max-age=63072000; includeSubDomains')]
            11. nginx
          • urllib.request.urlopen(url, data=None, [timeout,]*, cafile=None, capath=None, cadefault=False, context=None)
            • 重要参数:
              url:可以是请求的链接,也可以是请求(Request)的对象;
              data: 请求中附加送给服务器的数据(如:用户名和密码等);
              timeout:超时的时间,以秒为单位,超过多长时间即报错;

            • data参数
                • 使用参数data,需要使用bytes()方法将参数转化为字节流编码格式的内容,即bytes类型
                • 实例:

              1. import urllib.parse
              2. import urllib.request
              3.  
              4. data = bytes(urllib.parse.urlencode({'word': 'hello'}), encoding='utf-8')
              5. response = urllib.request.urlopen('http://httpbin.org/post', data=data)
              6. print(response.read())
              7.  

              8. # 请求的站点是httpbin.org,它可以提供HTTP测试请求。
                # 次例子中的URL是http://httpbin.org/post,这个链接可以用来测试POST请求,
                # 它可以输出请求的一些信息,其中包含我们传递的data参数

              代码使用的其他方法:

              • urllib.parse模块里的urlencode()方法将参数字典转化为字符串
              • bytes() 返回值为一个新的不可修改字节数组,每个数字元素都必须在0 - 255范围内,和bytearray函数的具有相同的行为,差别仅仅是返回的字节数组不可修改
                1. # bytes([source[, encoding[, errors]]])
                2. # 第一个参数需要是str(字符串)类型
                3. # 第二个参数指定编码格式
                4. # 如果没有输入任何参数,默认就是初始化数组为0个元素
                5.  
                6. # 例如
                7. byte = bytes('LiYihua', encoding='utf-8')
                8. print(byte)
                9.  
                10. # 输出:
                11. b'LiYihua'
            • timeout参数
              • timeout参数用于设置超时时间,单位为秒,即如果请求超出了设置的这个时间, 还没有得到响应 , 就会抛出异常。
              • 例子1:
              • 该程序在运行时间0.1s过后,服务器没有响应,于是抛出错误URL Error异常(错误原因是超时)

              • 例子2:
                1. import socket
                2. import urllib.request
                3. import urllib.error
                4.  
                5. try:
                6. response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.1) # 设置超时时间0.1s
                7. except urllib.error.URLError as e:
                8. # 判断异常是socket.timeout类型(意思就是超时异常)  e.reason获取的是错误的原因
                9. if isinstance(e.reason, socket.timeout):
                10. print('TIME OUT')
                11.  
                12. # 输出:
                13. TIME OUT
                14.  
                15. python中:
                16. e 一般是捕捉到的错误对象
                17. e.code 是错误代码
                18. e.reason获取的是错误的原因

                其他参数

              • context参数,它必须是ssl.SSLContext类型,用来指定SSL设置
              • cafile和capath两个参数分别是指定CA证书和它的路径,这个在请求HTTPS链接时会有用
          • Request

            • urlopen()方法可以实现最基本请求的发起,Request更强大(比urlopen()方法)
            • Request例子:
              1. import urllib.request
              2.  
              3. request = urllib.request.Request('https://python.org') # 将请求独立成一个对象
              4. response = urllib.request.urlopen(request) # 同样用urlopen()方法来发送请求
              5.  
              6. print(response.read().decode('utf-8'))
              7.  
              8. # 输出:
              9. <!doctype html>
              10. <!--[if lt IE 7]> <html class="no-js ie6 lt-ie7 lt-ie8 lt-ie9"> <![endif]-->
              11. <!--[if IE 7]> <html class="no-js ie7 lt-ie8 lt-ie9"> <![endif]-->
              12. <!--[if IE 8]> <html class="no-js ie8 lt-ie9"> <![endif]-->
              13. <!--[if gt IE 8]><!--><html class="no-js" lang="en" dir="ltr"> <!--<![endif]-->
              14.  
              15. <head>
              16. <meta charset="utf-8">..............
              17. ....................此处省略XXX字符
              18. <![endif]-->
              19.  
              20. <!--[if lte IE 8]>
              21. <script type="text/javascript" src="/static/js/plugins/getComputedStyle-min.c3860be1d290.js" charset="utf-8"></script>
              22.  
              23. <![endif]-->
              24.  
              25. </body>
              26. </html>
            • class urllib.request.Request(url, data=None, headers={ }, origin_req_host=None, unverifiable=False, mothod=None)
              • url参数: 请求URL
              • data参数:Post 提交的数据, 默认为 None ,当 data 不为 None 时, urlopen() 提交方式为 Post
              • headers参数:也就是请求头,headers参数可以在构造请求时使用,也可以用add_header()方法来添加
              • 请求头最常用的用法:修改User-Agent来伪装浏览器(如伪装Firefox:

                Mozilla/s.o (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11

              • origin_req_host参数:指的是请求方的host名称或者IP地址
              • unverifiable参数:

                表示这个请求是否是无法验证 的,默认是 False,意思就是说用户没

                有足够权限来选择接收这个请求的结果。 例如,我们请求一个 HTML文档中的图片,但是我

                们没有向动抓取图像的权限,这时 unverifiable 的值就是 True。

              • method参数:它是一个字符串,用来指示请求使用的方法(如:GET、POST、PUT等)
            • 例子:
              1. from urllib import request, parse
              2.  
              3. url = 'https://python.org/post' # 要请求的URL
              4.  
              5. headers = {
              6. 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT',
              7. 'Host': 'httpbin.org'
              8. } # 指定请求头User-Agent,Host
              9.  
              10. dict = {
              11. 'name': 'Germey'
              12. } # 要提交的数据
              13. data = bytes(parse.urlencode(dict), encoding='utf-8') # 要提交的数据是dict类型,先用bytes()方法,将其转为字符串
              14.  
              15. req = request.Request(url=url, data=data, headers=headers, method='POST')
              16. # 这里使用Request()方法,用了四个参数
              17.  
              18. response = request.urlopen(req) # urlopen()发送请求
              19. print(response.read().decode('utf-8')) # 用decode()方法,解码所获得的字符串,即读取到的response,解码格式为utf-8
              20.  
              21. # 输出:
              22. {
              23. "args”:{},
              24. ”data”: ""
              25. "files”{},
              26. form": {
              27. ”name”:”Germey”
              28. },
              29. ”headers”:{
              30. ”Accept-Encoding”.”identity”,
              31. ”Content-Length " : 11”, "Content-Type”·”application/x-www-form- urlencoded”, ”Host”·”httpbin.org”,
              32. ”User-Agent”:”问。zilla/4.0 (compatible;问SIE S.S; Windows NT)”
              33. },
              34. "json": null,
              35. ”origin”.”219.224.169.11”,
              36. ” url ” : ” http://httpbin.org/post ”
              37. }

              add_header()方法来添加headers

              1. req =request.Request(url=url, data=data, method='POST’)
              2. req .add_header('User-Agent', 'Mozilla/4 .0 (compatible; MSIE 5.5; Windows NT)')
          • 高级用法

            • Request虽然可以构造请求,但是对于一些更高级的操作(比如Cookies处理,代理设置等),就需要更强大的工具Handler了
            • BaseHandler

            • 各种Handler子类继承BaseHandler类
              • 部分例子:

                • HITPDefaultErrorHandler:用于处理HTTP响应错误,错误都会抛出 HTTPError类型的异常。

                  HTTPRedirectHandler:用于处理重定向 。

                  HTTPCookieProcessor: 用于处理 Cookies。

                  ProxyHandler:用于设置代理 , 默认代理为空 。

                  HπPPasswordMgr:用于管理密码,它维护了用户名和密码的表。

                  HTTPBasicAuthHandler: 用于管理认证,如果一个链接打开时需要认证,那么可以用它来解决认证问题 。

                  Handler类官方文档:https://docs.python.org/3/library/urllib.request.html#urllib.request.BaseHandler

            • 验证

              :在登录某些网站时,需要输入用户名和密码,验证成功后才能查看页面,这时可以借助HTTPBasicAuthHandler

              1. from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener
              2. from urllib.error import URLError
              3.  
              4. username = 'username'
              5. password = 'password'
              6. url = 'http://localhost:5000/'
              7.  
              8. p = HTTPPasswordMgrWithDefaultRealm() # 创建一个密码管理对象,用来保存 HTTP 请求相关的用户名和密码
              9. p.add_password(None, url, username, password) # 添加url,用户名,密码
              10. auth_handler = HTTPBasicAuthHandler(p) # 来处理代理的身份验证
              11. opener = build_opener(auth_handler) # 利用build_opener()方法构建一个Opener
              12.  
              13. try:
              14. result = opener.open(url) # 利用Opener的open()方法打开链接,完成验证
              15. html = result.read().decode('utf-8') # 读取返回的结果,解码返回结果
              16. print(html)
              17. except URLError as e:
              18. print(e.reason) # 获取错误的原因

              可以修改username、password、url来爬取自己想爬取的网站

            • 代理

              1. from urllib.error import URLError
              2. from urllib.request import ProxyHandler, build_opener
              3.  
              4. # ProxyHandler()使用代理IP, 它的参数是一个字典,键名是协议类型(比如HTTP或者HTTPS等),键值是代理链接,可以添加多个代理
              5. proxy_handler = ProxyHandler(
              6. {
              7. 'http': 'http://127.0.0.1:9743',
              8. 'https': 'https://127.0.0.1:9743'
              9. }
              10. )
              11. opener = build_opener(proxy_handler) # 利用build_opener()方法,构造一个Opener
              12.  
              13. try:
              14. response = opener.open('https://www.baidu.com') # 发送请求
              15. print(response.read().decode('utf-8'))
              16. except URLError as e:
              17. print(e.reason)
            • Cookies

            • 爬一些需要登录的网站,就要用到cookie相关的一些模块来操作了
                • http.cookiejar.CookieJar()
                  1. import http.cookiejar
                  2. # http.cookiejar.CookieJar()
                  3. # 1、管理储存cookie,向传出的http请求添加cookie
                  4. # 2、cookie存储在内存中,CookieJar示例回收后cookie将自动消失
                  5. import urllib.request
                  6.  
                  7. cookie = http.cookiejar.CookieJar() # 创建cookiejar实例对象
                  8. handler = urllib.request.HTTPCookieProcessor(cookie) # 根据创建的cookie生成cookie的管理器
                  9. opener = urllib.request.build_opener(handler)
                  10. response = opener.open('http://www.baidu.com')
                  11.  
                  12. for item in cookie:
                  13. print(item.name+"="+item.value)
                  14.  
                  15. # 输出
                  16. BAIDUID=FB2B1F3E51F9DD2626C586989E016F7B:FG=1
                  17. BIDUPSID=FB2B1F3E51F9DD2626C586989E016F7B
                  18. H_PS_PSSID=29272_1443_21084_29135_29238_28519_29098_29369_28839_29221_20718
                  19. PSTM=1560654641
                  20. delPer=0
                  21. BDSVRTM=0
                  22. BD_HOME=0
                • http.cookiejar.MozillaCookiejar()
                • 该方法在生成文件时用到,可以用来处理Cookies和文件相关的事件,比如读取和保存Cookies,可以将Cookies保存成Mozilla型浏览器的Cookies格式
                  1. import http.cookiejar
                  2. # http.cookiejar.MozillaCookiejar
                  3. # 1、是FileCookieJar的子类
                  4. # 2、与moccilla浏览器兼容
                  5. import urllib.request
                  6.  
                  7. file_name = 'cookies.txt'
                  8. cookie = http.cookiejar.MozillaCookieJar(file_name) # 创建cookiejar实例对象
                  9. handler = urllib.request.HTTPCookieProcessor(cookie) # 根据创建的cookie生成cookie的管理器
                  10. opener = urllib.request.build_opener(handler)
                  11. response = opener.open('http://www.baidu.com')
                  12. cookie.save(ignore_discard=True, ignore_expires=True) # 保存cookie到文件
                  13.  
                  14. # 运行后,生成文件cookies.txt,文件内容如下
                • http.cookiejar.LWPCookieJar()
                •   LWPCookieJar,可以保存Cookies,保存成

              libwww-perl

                  (LWP)格式的Cookies文件
              1. LwpCookieJar
              • 是FileCookieJar的子类
              • 与libwww-perl标准兼容
              1. 改变上面一个代码例子中的一句代码

              2. cookie = http.cookiejar.MozillaCookieJar(file_name)
              3. 改为
              4. cookie = http.cookiejar.LWPCookieJar(file_name)
              5.  
              6. # 运行后,生成一个文件cookies.txt,文件内容如下
            • 读取并利用 生成的Cookies文件
            • 例如打开LWPCookies格式文件
              1. import http.cookiejar
              2. import urllib.request
              3.  
              4. cookie = http.cookiejar.LWPCookieJar() # 创建cookiejar实例对象
              5. cookie.load('cookies.txt', ignore_discard=True, ignore_expires=True) # load()方法来读取本地的Cookies文件
              6. handler = urllib.request.HTTPCookieProcessor(cookie) # 根据创建的cookie生成cookie的管理器
              7. opener = urllib.request.build_opener(handler) # 利用build_opener()方法,构造一个Opener
              8. response = opener.open('http://www.baidu.com') # 利用Opener的open()方法打开链接,发送请求
              9. print(response.read().decode('utf-8')) # 读取、解码

              运行结果正常的话,会输出百度网页的源代码

      • 处理异常

        • URLError

          1. from urllib import request, error
          2. try:
          3. response = request.urlopen('https://www.bucunzai_tan90.com/index.htm')
          4. print(response.read().decode('utf8'))
          5. except error.URLError as e:
          6. print(e.reason)
          7.  
          8. # 打开一个不存在的页面时,输出结果是:[Errno 8] nodename nor servname provided, or not known
          9.  
          10. # 打开一个存在的页面时,输出结果是网页的源代码
        • HTTPError

          • 它是URLError的子类,专门用来处理HTTP请求错误,比如认证请求失败等

            • code: 返回 HTTP状态码,比如 404表示网页不存在, 500表示服务器内部错误等。

              reason:同父类一样,用于返回错误的原因 。

              headers: 返回请求头。

              1. from urllib import request, error
              2. try:
              3. response = request.urlopen('https://cuiqingcai.com/index.htm')
              4. print(response.read().decode('utf8'))
              5. except error.HTTPError as e:
              6. print(e.reason, e.code, e.headers, sep='\n\n')
              7. # 参数sep是实现分隔符,比如多个参数输出时想要输出中间的分隔字符
              8.  
              9. # 输出结果:
              10. Not Found
              11.  
              12. 404
              13.  
              14. Server: nginx/1.10.3 (Ubuntu)
              15. Date: Sun, 16 Jun 2019 10:53:09 GMT
              16. Content-Type: text/html; charset=UTF-8
              17. Transfer-Encoding: chunked
              18. Connection: close
              19. Set-Cookie: PHPSESSID=vrvrfqq88eck9speankj0ogus0; path=/
              20. Pragma: no-cache
              21. Vary: Cookie
              22. Expires: Wed, 11 Jan 1984 05:00:00 GMT
              23. Cache-Control: no-cache, must-revalidate, max-age=0
              24. Link: <https://cuiqingcai.com/wp-json/>; rel="https://api.w.org/"

              index.html通常是一个网站的首页,也叫导航页,也就是在这个页面上包含了网站上的基本链接

              1. # 更好的写法是,先处理子类,再处理父类,最后处理正常逻辑
              2.  
              3. from urllib import request, error
              4. try:
              5. response = request.urlopen('https://cuiqingcai.com/index.htm')
              6. # print(response.read().decode('utf8'))
              7. except error.HTTPError as e: # 处理HTTPError子类
              8. print(e.reason, e.code, e.headers, sep='\n\n')
              9. except error.URLError as e: # 处理URLError父类
              10. print(e.reason)
              11. else: # 处理正常逻辑
              12. print('Request Successful')

              关于上面的reason属性,返回的不一定是字符串,也可能是一个对象。如返回: <class 'socket.timeout'> 等等

        • 解析链接

          • ullib.parse定义了处理URL的标准接口
          • 它支持file、ftp、 hdl、 https、 imap、mms 、 news 、 prospero 、 telnet等协议的URL处理
          • urlparse()

            • 实现URL的识别和分段

              1. from urllib.parse import urlparse
              2.  
              3. # 实现URL的分段
              4. result = urlparse('http://www.baidu.com/index.html;user?id=5#comment')
              5. print(type(result), result, sep='\n')   # 输出的result是一个元组
              6.  
              7. # 输出:
              8. <class 'urllib.parse.ParseResult'>
              9. ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')
              10.  
              11. # scheme='协议', netloc='域名', path='访问路径', params='参数', query='查询条件'(?后面), fragment='锚点'(#号后面)

              网页链接标准格式 scheme://netloc/path ;params?query#fragment

              urllib.parse.urlparse(urlstring, scheme='', allwo_fragments=True)

              uelstring:要解析的URL。 scheme:所给URL没协议时,scheme='XXX',XXX是默认协议,否则scheme='所给URL协议'。

              allwo_fragments:是否可以忽略fragament。

          • urlunparse()

            • 实现URL的构造:

              1. from urllib.parse import urlunparse
              2. # urllib.parse.urlunparse(),接受的参数是一个可迭代对象,它的长度必须是6
              3.  
              4. # 这里的data用了列表,也可以用元组或者特定的数据结构
              5. data1 = ['http', 'www.baidu.com', '/index.html', 'user', 'id=5', 'comment']
              6. data2 = ['', 'www.baidu.com', '/index.html', 'user', 'id=5', 'comment']
              7. data3 = ['http', '', '/index.html', 'user', 'id=5', 'comment']
              8. data4 = ['http', 'www.baidu.com', '', 'user', 'id=5', 'comment']
              9. data5 = ['http', 'www.baidu.com', '/index.html', '', 'id=5', 'comment']
              10. data6 = ['http', 'www.baidu.com', '/index.html', 'user', '', 'comment']
              11. data7 = ['http', 'www.baidu.com', '/index.html', 'user', 'id=5', '']
              12. print("缺少协议:\t"+urlunparse(data2), "缺少域名:\t"+urlunparse(data3),
              13. "缺少访问路径:\t"+urlunparse(data4), "缺少参数:\t"+urlunparse(data5),
              14. "缺少查询条件:\t"+urlunparse(data6), "缺少锚点:\t"+urlunparse(data7),
              15. "标准链接:\t"+urlunparse(data1), sep='\n\n')
              16.  
              17. # 输出对比:
          • urlsplit()

            • 实现URL的识别和分段:

              1. from urllib.parse import urlsplit
              2.  
              3. result = urlsplit('http://www.baidu.com/index.html;user?id=5#comment')
              4. print(result, result.scheme, result[4], sep='\n')
              5.  
              6. # 输出结果:
              7. SplitResult(scheme='http', netloc='www.baidu.com', path='/index.html;user', query='id=5', fragment='comment')
              8. http
              9. comment
              10.  
              11. # urlsplit()方法与urlparse()方法很相似,urlsplit()方法与urlparse()相比,urlsplit()将path和params合在一起放在path中,而urlparse()中,path和params是分开的
          • urlunsplit()

            • 实现URL的构造:
            1. from urllib.parse import urlunsplit
            2. # urlunsplit()方法与urlunparse()方法类似,urlunsplit()传入的参数是一个可迭代的对象,
            3. # 不同之处是path和params是否合在一起(urlunsplit是合在一起的)
            4.  
            5. data = ('http', 'wwww.baidu.com', 'index.html;user', 'id=5', 'comment')
            6. print(urlunsplit(data))
            7.  
            8. # 输出结果:
            9. http://wwww.baidu.com/index.html;user?id=5#comment
          • urljoin()

            • 完成链接的合并:

              1. from urllib.parse import urljoin
              2.  
              3. # 完成链接的合并(前提是必须有特定长度的对象,链接的每一部分都要清晰分开)
              4.  
              5. print(urljoin('http://www.baidu.com', 'FAQ.html'))
              6. print(urljoin('http://www.baidu.com', 'https://cuiqingcai.com/FAQ.html'))
              7. print(urljoin ('http://www.baidu.com/about.html', 'https://cuiqingcai.com/FAQ.html'))
              8. print(urljoin('http://www.baidu.com/about.html', 'https://cuiqingcai.com/FAQ.html?question=2'))
              9. print(urljoin ('http://www.baidu.com d=abc', 'https://cuiqingcai.com/index.php'))
              10. print(urljoin('http://www.baidu.com', '?category=2#comment'))
              11. print(urljoin('www.baidu.com', '?category=2#comment'))
              12. print(urljoin('www.baidu.com#comment', '?category=2'))
              13.  
              14. # 输出:
              15. http://www.baidu.com/FAQ.html
                https://cuiqingcai.com/FAQ.html
              16. https://cuiqingcai.com/FAQ.html
              17. https://cuiqingcai.com/FAQ.html?question=2
              18. https://cuiqingcai.com/index.php
              19. http://www.baidu.com?category=2#comment
              20. www.baidu.com?category=2#comment
              21. www.baidu.com?category=2
          • urlencode()

            • urlencode()可以把key-value这样的键值对转换成我们想要的格式,返回的是a=1&b=2这样的字符串

              1. from urllib.parse import urlencode
              2.  
              3. params = {}
              4. params['name'] = 'Tom'
              5. params['age'] = 21
              6.  
              7. base_url = 'http://wwww.baidu.com?'
              8. url = base_url + urlencode(params)
              9. print(url)
              10.  
              11. # 输出:
              12. http://wwww.baidu.com?name=Tom&age=21
          • parse_qs()
            • 如果说urlencode()方法实现序列化,那么parse_qs()就是反序列化

              1. from urllib.parse import parse_qs
              2.  
              3. query = 'name=Tom&age=21'
              4. print(parse_qs(query))
              5.  
              6. # 输出:
              7. {'name': ['Tom'], 'age': ['']}
          • parse_qsl()

            • parse_qsl()方法与parse_qs()方法很相似,parse_qsl()返回的是列表,列表中的每个元素是一个元组,parse_qs()返回的是字典

              1. from urllib.parse import parse_qsl
              2.  
              3. query = 'name=Tom&age=21'
              4. print(parse_qsl(query))
              5.  
              6. # 输出:
              7. [('name', 'Tom'), ('age', '')]
          • quote()

            • 将内容转化为URL编码的格式

              1. from urllib.parse import quote
              2.  
              3. keyword = '壁纸'
              4. url = 'https://www.baidu.com/s?wd=' + quote(keyword)
              5. print(url)
              6.  
              7. # 输出:
              8. https://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8
          • unquote()

            • 进行URL解码

              1. from urllib.parse import unquote
              2.  
              3. url = 'https://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8'
              4. print(unquote(url))
              5.  
              6. # 输出:
              7. https://www.baidu.com/s?wd=壁纸
        • 分析Robots协议

          • Robots协议(爬虫协议、机器人协议)---网络爬虫排除标准(Robots Exclusion Protocol)

          • 爬虫访问一个站点时,它首先会检查这个站点根目录下是否存在robots.txt文件,如果存在,搜索爬虫会根据其中定义的范围来爬取。
          • robots.txt样例:

            User-agent: Baiduspider   代表规则对百度爬虫是有效的(还有很多,例如Googlebot、360Spider等)

          • 常见爬虫名称

          • robotparser

            • urllib.robotparser.RobotFileParser(url='')根据某网站的robots.txt文件来判断一个爬取爬虫是否有权限来爬取这个网页

              • set_url() 用来设置robot.txt文件的链接
              • read() 读取robots.txt文件并进行分析
              • parse() 解析robots.txt文件,传入的参数是robots.txt某些行内容
              • can_fetch(User-agent='', URL='')  返回内容是该搜索引擎是否可以抓取这个URL,返回结果是True或False
              • mtime() 返回上一次抓取和分析robots.txt的时间
              • modified() 将当前时间设置为上次抓取和分析robots.txt的时间
                1. from urllib.robotparser import RobotFileParser
                2.  
                3. rp = RobotFileParser()
                4. rp.set_url('http://www.jianshu.com/robots.txt') # 设置robots.txt文件的链接
                5. rp.read() # 读取robots.txt文件并进行分析
                6. print(rp.can_fetch('*', 'http://www.jianshu.com/p/b67554025d7d')) # 输出该搜索引擎是否可以抓取这个URL
                7. print(rp.can_fetch('*', 'http://www.jianshu.com/search?q=python&page=1&type=collections'))
                8.  
                9. # 输出:
                10. False
                11. False
                12.  
                13. # False也就是说该搜索引擎不能抓取这个URL
                1. from urllib.robotparser import RobotFileParser
                2. from urllib.request import urlopen
                3.  
                4. rp = RobotFileParser()
                5. rp.parse(urlopen('http://www.jianshu.com/robots.txt').read().decode('utf-8').split('\n'))
                6. print(rp.can_fetch('*', 'http://www.jianshu.com/p/b67554025d7d'))
                7. print(rp.can_fetch('*', 'http://www.jianshu.com/search?q=python&page=1&type=collections'))
                8.  
                9. # 输出结果与上面一个例子一样,只是上一个例子用read()方法,这个例子用parse()方法

爬虫基本库的使用---urllib库的更多相关文章

  1. python爬虫---从零开始(二)Urllib库

    接上文再继续我们的爬虫,这次我们来述说Urllib库 1,什么是Urllib库 Urllib库是python内置的HTTP请求库 urllib.request 请求模块 urllib.error 异常 ...

  2. 【Python爬虫】HTTP基础和urllib库、requests库的使用

    引言: 一个网络爬虫的编写主要可以分为三个部分: 1.获取网页 2.提取信息 3.分析信息 本文主要介绍第一部分,如何用Python内置的库urllib和第三方库requests库来完成网页的获取.阅 ...

  3. Python爬虫(2):urllib库

    爬虫常用库urllib 注:运行环境为PyCharm urllib是Python3内置的HTTP请求库 urllib.request:请求模块 urllib.error:异常处理模块 urllib.p ...

  4. 爬虫(二):Urllib库详解

    什么是Urllib: python内置的HTTP请求库 urllib.request : 请求模块 urllib.error : 异常处理模块 urllib.parse: url解析模块 urllib ...

  5. 爬虫(三)-之Urllib库的基本使用

    什么是Urllib Urllib是python内置的HTTP请求库 包括以下模块 urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse   url解 ...

  6. python爬虫之urllib库(一)

    python爬虫之urllib库(一) urllib库 urllib库是python提供的一种用于操作URL的模块,python2中是urllib和urllib2两个库文件,python3中整合在了u ...

  7. python爬虫 - Urllib库及cookie的使用

    http://blog.csdn.net/pipisorry/article/details/47905781 lz提示一点,python3中urllib包括了py2中的urllib+urllib2. ...

  8. 对于python爬虫urllib库的一些理解(抽空更新)

    urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urllib库中,所有和网 ...

  9. (爬虫)urllib库

    一.爬虫简介 什么是爬虫?通俗来讲爬虫就是爬取网页数据的程序. 要了解爬虫,还需要了解HTTP协议和HTTPS协议:HTTP协议是超文本传输协议,是一种发布和接收HTML页面的传输协议:HTTPS协议 ...

随机推荐

  1. 03-css的继承性和层叠性

    一.继承性 css中所谓的继承,就是子集继承父级的属性. 可以继承的属性:color.font-xxx.text-xxx.line-xxx.(主要是文本级的标签元素) 但是,像一些盒子元素属性,定位的 ...

  2. 下载git2.2.1并将git添加到环境变量中

    ># wget https://github.com/git/git/archive/v2.2.1.tar.gz > # tar zxvf v2.2.1.tar.gz ># cd g ...

  3. SpringMvc问题记录-Controller对于静态变量的访问分析

    问题描述 在于朋友的讨论中分析到一种场景,即:Controller对于一个类中的静态变量进行访问时,如果第一个接口修改该静态变量的数据,另外一个接口获取该静态变量的数据,那么返回的结果是什么? 操作步 ...

  4. [Machine Learning] Linear regression

    1. Variable definitions m : training examples' count \(y\) : \(X\) : design matrix. each row of \(X\ ...

  5. Scala 占位符在REPL和Eclipse/IDEA中初始化变量问题

    占位符在REPL和Eclipse/IDEA中初始化变量问题: 占位符初始化,如果是局部变量,都会报错!只能在全局变量中使用! REPL: Eclipse: IDEA: 如果是类的属性,却就是对的.

  6. Java 学习笔记之 线程interrupted方法

    线程interrupted方法: interrupted()是Thread类的方法,用来测试当前线程是否已经中断. public class InterruptThread extends Threa ...

  7. 588 div2 C. Anadi and Domino

    C. Anadi and Domino 题目链接:https://codeforces.com/contest/1230/problem/C Anadi has a set of dominoes. ...

  8. [插件化开发] 1. 初识OSGI

    初识 OSGI 背景 当前product是以solution的方式进行售卖,但是随着公司业务规模的快速夸张,随之而来的是新客户的产品开发,老客户的产品维护,升级以及修改bug,团队的效能明显下降,为了 ...

  9. 2018 php 面试

    排序算法 快速排序 快速排序是十分常用的高效率的算法,其思想是:先选一个标尺,用它把整个队列过一遍筛选,以保证左边的元素都不大于它,其右边都不小于它 function quickSort($arr){ ...

  10. 【原创】(八)Linux内存管理 - zoned page frame allocator - 3

    背景 Read the fucking source code! --By 鲁迅 A picture is worth a thousand words. --By 高尔基 说明: Kernel版本: ...