1,Python如何访问互联网?

url + lib =  urllib

  1. >>> # 使用urllib包下的request模块
  2. >>>
  3. >>> import urllib.request
  4. >>>
  5. >>> # 使用函数 .urlopen(),第一个是 string形式的地址,或者Request对象
  6.  
  7. >>> response = urllib.request.urlopen("http://www.baidu.com/")
  8. >>> print(response)
  9. <http.client.HTTPResponse object at 0x02927610>
  10. >>> # 读取返回的信息
  11. >>> # 这里要返回的是二进制数据,需要解码的
  12. >>> html = response.read()
  13. >>> html = html.decode("utf-8")
  14. >>> print(html)

 2, 下载一只猫?

 我们可以访问网站  http://placekitten.com/ ,我们只需要加上 宽度和高度参数就可以得到一张量身定制的猫的图片.

如下形式 : http://placekitten.com/g/200/300    http://placekitten.com/400/300

  1. # 编写一个 download_cat.py ,完成下载一张猫图 内容如下:
  2.  
  3. import urllib.request
  4.  
  5. response = urllib.request.urlopen("http://placekitten.com/g/200/300")
  6. cat_img = response.read()
  7.  
  8. with open("cat_200_300.jpg","wb") as f:
  9. f.write(cat_img)
  1. >>>
  2. >>> # 除了read()方法之外,还可以使用以下方法:
  3. >>> # geturl() info() getcode()
  4. >>>
  5. >>> response.geturl()
  6. 'http://placekitten.com/g/200/300'
  7. >>> response.info()
  8. <http.client.HTTPMessage object at 0x028A6E50>
  9. >>> print(response.info())
  10. Date: Tue, 02 Aug 2016 08:57:00 GMT
  11. Content-Type: image/jpeg
  12. Content-Length: 9162
  13. Connection: close
  14. Set-Cookie: __cfduid=d58fa9ee9079943b9db4ce64366aa85f61470128220; expires=Wed, 02-Aug-17 08:57:00 GMT; path=/; domain=.placekitten.com; HttpOnly
  15. Accept-Ranges: bytes
  16. X-Powered-By: PleskLin
  17. Access-Control-Allow-Origin: *
  18. Cache-Control: public
  19. Expires: Thu, 31 Dec 2020 20:00:00 GMT
  20. Server: cloudflare-nginx
  21. CF-RAY: 2cc051e22cad22a0-LAX
  22. >>>
  23. >>> response.getcode()
  24. 200
  25. >>>

 3,模拟有道翻译   POST请求

如果 urllib.request.urlopen(url,data) data参数被赋值时,就会使用POST请求,并且data参数是基于 application/x-www-form-urlencoded格式,可以使用urllib.parse.urlencode()处理data

  1. import urllib.request
  2. import urllib.parse
  3. import json
  4.  
  5. url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null'
  6.  
  7. conent = input('请输入要翻译的内容:')
  8.  
  9. data = {'type':'AUTO','i':conent,'doctype':'json','xmlVersion':'1.8',
  10. 'keyfrom':'fanyi.web','ue':'UTF-8','action':'FY_BY_CLICKBUTTON',
  11. 'typoResult':'true'}
  12.  
  13. # encode 是把Unicode形式变成其它编码形式
  14. data = urllib.parse.urlencode(data).encode('utf-8')
  15. response = urllib.request.urlopen(url,data)
  16.  
  17. # decode 是把其它编码形式变成Unicode形式
  18. html = response.read().decode("utf-8")
  19. # html是一个json格式的字符串数据
  20. target = json.loads(html)
  21. print("翻译结果: %s" %(target['translateResult'][0][0]['tgt']))

Python编码问题的解决方案总结    http://bbs.fishc.com/thread-56452-1-1.html

 

4,headers 设置

 

headers是一个字典形式的数据,有两种设置方式 第一种是在 urlopen(url,data,headers)的第三个参数中设置;第二种方式是生成Request对象,调用 add_header(key,value)添加 

服务器检查是程序访问还是浏览器访问一般是通过

  1. User-Agent:
    Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36
  1. header ={}
  2. header['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'
  3.  
  4. req = urllib.request.Request(url,data,header)
  5. response = urllib.request.urlopen(req)
  1. >>> req.headers
  2. {'User-agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'}
  3. >>>
  1. req = urllib.request.Request(url,data)
  2. req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')

time 模块的  sleep(5)  , 表示睡5秒钟

5,代理

  步骤:

  1,参数是一个字典{'类型':'代理IP:端口port'}

  proxy_support = urllib.request.ProxyHandler({})

  2,定制、创建一个opener

  opener = urllib.request.build_opener(proxy_support )

  3a. 安装opener

  urllib.request.install_opener(opener)

  3b.调用opener

  opener.open(url)

在网上搜索 代理IP,可以搜索到很多免费的代理IP  比如: http://www.xicidaili.com/

  1. import urllib.request
  2. import random
  3. #该url地址是一个查询IP的地址
  4. url = 'http://www.whatismyip.com.tw'
  5.  
  6. iplist = ['183.129.178.14:8080','123.57.190.51:7777','101.231.250.102:80']
  7.  
  8. proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})
  9.  
  10. opener = urllib.request.build_opener(proxy_support)
  11. opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')]
  12.  
  13. urllib.request.install_opener(opener)
  14.  
  15. response = urllib.request.urlopen(url)
  16. html = response.read().decode("utf-8")
  17. print(html)

小应用,下载煎蛋网的妹子图 http://jandan.net/ 

  1. import urllib.request
  2. import os
  3. import random
  4. '''
  5. 打开网址.
  6. '''
  7. def open_url(url):
  8.  
  9. iplist = ['121.193.143.249:80','119.6.136.122:80','101.231.250.102:80']
  10.  
  11. proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})
  12.  
  13. opener = urllib.request.build_opener(proxy_support)
  14. opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')]
  15.  
  16. urllib.request.install_opener(opener)
  17.  
  18. response = urllib.request.urlopen(url)
  19. html = response.read()
  20.  
  21. #req = urllib.request.Request(url)
  22. #req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36')
  23. #response = urllib.request.urlopen(req)
  24. #html = response.read()
  25.  
  26. return html
  27.  
  28. '''
  29. 获取当前要下载的图片编号
  30. '''
  31. def get_page(url):
  32.  
  33. html = open_url(url).decode('utf-8')
  34.  
  35. # 在html中查找 <span class="current-comment-page">[2081]</span>
  36. a = html.find('current-comment-page') + 23
  37. # 从a开始找 有中括号 ]
  38. b = html.find(']',a)
  39.  
  40. return html[a:b]
  41.  
  42. def find_imgs(page_url):
  43.  
  44. html = open_url(page_url).decode('utf-8')
  45.  
  46. # 在html中查找 <img src="XXX.jpg">
  47. img_addrs = []
  48.  
  49. find_start = html.find('ol class="commentlist"')
  50. find_end = html.find('/ol',find_start)
  51.  
  52. a = html.find('img src=',find_start,find_end)
  53.  
  54. while a != -1:
  55. #从a开始找,最多找255个字符
  56. b = html.find('.jpg',a,a+255)
  57. if b != -1:
  58.  
  59. img_addrs.append(html[a+9:b+4])
  60.  
  61. else:
  62. b =a + 9
  63.  
  64. a = html.find('img src=', b,find_end)
  65.  
  66. return img_addrs
  67.  
  68. def save_imgs(folder,img_addrs):
  69. print(folder)
  70. for each in img_addrs:
  71. # 图片地址 斜杠拆分,取最后一个
  72. img_name = each.split('/')[-1]
  73.  
  74. with open(img_name,'wb') as f:
  75. img = open_url(each)
  76. f.write(img)
  77.  
  78. '''
  79. 下载妹子图,保存到folder文件夹,下载pages张图
  80. '''
  81. def download_mm(folder='ooxx' , pages = 10):
  82. #使用 os模块,创建文件夹和切换到该文件夹
  83. #os.mkdir(folder)
  84. os.chdir(folder)
  85.  
  86. url = 'http://jandan.net/ooxx/'
  87. #获取要下载的当前图片编号
  88. page_num = int(get_page(url))
  89.  
  90. # 组装下载链接
  91. for i in range(pages):
  92. page_num -= i
  93. page_url = url + 'page-' + str(page_num)+ '#comments'
  94. #从链接中获取图片地址
  95. image_addrs = find_imgs(page_url)
  96. # 下载保存图片
  97. save_imgs(folder,image_addrs)
  98.  
  99. print('--download__over--')
  100.  
  101. if __name__ == '__main__':
  102. download_mm()

网络异常  URLError HTTPError , HTTPError 是 URLError的子类

Python学习笔记012_网络_异常的更多相关文章

  1. python学习笔记11 ----网络编程

    网络编程 网络编程需要知道的概念 网络体系结构就是使用这些用不同媒介连接起来的不同设备和网络系统在不同的应用环境下实现互操作性,并满足各种业务需求的一种粘合剂.网络体系结构解决互质性问题彩是分层方法. ...

  2. Python学习笔记七-错误和异常

    程序员总是和各种错误打交道,学习如何识别并正确的处理程序错误是很有必要的. 7.1错误和异常 1.错误 从软件方面来看,错误分为语法错误和逻辑错误两种.这两种错误都将导致程序无法正常进行下去,当Pyt ...

  3. Python学习笔记008_类_对象_继承_组合_类相关的BIF

    # 对象 = 属性 + 方法>>> # Python中的类名约定以大写字母开始>>> # tt = Turtle() 这就是创建类实例的方法,其它语言用new ,它 ...

  4. python学习笔记014——错误和异常

    Python有两种错误很容易辨认:语法错误和异常. 1 什么是语法错误 Python 的语法错误或者称之为解析错,是初学者经常碰到的,如下实例 if i>4 print("if语句输出 ...

  5. python学习笔记10 ----网络编程

    网络编程 网络编程需要知道的概念 网络体系结构就是使用这些用不同媒介连接起来的不同设备和网络系统在不同的应用环境下实现互操作性,并满足各种业务需求的一种粘合剂.网络体系结构解决互质性问题彩是分层方法. ...

  6. python学习笔记:网络请求——urllib模块

    python操作网络,也就是打开一个网站,或者请求一个http接口,可以使用urllib模块.urllib模块是一个标准模块,直接import urllib即可,在python3里面只有urllib模 ...

  7. Python学习笔记13—错误和异常

    常见的异常:

  8. Python学习笔记011_模块_标准库_第三方库的安装

    容器 -> 数据的封装 函数 -> 语句的封装 类 -> 方法和属性的封装 模块 -> 模块就是程序 , 保存每个.py文件 # 创建了一个hello.py的文件,它的内容如下 ...

  9. Python学习笔记010_迭代器_生成器

     迭代器 迭代就类似于循环,每次重复的过程被称为迭代的过程,每次迭代的结果将被用来作为下一次迭代的初始值,提供迭代方法的容器被称为迭代器. 常见的迭代器有 (列表.元祖.字典.字符串.文件 等),通常 ...

随机推荐

  1. ABP从入门到精通(5):使用基于JWT标准的Token访问WebApi

    项目:asp.net zero 4.2.0 .net core(1.1) 版本 我们做项目的时候可能会遇到需要提供api给app调用,ABP动态生成的WebApi提供了方便的基于JWT标准的Token ...

  2. JFreeChart的使用(转)

    前提:导入需要的2个jar文件,jcommon-版本号.jar,jfreechart-版本号.jar.可以去官网下载:http://sourceforge.net/projects/jfreechar ...

  3. easyUI datagrid 列宽自适应(简单 图解)(转)

    响应数据格式: easyUI在html代码中结构: 发现了什么没有,我们的表头其实是一个td在td中有一个属性field那么我们就可以获得了; 以下就是自适应代码: //添加事件 function c ...

  4. 读懂javascript深拷贝与浅拷贝

    1. 认识深拷贝和浅拷贝 javascript中一般有按值传递和按引用传递两种复制,按值传递的是基本数据类型(Number,String,Boolean,Null,Undefined),一般存放于内存 ...

  5. 在 Docker 中使用 flannel - 每天5分钟玩转 Docker 容器技术(60)

    上一节我们安装和配置了 flannel,本节在 Docker 中使用 flannel. 配置 Docker 连接 flannel 编辑 host1 的 Docker 配置文件 /etc/systemd ...

  6. CAD快捷键命令

    符号键(CTRL开头) CTRL+1 PROPCLOSEOROPEN 对象特性管理器 CTRL+2或4 ADCENTER 设计中心 CTRL+3 CTOOLPALETTES 工具选项板 CTRL+8或 ...

  7. Linux 常用性能工具简介

    一.wget 文件下载 使用wget下载单个文件:wget URL 下载并以不同的文件名保存:wget -O wordpress.zip URL wget限速下载:wget --limit-rate= ...

  8. Python+Requests接口测试教程(1):Fiddler抓包工具

    本书涵盖内容:fiddler.http协议.json.requests+unittest+报告.bs4.数据相关(mysql/oracle/logging)等内容.刚买须知:本书是针对零基础入门接口测 ...

  9. jsp页面附件上传暂存的处理

    有没有遇到页面是新建一个新对象,对象里面需要上传附件,但是只有当对象保存时才将附件一同上传到数据库的情况? 这种情况的处理可以参考狐狸的思路: @jsp页面创建一个botton bn,该button的 ...

  10. django框架(Model)

    -------------------使用MySql数据库-------------------1.进行对应mysql-python包的下载 pip install mysql-python 2.在m ...