刚学,只会一点正则,还只能爬1页。。以后还会加入测试

  1. #coding:utf-8
  2.  
  3. import urllib
  4. import urllib2
  5. import re
  6.  
  7. #抓取代理服务器地址
  8. Key = 1
  9. url = 'http://www.xicidaili.com/nt/%s' %Key
  10. #print url
  11.  
  12. user_agent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
  13. headers={'User-Agent' :user_agent}
  14.  
  15. try:
  16. request = urllib2.Request(url,headers=headers)
  17. response=urllib2.urlopen(request)
  18. html=response.read()
  19. pattern=re.compile('<td class="country".*?<td>(\d+).(\d+).(\d+).(\d+)</td>.*?<td>(\d+)</td>',re.S)
  20. items=re.findall(pattern,html)
  21. for item in items:
  22. # if item !='HTTP'or'HTTPS':
  23. print "%s.%s.%s.%s:%s" %(item[0],item[1],item[2],item[3],item[4])
  24. except urllib2.URLError,e:
  25. if hasattr(e,'code'):
  26. print e.code
  27. if hasattr(e,'reason'):
  28. print e.reason

Output

  1. 112.112.95.25:9999
  2. 113.66.236.53:9797
  3. 14.221.165.46:9797
  4. 123.121.79.213:9000
  5. 219.133.10.211:9797
  6. 113.109.248.12:9797
  7. 27.46.48.187:9797
  8. 115.183.11.158:9999
  9. 112.93.208.231:8080
  10. 113.78.254.84:9000
  11. 121.35.243.157:8080
  12. 42.157.5.154:9999
  13. 218.75.144.25:9000
  14. 113.65.8.221:9999
  15. 218.56.132.158:8080
  16. 59.59.144.135:53281
  17. 119.129.96.33:9797
  18. 115.213.60.99:53281
  19. 221.237.154.58:9797
  20. 120.86.180.173:9797
  21. 112.250.65.222:53281
  22. 27.37.22.243:9000
  23. 123.138.89.133:9999
  24. 175.171.184.36:53281
  25. 113.76.96.161:9797
  26. 183.29.130.106:9000
  27. 119.90.63.3:3128
  28. 175.171.186.171:53281
  29. 183.184.194.15:9797
  30. 218.241.234.48:8080
  31. 113.200.159.155:9999
  32. 218.6.145.11:9797
  33. 218.56.132.156:8080
  34. 223.199.175.107:808
  35. 14.221.166.140:9000
  36. 220.249.185.178:9999
  37. 122.72.18.34:80
  38. 139.224.24.26:8888
  39. 122.72.18.60:80
  40. 61.163.139.168:9797
  41. 202.120.46.180:443
  42. 122.72.18.61:80
  43. 125.45.87.12:9999
  44. 116.85.24.26:8080
  45. 222.86.191.44:8080
  46. 112.74.94.142:3128
  47. 61.163.139.168:9797
  48. 114.255.212.17:808
  49. 118.178.228.175:3128
  50. 122.72.18.35:80
  51. 101.37.79.125:3128
  52. 113.89.52.86:9999
  53. 113.118.96.132:9797
  54. 101.81.142.10:9000
  55. 61.155.164.106:3128
  56. 114.115.140.25:3128
  57. 171.37.176.140:9797
  58. 58.252.6.165:9000
  59. 61.163.39.70:9999
  60. 121.8.170.53:9797
  61. 175.174.118.141:8080
  62. 118.119.168.172:9999
  63. 171.37.143.140:9797
  64. 119.39.68.212:808
  65. 124.90.30.103:8118
  66. 59.38.61.23:9797
  67. 1.196.161.163:9999
  68. 113.116.76.212:8088
  69. 122.136.212.132:53281
  70. 203.174.112.13:3128
  71. 221.217.49.196:9000
  72. 14.29.84.50:8080
  73. 175.17.156.139:8080
  74. 175.17.174.218:9000
  75. 114.221.125.161:8118
  76. 123.139.56.238:9999
  77. 113.87.163.152:808
  78. 101.6.33.113:8123
  79. 61.155.164.112:3128
  80. 180.140.161.138:9797
  81. 221.7.49.209:53281
  82. 120.9.75.45:9999
  83. 183.184.112.78:9797
  84. 116.236.151.166:8080
  85. 119.122.2.160:9000
  86. 119.129.96.142:9797
  87. 116.52.195.113:9999
  88. 61.155.164.109:3128
  89. 112.86.248.163:8118
  90. 115.171.47.184:9000
  91. 116.30.218.76:9000
  92. 123.7.38.31:9999
  93. 218.29.111.106:9999
  94. 114.101.35.113:54214
  95. 124.89.33.75:9999
  96. 114.254.4.208:9797
  97. 183.54.192.211:9797
  98. 218.17.8.110:8118
  99. 183.30.201.123:9797
  100. 119.123.244.95:9000
  101.  
  102. ***Repl Closed***

python 爬虫入门1 爬取代理服务器网址的更多相关文章

  1. Python 爬虫入门之爬取妹子图

    Python 爬虫入门之爬取妹子图 来源:李英杰  链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...

  2. Python 爬虫入门(二)——爬取妹子图

    Python 爬虫入门 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...

  3. Python 爬虫入门(一)——爬取糗百

    爬取糗百内容 GitHub 代码地址https://github.com/injetlee/Python/blob/master/qiubai_crawer.py 微信公众号:[智能制造专栏],欢迎关 ...

  4. python 爬虫入门----案例爬取上海租房图片

    前言 对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...

  5. python 爬虫入门案例----爬取某站上海租房图片

    前言 对于一个net开发这爬虫真真的以前没有写过.这段时间开始学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSou ...

  6. Python爬虫入门:爬取豆瓣电影TOP250

    一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...

  7. Python爬虫入门:爬取pixiv

    终于想开始爬自己想爬的网站了.于是就试着爬P站试试手. 我爬的图的目标网址是: http://www.pixiv.net/search.php?word=%E5%9B%9B%E6%9C%88%E3%8 ...

  8. python - 爬虫入门练习 爬取链家网二手房信息

    import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db&qu ...

  9. 【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

    原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...

随机推荐

  1. windows环境下 RabbitMQ 安装时创建用户流程命令

    https://blog.csdn.net/xiaojieblog/article/details/70332469

  2. solairs11与solairs10 ftp服务的区别

    Migration from Solaris WU-FTPD to ProFTPD Introduction ------------ This document provides an overvi ...

  3. element-ui + redis + mongo + nuxt

    用户注册: let {username,password} = req.body; let u = await UserModel.findOne({username}); if(u){ res.js ...

  4. Canvas + WebSocket + Redis 实现一个视频弹幕

    原文出自:https://www.pandashen.com 页面布局 首先,我们需要实现页面布局,在根目录创建 index.html 布局中我们需要有一个 video 多媒体标签引入我们的本地视频, ...

  5. 测试工具Telerik Test Studio发布R2 2019|支持VS 2019

    Telerik Test Studio是一个用于功能性Web.桌面和移动测试的直观测试自动化工具,它能轻松地实现自动化测试.同时会为GUI.性能.加载和API测试提供完整的自动化测试解决方案. |更多 ...

  6. ZROI 19.08.10模拟赛

    传送门 写在前面:为了保护正睿题目版权,这里不放题面,只写题解. A \(20pts:\) 枚举操作序列然后暴力跑,复杂度\(O(6^n)\). \([50,80]pts:\) 枚举改成dfs,每层操 ...

  7. mysql笔记——索引

    什么是索引? 数据库中的一个对象. 在数据库中用来加速表的查询. 通过使用快速路径访问方法定位数据,减少了磁盘的i/o. 与表分别独立存放,但不能独立存在,必须属于某个表. 由数据库自动维护,表被删除 ...

  8. wordpress设置本地化语言

    wordpress语言本地化 在wordpress上很多插件不支持本地化语言如:中文,需要本地化,则需要制作本地化语言的po(用于编辑)和mo(用于机器识别)文件.可以没有*.po文件,但是不能没有* ...

  9. 以Emacs Org mode为核心的任务管理方案

    前言 如今用于任务管理的方法与工具越来越多,如纸笔系统.日历与任务列表.Emacs Org mode系统,以及移动设备上的诸多应用.这些解决方案各具特色,在一定程度上能够形成互补作用.但是,它们彼此之 ...

  10. 【Leetcode】位1的个数

    解题方案:位操作的技巧 整数 n 和 n-1(n>0) 做与运算,从其二进制形式来看,可以消掉 n 的二进制数值中最后1个 “1” .循环进行,每次消掉1个 “1” .整数 n 的二进制数值中有 ...