python 爬取网页内的代理服务器列表（需调整优化）

 #!/usr/bin/env python

 # -*- coding: utf-8 -*-

 # @Date    : 2017-08-30 20:38:23

 # @Author  : EnderZhou (zptxwd@gmail.com)

 # @Link    : http://www.cnblogs.com/enderzhou/

 # @Version : $Id$

 import requests

 from bs4 import BeautifulSoup as bs

 # 这种爬取网页内容中的列表的方式复用性差，不同的网站需要针对性的修改。每次使用均需要填写更换header头。后续将编写适用性更强的版本。

 url = 'http://www.kuaidaili.com/free/inha/'

 headers = {

 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

 'Accept-Encoding':'gzip, deflate',

 'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.6',

 'AlexaToolbar-ALX_NS_PH':'AlexaToolbar/alx-4.0.1',

 'Cache-Control':'max-age=0',

 'Connection':'keep-alive',

 'Cookie':'yd_cookie=a0d0f393-2812-44d0b1453fbf740f3ce870820ada37151e8c; _ydclearance=dd0b3de069ce8a768712e248-d97e-4bd9-8284-f2ef598da35b-1504104455; channelid=0; sid=1504099004948599; _ga=GA1.2.742898386.1504074603; _gid=GA1.2.583101265.1504074603; Hm_lvt_7ed65b1cc4b810e9fd37959c9bb51b31=1504074603,1504097260; Hm_lpvt_7ed65b1cc4b810e9fd37959c9bb51b31=1504099719',

 'Host':'www.kuaidaili.com',

 'Upgrade-Insecure-Requests':'',

 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36',

 }

 def proxy_check(types,ip,port):

     headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'}

     url = 'http://www.whatismyip.com.tw/'

     proxy = {}

     proxy[types.lower()] = '%s:%s' % (ip,port)

     print proxy

     try:

         r = requests.get(url,headers=headers,proxies=proxy)

         soup = bs(r.content,'html.parser')

         chack_ip = soup.find_all(name='b')

         print chack_ip[0].string+':'+port

     except Exception,e:

         # print e

         pass

 # proxy_check('http','183.62.11.242','8088')#可用于测试代理验证模块

 def main():

     r = requests.get(url=url,headers=headers)

     tr_soup = bs(r.content,'html.parser')

     tr = tr_soup.find_all(name='tr')

     for i in tr:

         # print i

         td_soup = bs(str(i),'html.parser')

         td = td_soup.find_all(name='td')

         if len(td) != 0:

             ip = str(td[0].string)

             port = str(td[1].string)

             types = str(td[3].string)

             proxy_check(types,ip,port)

 if __name__ == '__main__':

     main()

python 爬取网页内的代理服务器列表（需调整优化）的更多相关文章

python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...
如何使用python爬取网页动态数据
我们在使用python爬取网页数据的时候,会遇到页面的数据是通过js脚本动态加载的情况,这时候我们就得模拟接口请求信息,根据接口返回结果来获取我们想要的数据. 以某电影网站为例:我们要获取到电影名称以 ...
利用Python爬取网页图片
最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片 ...
python 爬取网页简单数据---以及详细解释用法
一.准备工作(找到所需网站,获取请求头,并用到请求头) 找到所需爬取的网站(这里举拉勾网的一些静态数据的获取)----------- https://www.lagou.com/zhaopin/Pyt ...
python爬取网页文本、图片
从网页爬取文本信息: eg:从http://computer.swu.edu.cn/s/computer/kxyj2xsky/中爬取讲座信息(讲座时间和讲座名称) 注:如果要爬取的内容是多页的话,网址 ...
使用 Python 爬取网页数据
1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...
python爬取网页图片（二）
从一个网页爬取图片已经解决,现在想要把这个用户发的图片全部爬取. 首先:先找到这个用户的发帖页面: http://www.acfun.cn/u/1094623.aspx#page=1 然后从这个页面中 ...
第14.1节通过Python爬取网页的学习步骤
如果要从一个互联网前端开发的小白,学习爬虫开发,结合自己的经验老猿认为爬虫学习之路应该是这样的: 一. 了解HTML语言及css知识这方面的知识请大家通过w3school 去学习,老猿对于html总 ...

随机推荐

javascript中constructor指向问题
首先用一个例子指出来constructor存在形式. function Fruit(){ } var f=new Fruit(); console.log(f.constructor);//打印出Fr ...
织梦dedecms做的网站首页标题篡改跳转赌博网站解决方案
织梦dedecms因其强大功能,简单实用的优点常常被用来做企业网站,程序开源使用的人多了网站漏洞多会有中毒的情况,常见的有一种,首页标题关键词描述被篡改,百度快照收录点击后跳转的赌博网站,怎么解决这个 ...
【HDOJ5943】Kingdom of Obsession（数论）
题意:给定n个人,n个座位,人的编号是[1,n],座位的编号是[s+1,s+n],编号为i的人能坐在编号为j的座位上的条件是j%i=0 问是否存在一组方案使得座位和人一一对应 n,s<=1e9 ...
国内著名的vue-element-admin-layout框架的使用
vue-element-admin-layout 是一个后台前端解决方案,它基于 vue 和 element-ui实现.它使用了最新的前端技术栈,内置了 i18 国际化解决方案,动态路由,权限验证,提 ...
webdriver驱动火狐浏览器报错:Unable to find a matching set of capabilities
raise exception_class(message, screen, stacktrace)selenium.common.exceptions.SessionNotCreatedExcept ...
shiro的web.xml的配置
<servlet> <servlet-name>springDispatcherServlet</servlet-name> <servlet-class&g ...
使用FFmpeg让mp4转gif
配好环境之后,需要在开始菜单中打开命令提示符,然后进入到test.mp4的文件目录下执行命令.(直接在文件目录下打开cmd不能生效)ffmpeg -i test.mp4 -f gif test.gif
JDBC连接数据库遇到的“驱动程序无法通过使用安全套接字层(SSL)加密与 SQL Server 建立安全连接。
要从旧算法列表中删除3DES: 在JDK 8及更早版本中,编辑该 /lib/security/java.security文件并3DES_EDE_CBC从jdk.tls.legacyAlgorithms ...
威胁猎杀实战（三）：基于Wazuh, Snort/Suricata和Elastic Stack的SOC
https://www.secpulse.com/archives/81629.html
typescript 类（类的定义、继承、修饰符、抽象类）
代码: // 本节内容 // 1.类的定义 // 2.类的继承 // 3.访问修饰符 // 4.静态属性和静态方法 // 5.抽象类和多态 // js // function Person(name) ...

python 爬取网页内的代理服务器列表（需调整优化）

python 爬取网页内的代理服务器列表（需调整优化）的更多相关文章

随机推荐

热门专题