selenium&phantom实战--获取代理数据

获取快代理网站的数据

注意：

#!/usr/bin/env python

# _*_ coding: utf-8 _*_

# __author__ ='kong'

# 导入模块

from selenium import webdriver

# 定义一个类用来存放代理数据

class Item(object):

    ip = None

    port = None

    anonymous = None

    type = None

    support = None

    local = None

    speed = None

# 主类

class GetProx(object):

    def __init__(self):

        self.startUrl = "http://www.kuaidaili.com/proxylist/"

        self.urls = self.getUrls()

        self.proxList = self.getProxyList(self.urls)

        self.fileName = 'proxy.txt'

        self.saveFile(self.fileName,self.proxList)

    # 获取所有要访问的url

    def getUrls(self):

        urls = []

        for i in xrange(1,11):

            url = self.startUrl + str(i)

            urls.append(url)

        return urls

    # 获取每个url的代理数据

    def getProxyList(self,urls):

        # 创建一个浏览器实例

        browser = webdriver.PhantomJS()

        proxyList = []

        item = Item()

        for url in urls:

            # 向指定的url发送请求

            browser.get(url)

            # 智能等待5秒

            browser.implicitly_wait(5)

            # 获取网页上的代理表格数据

            elements = browser.find_elements_by_xpath("//tbody/tr")

            for element in elements:

                item.ip = element.find_element_by_xpath("./td[1]").text.encode("utf8")

                item.port = element.find_element_by_xpath("./td[2]").text.encode("utf8")

                item.anonymous = element.find_element_by_xpath("./td[3]").text.encode("utf8")

                item.type = element.find_element_by_xpath("./td[4]").text.encode("utf8")

                item.support = element.find_element_by_xpath("./td[5]").text.encode("utf8")

                item.local = element.find_element_by_xpath("./td[6]").text.encode("utf8")

                item.speed = element.find_element_by_xpath("./td[7]").text.encode("utf8")

                proxyList.append(item)

        # 最后退出浏览器实例

        browser.quit()

        return proxyList

    # 代理数据写入文件中

    def saveFile(self,fileName,proxyList):

        with open(fileName,'w') as fp:

            for each in proxyList:

                fp.write(each.ip + "\t")

                fp.write(each.port + "\t")

                fp.write(each.anonymous +"\t")

                fp.write(each.type + "\t")

                fp.write(each.support + "\t")

                fp.write(each.local + "\t")

                fp.write(each.speed + "\t")

                fp.write("\n")

if __name__ == '__main__':

    gp = GetProx()

selenium&phantom实战--获取代理数据的更多相关文章

[Python爬虫] 之一： Selenium+Phantomjs动态获取网站数据信息
本人刚才开始学习爬虫,从网上查询资料,写了一个利用Selenium+Phantomjs动态获取网站数据信息的例子,当然首先要安装Selenium+Phantomjs,具体的看 http://www.c ...
Swift实战-豆瓣电台（三）获取网络数据
观看地址:http://v.youku.com/v_show/id_XNzMwMzQxMzky.html 这节内容,我们先说了怎么将storyboard中的组件在类中进行绑定.然后写了一个类用来获取网 ...
【python爬虫实战】使用Selenium webdriver采集山东招考数据
目录 1.目标 2.Selenium webdriver说明 2.1 为什么使用webdriver 2.2 webdriver支持浏览器 2.3 配置与使用说明 3.采集 3.1 分析网站 3.2 遍 ...
实时获取股票数据，免费！——Python爬虫Sina Stock实战
更多精彩内容,欢迎关注公众号:数量技术宅,也可添加技术宅个人微信号:sljsz01,与我交流. 实时股票数据的重要性对于四大可交易资产:股票.期货.期权.数字货币来说,期货.期权.数字货币,可以从交 ...
python爬虫实战（一）——实时获取代理ip
在爬虫学习的过程中,维护一个自己的代理池是非常重要的. 详情看代码: 1.运行环境 python3.x,需求库:bs4,requests 2.实时抓取西刺-国内高匿代理中前3页的代理ip(可根据需求自 ...
selenium 获取table数据
public class Table { /** * @param args */ public static void main(String[] args) { // TODO Auto-gene ...
python+selenium 自动化测试实战
一.前言: 之前的文章说过, 要写一篇自动化实战的文章, 这段时间比较忙再加回家过11一直没有更新博客,今天整理一下实战项目的代码共大家学习.(注:项目是针对我们公司内部系统的测试,只能内部网络访问, ...
selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
iOS开发之Socket通信实战--Request请求数据包编码模块
实际上在iOS很多应用开发中,大部分用的网络通信都是http/https协议,除非有特殊的需求会用到Socket网络协议进行网络数据传输,这时候在iOS客户端就需要很好的第三方CocoaAsyncS ...

随机推荐

MediaWIKI部署流程
1.下载mediawiki,地址:https://www.mediawiki.org/wiki/MediaWiki 2.下载xxamp集成软件,地址:https://www.apachefriends ...
excel将内容粘贴到筛选后的可见单元格
默认情况下,筛选后excel表格进行复制粘贴,会贴到隐藏的表格. 可以添加两个辅助列来完成操作:1.在筛选前在表格右边添加"辅助1"列,在第二行输入1,按Ctrl+鼠标左键往下拉到 ...
Chapter 3 Phenomenon——3
It took every ounce of my concentration to make it down the icy brick driveway alive. 我用所有我的注意力去确定车道 ...
AndroidStudio报错Software caused connection abort: recv failed
Software caused connection abort: recv failed 这个问题网上有一种说法已知会导致这种异常的一个场景如下: 客户端和服务端建立tcp的短连接,每次客户端发送 ...
ant编译apache-nutch-2.2.1结合mysql实现爬虫的安装配置全过程
之前的数据抓取都是用的八爪鱼软件,老大突发奇想要我自己搞个爬虫来抓取数据,网上找找貌似apache的nutch比较合适,于是就开始安装这啥nutch. 对于一个linux零基础的人来说,还要先学学li ...
常常忘记但是很重要的sql语句
一.基础1.说明:创建数据库CREATE DATABASE database-name 2.说明:删除数据库drop database dbname3.说明:备份sql server--- 创建备份 ...
【JavaScript 从零开始】数字文本包装对象
JavaScript中的算术运算 JavaScript 还自称更加复杂的算术运算,这些复杂的运算通过作为Math对象的属性定义的函数和常量来实现: Math.pow(2,53) //=>9007 ...
Spring系列之——使用了哪些设计模式
1 工厂模式:BeanFactory.ApplicationContext创建中 2 模板模式:BeanFactory.ApplicationContext实现中 3 代理模式:在AOP实现中用到了J ...
Dijkstra Java
https://leetcode.com/problems/network-delay-time/ /* Java program to find a Pair which has maximum s ...
Win8操作系统下IIS如何配置asp.net的运行环境（win7同样)
一.把鼠标放在电脑屏幕的左下角然后右击,弹出如下图菜单,选择“程序和功能”(快捷键win+X).(win7点击电脑左下角的“开始”,然后点击“控制面板”打开程序与功能界面): 二.进入程序与功能界面后 ...

selenium&phantom实战--获取代理数据

selenium&phantom实战--获取代理数据的更多相关文章

随机推荐

热门专题