Python 爬虫实例（6）—— 爬取蚂蚁免费代理

数据库表sql语句：

CREATE TABLE `free_ip` (

  `free_ip_id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键',

  `ip` varchar(255) DEFAULT NULL COMMENT 'ip地址',

  `port` varchar(255) DEFAULT NULL COMMENT '端口',

  `yini_class` varchar(255) DEFAULT NULL COMMENT '匿名等级',

  `http_type` varchar(255) DEFAULT NULL COMMENT '代理类型',

  `response_time` varchar(255) DEFAULT NULL COMMENT '响应时间',

  `address` varchar(255) DEFAULT NULL COMMENT '地理位置',

  `validate_time` varchar(255) DEFAULT NULL COMMENT '最近验证时间',

  `hashcode` varchar(255) DEFAULT NULL COMMENT '去重',

  PRIMARY KEY (`free_ip_id`),

  UNIQUE KEY `hashcode` (`hashcode`) USING BTREE

) ENGINE=InnoDB AUTO_INCREMENT=4220 DEFAULT CHARSET=utf8;

源代码：

# coding:utf-8

import random, re

import sqlite3

import json, time

import uuid

from bs4 import BeautifulSoup

import threading

import requests

import MySQLdb

from lxml import etree

import urllib3

urllib3.disable_warnings()

import urllib2

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

session = requests.session()

import logging

import logging.handlers

import platform

sysStr = platform.system()

if sysStr =="Windows":

    LOG_FILE_check = 'H:\\log\\log.txt'

else:

    LOG_FILE_check = '/log/wlb/crawler/cic.log'

handler = logging.handlers.RotatingFileHandler(LOG_FILE_check, maxBytes=128 * 1024 * 1024,backupCount=10)  # 实例化handler  200M 最多十个文件

fmt = '\n' + '%(asctime)s - %(filename)s:%(lineno)s  - %(message)s'

formatter = logging.Formatter(fmt)  # 实例化formatter

handler.setFormatter(formatter)  # 为handler添加formatter

logger = logging.getLogger('check')  # 获取名为tst的logger

logger.addHandler(handler)  # 为logger添加handler

logger.setLevel(logging.DEBUG)

def md5(str):

    import hashlib

    m = hashlib.md5()

    m.update(str)

    return m.hexdigest()

def freeIp():

    for i in range(1,1000):

        print "正在爬取的位置是：",i

        url = "http://www.ip181.com/daili/" + str(i)+ ".html"

        headers = {

            "Host":"www.ip181.com",

            "Connection":"keep-alive",

            "Upgrade-Insecure-Requests":"",

            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.91 Safari/537.36",

            "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

            "Referer":url,

            "Accept-Encoding":"gzip, deflate",

            "Accept-Language":"zh-CN,zh;q=0.8",

            }

        try:

            result = session.get(url=url,headers=headers).text

            result = result.encode('ISO-8859-1').decode(requests.utils.get_encodings_from_content(result)[0])

        except:

            result = session.get(url=url, headers=headers).text

            result = result.encode('ISO-8859-1').decode(requests.utils.get_encodings_from_content(result)[0])

        soup = BeautifulSoup(result, 'html.parser')

        result_soup = soup.find_all("div", attrs={"class": "col-md-12"})[1]

        result_soup = str(result_soup).replace('\r\n\t','').replace('\r\n','').replace('\n\t','').replace('\n','').replace(' class="warning"','')

        result_soups = re.findall('最近验证时间</td></tr>(.*?)</tbody></table><div class="page">共',result_soup)[0]

        print result_soups

        result_list = re.findall('<tr><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td></tr>',result_soups)

        for item in result_list:

            ip = item[0]

            port = item[1]

            yini_class = item[2]

            http_type = item[3]

            response_time = item[4]

            address = item[5]

            validate_time = item[6]

            proxy = str(ip) + ":" + port

            hashcode = md5(proxy)

            try: # 此处是数据库连接，请换成自己的数据库

                conn = MySQLdb.connect(host="110.110.110.717", user="lg", passwd="", db="",charset="utf8")

                cursor = conn.cursor()

                sql = """INSERT INTO free_ip (ip,port,yini_class,http_type,response_time,address,validate_time,hashcode)

                VALUES (%s,%s,%s,%s,%s,%s,%s,%s)"""

                params = (ip,port,yini_class,http_type,response_time,address,validate_time,hashcode)

                cursor.execute(sql, params)

                conn.commit()

                cursor.close()

                print "          插入成功      "

            except Exception as e:

                print "********插入失败********"

                print e

freeIp()

爬取效果：

Python 爬虫实例（6）—— 爬取蚂蚁免费代理的更多相关文章

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...

随机推荐

SpringMVC访问静态页面
Spring MVC显示静态页面在前面搭建spring MVC环境时,我们设置了spring-mvc配置,通过tomcat来访问了index.jsp 页面,但是当我将页面换成.thml的静态面之后就 ...
C#各种结束进程的方法详细介绍
Process类的CloseMainWindow, Kill, Close Process.CloseMainWindow是GUI程序的最友好结束方式,从名字上就可以看出来它是通过结束主窗体,相当于用 ...
【ajax 提交表单】多种方式的注意事项 ,serialize()的使用
在业务中,可能因为表单内容过于庞大,字段过于繁杂,如果人为去拼接的话 ,需要耗费大量的时间和精力,与此同时,代码看上去也是冗余不堪. 所以,提交表单的时候如果能整个表单数据整体提交,那是非常开心的事情 ...
IOS批量截取视频截图 UIImage mp4 IOS Video
IOS批量截取视频截图 //生成截图 NSString *path = [NSHomeDirectory() stringByAppendingString:@"/Documents&quo ...
EntityFramework 7.0之初探【基于VS 2015】（
前言本篇作为EF 7.0的开篇也是Entity Framework目前系列末篇,因为关于EF 7.0学习资料实在是太少,我都是参考老外的资料花费了不少时间去研究去尝试同时也失败多次,个人觉得那是值得 ...
RxJava 和 RxAndroid （生命周期控制和内存优化）
RxJava使我们很方便的使用链式编程,代码看起来既简洁又优雅.但是RxJava使用起来也是有副作用的,使用越来越多的订阅,内存开销也会变得很大,稍不留神就会出现内存溢出的情况,这篇文章就是介绍Rxj ...
Eclipse中安装Maven插件 M2eclipse
下面是官网的说明,基本上的意思下面有图片说明. To install m2eclipse, use the following Eclipse update site to install the c ...
IDEA下clean Maven项目
如何调试出窗口: 点击菜单栏View->Tool Windows->Maven projects ♦如下图,选中之后.点击绿色三角形就可以clean了
PHP快速入门如何操作MySQL
1 创建一个新的数据库,注意类型设置为utf8_general_ci 2 在数据库中创建一个新的表,比如叫做tg_user(先从左侧选择刚才创建的数据库) 3 创建第一个字段,自动编号.我们估计网站的 ...
使用System.getProperty方法，如何配置JVM系统属性（转载）
很多时候需要在项目中读取外部属性文件,用到了System.getProperty("")方法.这个方法需要配置JVM系统属性,那么如何配置呢? 那就是使用java -D 配置系统属 ...

Python 爬虫实例（6）—— 爬取蚂蚁免费代理

Python 爬虫实例（6）—— 爬取蚂蚁免费代理的更多相关文章

随机推荐

热门专题