随机切换UserAgent

https://github.com/hellysmile/fake-useragent

scrapy使用fake-useragent

在全局配置文件中禁用掉默认的UA,将其设置为None即可

settings.py

DOWNLOADER_MIDDLEWARES = {
...
'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
}

在中间件中编写自己的middleware

middlewares.py

class RandomUserAgentMiddleware(object):
def __init__(self, crawler):
super(RandomUserAgentMiddleware, self).__init__()
self.ua = UserAgent()
self.ua_type = crawler.settings.get('RANDOM_UA_TYPE', 'random') @classmethod
def from_crawler(cls, crawler):
return cls(crawler) def process_request(self, request, spider):
def get_ua():
return getattr(self.ua, self.ua_type) request.headers.setdefault('User-Agent', get_ua())

将自己写的middleware配置进settings中

DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.CustomDownloaderMiddleware': 543,
'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
}

随机切换IP

https://github.com/scrapy-plugins/scrapy-crawlera

爬取西刺IP代理网站获取IP

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from w3lib.html import remove_tags from ArticleSpider.items import ProxyIpItemLoader, ProxyIpItem class ProxyIpSpider(CrawlSpider):
name = 'proxy'
allowed_domains = ['www.xicidaili.com']
start_urls = ['http://www.xicidaili.com'] rules = (
Rule(LinkExtractor(allow=('nn/\d*')), callback='parse_detail', follow=True),
) def parse_detail(self, response):
ip_list = response.css('#ip_list tr')
for ipdata in ip_list[1:]:
item_loader = ProxyIpItemLoader(item=ProxyIpItem(), response=response)
data = ipdata.css('td')
item_loader.add_value('ip', data[1].css('td::text').extract_first())
item_loader.add_value('port', data[2].css('td::text').extract_first())
item_loader.add_value('addr', self.get_addr(data[3]))
item_loader.add_value('ishidden', data[4].css('td::text').extract_first())
item_loader.add_value('type', data[5].css('td::text').extract_first())
item_loader.add_value('speed', data[6].css('div::attr(title)').extract_first())
item_loader.add_value('conn_time', data[7].css('div::attr(title)').extract_first())
item_loader.add_value('live_time', data[8].css('td::text').extract_first())
item_loader.add_value('check_time', data[9].css('td::text').extract_first()) proxy_ip_item = item_loader.load_item() yield proxy_ip_item def get_addr(self, value):
if value.css('a'):
return remove_tags(value.extract()).strip()
else:
return "未知"

对数据进行简单处理

class ProxyIpItemLoader(ItemLoader):
default_output_processor = TakeFirst() def live_time(value):
'''
分钟, 小时, 天
统一转换成分钟
'''
if '分钟' in value:
return int(value.split('分钟')[0])
elif '小时' in value:
value = value.split('小时')[0]
return int(value) * 60
elif '天' in value:
value = value.split('天')[0]
return int(value) * 60 * 24 def ishidden_to_int(value):
if '高匿' in value:
return int(1)
else:
return int(0) def check_time(value):
return datetime.datetime.strptime(value, "%y-%m-%d %H:%M") class ProxyIpItem(scrapy.Item):
'''
{'addr': '陕西西安',
'check_time': '12-12-31 18:52',
'conn_time': '0.82秒',
'ip': '113.133.160.203',
'ishidden': '高匿',
'live_time': '1分钟',
'port': '6675',
'speed': '3.595秒',
'type': 'socks4/5'
}
'''
ip = scrapy.Field()
port = scrapy.Field()
addr = scrapy.Field(
input_processor = MapCompose(remove_tags, lambda x:x.strip())
)
ishidden = scrapy.Field(
input_processor=MapCompose(ishidden_to_int)
)
type = scrapy.Field()
speed = scrapy.Field()
conn_time = scrapy.Field()
live_time = scrapy.Field(
input_processor = MapCompose(live_time)
)
check_time = scrapy.Field() def get_insert_sql(self):
insert_sql = """
insert into proxy_ip(ip, port, addr, ishidden, type, speed, conn_time, live_time, check_time)
VALUES (%s, %s, %s, %s,%s,%s, %s, %s, %s)
"""
params = (self["ip"], self["port"], self["addr"],
self["ishidden"], self["type"],self["speed"],
self["conn_time"], self["live_time"], self["check_time"])
return insert_sql, params

在pipeline中进行数据的再次清洗,抛弃所有的特殊端口的item,并数据进行保存

在中间件中创建切换IP的中间件,在主配置文件中启用这个中间件

IP是否可用,只需要请求百度即可

验证码识别

没必要自己写一个验证码识别代码

可以使用云打码平台进行验证码识别

http://www.yundama.com/

需要分别注册一个普通用户和一个开发者账号

下载pythonhttp版本

http://www.yundama.com/apidoc/YDM_SDK.html#DLL

解压后里面有一个3.x的文件,打开后进行配置

# 用户名(普通用户)
username = 'username' # 密码(普通用户)
password = 'password' # 软件ID,开发者分成必要参数。登录开发者后台【我的软件】获得!
appid = 1 # 软件密钥,开发者分成必要参数。登录开发者后台【我的软件】获得!
appkey = '22cc5376925e9387a23cf797cb9ba745' # 图片文件
filename = 'getimage.jpg' # 验证码类型,# 例:1004表示4位字母数字,不同类型收费不同。请准确填写,否则影响识别率。在此查询所有类型 http://www.yundama.com/price.html
codetype = 1004 # 超时时间,秒
timeout = 60

Scrapy突破反爬虫的限制的更多相关文章

  1. Python Scrapy突破反爬虫机制(项目实践)

    对于 BOSS 直聘这种网站,当程序请求网页后,服务器响应内容包含了整个页面的 HTML 源代码,这样就可以使用爬虫来爬取数据.但有些网站做了一些“反爬虫”处理,其网页内容不是静态的,而是使用 Jav ...

  2. 第7章 Scrapy突破反爬虫的限制

    7-1 爬虫和反爬的对抗过程以及策略 Ⅰ.爬虫和反爬虫基本概念 爬虫:自动获取网站数据的程序,关键是批量的获取. 反爬虫:使用技术手段防止爬虫程序的方法. 误伤:反爬虫技术将普通用户识别为爬虫,如果误 ...

  3. Scrapy爬取美女图片第四集 突破反爬虫(上)

     本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...

  4. 自动更改IP地址反爬虫封锁,支持多线程(转)

    8年多爬虫经验的人告诉你,国内ADSL是王道,多申请些线路,分布在多个不同的电信机房,能跨省跨市更好,我这里写好的断线重拨组件,你可以直接使用. ADSL拨号上网使用动态IP地址,每一次拨号得到的IP ...

  5. Python Scrapy反爬虫常见解决方案(包含5种方法)

    爬虫的本质就是“抓取”第二方网站中有价值的数据,因此,每个网站都会或多或少地采用一些反爬虫技术来防范爬虫.比如前面介绍的通过 User-Agent 请求头验证是否为浏览器.使用 JavaScript ...

  6. 第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图

    第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图 1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scra ...

  7. 二十四 Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图

    1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scrapy架构源码分析图

  8. scrapy反反爬虫

    反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying d ...

  9. scrapy反反爬虫策略和settings配置解析

    反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying d ...

随机推荐

  1. python二:数据类型举例练习--小白博客

    一.#字符串 res = 'hello,world' 1.#字符串切片取值:******* print(res[0:5]) 顾头不顾尾,取下标0-4的字符 print(res[0:-1:2]) 步长为 ...

  2. 2017百度软研(C++)

    问了很多,不过很多也都没有问到,感觉有点偏,很深入的东西,越问越虚.第一次实习面试从百度开始,也从百度结束吧.看得见的差距,不想将就,所以还是拿最后一次机会去尝试.win or go home, 所以 ...

  3. [2018福大至诚软工助教]alpha阶段小结

    [2018福大至诚软工助教]alpha阶段小结 一.得分 1. 冲刺(7次 Scrum) 150分 1)第1篇(25分) 项目 评分标准 各个成员在 Alpha 阶段认领的任务 (6分)视详细程度给分 ...

  4. Django 生成验证码或二维码 pillow模块

    一.安装PIL PIL:Python Imaging Library,已经是Python平台事实上的图像处理标准库了.PIL功能非常强大,API也非常简单易用.   PIL模块只支持到Python 2 ...

  5. python os模块详解

    一.Python os模块(Linux环境) 1.1 执行shell命令 os.system('cmd') 执行命令不保存结果 os.popen('command') 执行后返回结果,使用.read( ...

  6. Python爬虫:爬取人人都是产品经理的数据

    爬取内容: 人人都是产品经理首页(www.woshipm.com)左侧[最新文章]下如图样式的文章标题.浏览量和缩略图. 思路: 1. 用BeautifulSoup解析网页 变量名 = Beautif ...

  7. 分布式Tomcat session会话Sticky Sessions问题

    分布式session会话Sticky Sessions - tomcat_baby的专栏 - CSDN博客https://blog.csdn.net/tomcat_baby/article/detai ...

  8. vue路由动态过渡效果

    不多说,直接上代码 import Vue from 'vue' //引入vue import VueRouter from 'vue-router' //引入路由 Vue.use(VueRouter) ...

  9. node exprss-session 和connect-mongo

    let express = require('express'); let session = require('express-session'); let app = new express(); ...

  10. [转帖]一段关于Unix与 Linux的暗黑史

    一段关于Unix与 Linux的暗黑史 https://blog.csdn.net/a343315623/article/details/51436715 微软曾经开发过 MS-DOS Xenix O ...