案例:

网易新闻的爬取:

https://news.163.com/

爬取的内容为一下4大板块中的新闻内容

爬取:

特点:

动态加载数据  ,用 selenium

爬虫

1. 创建项目

scrapy startproject wy

2. 创建爬虫

scrapy genspider wangyi www.wangyi.com

撰写爬虫

1. 获取板块url

  1. import scrapy
  2.  
  3. class WangyiSpider(scrapy.Spider):
  4. name = 'wangyi'
  5. # allowed_domains = ['www.wangyi.com']
  6. start_urls = ['https://news.163.com/']
  7.  
  8. def parse(self, response):
  9.  
  10. # 获取4大板块的url 国内、国际、军事、航空
  11.  
  12. li_list = response.xpath("//div[@class='ns_area list']/ul/li")
  13. item_list =[]
  14. for li in li_list:
  15.  
  16. url = li.xpath("./a/@href").extract_first()
  17. title = li.xpath('./a/text()').extract_first().strip()
  18. # 过滤出 国内、国际、军事、航空
  19. if title in ['国内','国际','军事','航空']:
  20. item = {}
  21. item['title'] = title
  22. item['url'] = url
  23.  
  24. print(item)

1.过滤出想要板块的url和板块名爬虫

settings.py 文件中:

  1. # Obey robots.txt rules
  2. ROBOTSTXT_OBEY = False

执行爬虫效果

2.  每个板块页面的爬取:

爬虫代码:

  1. # 提取板块中的数据
  2. def parse_content(self,response):
  3.  
  4. title = response.meta.get('title')
  5. div_list =response.xpath("//div[@class='ndi_main']/div")
  6.  
  7. print(len(div_list))
  8. for div in div_list:
  9. item={}
  10. item['group'] = title
  11. img_url = div.xpath('./a/img/@src').extract_first()
  12. article_url = div.xpath('./a/img/@href').extract_first()
  13. head = div.xpath('./a/img/@alt').extract_first()
  14. keywords = div.xpath('//div[@class="keywords"]//text()').extract()
  15. # 将列表内容转换成字符串
  16. content = "".join([i.strip() for i in keywords])
  17. item['img_url'] = img_url
  18. item['article_url'] = article_url
  19. item['head'] = head
  20. item['keywords'] = keywords
  21.  
  22. yield scrapy.Request(
  23. url=article_url,
  24. callback=self.parse_detail,
  25. meta={'item':copy.deepcopy(item)}
  26. )

启动爬虫时没有打印出结果:

用xpath help 插件检查,发现所写的xpath表达式没有错,说明,该页面的数据可能是动态加载的数据

xpath显示有数据

解决动态数据使用selenium:

scrapy 中使用selenium 爬取步骤:

1. 在爬虫类中,重新构造方法 __init__,和写爬虫结束时关闭浏览器

2. 在下载中间键中

  1. from scrapy.http import HtmlResponse
  2. class WyDownloaderMiddleware(object):
  3.  
  4. def process_request(self, request, spider):
  5.  
  6. return None
  7.  
  8. def process_response(self, request, response, spider):
  9. # 拦截 响应
  10. if request.url in [ 'http://news.163.com/domestic/','http://news.163.com/world/','http://war.163.com/','http://news.163.com/air/']:
  11.  
  12. spider.bro.get(url=request.url)
  13. js = 'window.scrollTo(0,document.body.scrollHeight)'
  14. spider.bro.execute_script(js)
  15. time.sleep(3)
  16. page_text=spider.bro.page_source
  17. return HtmlResponse(url=spider.bro.current_url,body=page_text,encoding='utf-8')
  18.  
  19. else:
  20.  
  21. return response

3. settings.py中,开启下载中间件

  1. # See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
  2. DOWNLOADER_MIDDLEWARES = {
  3. 'wy.middlewares.WyDownloaderMiddleware': 300,
  4. }

UA池

1.在中间中自定义一个user_agent 中间件类 ,继承UserAgentMiddleware

  1. #单独给UA池封装一个 下载中间件的类
  2. # 需要导包 userAgentMiddleware
  3. class RandomUserAgent(UserAgentMiddleware):
  4. '''
  5. UA池类
  6. # 用faker 模块进行随机生成一个user_agent
  7.  
  8. '''
  9. def process_request(self, request, spider):
  10. fake = Factory.create()
  11. # 通过 faker模块随机生成一个ua
  12. user_agent = fake.user_agent()
  13.  
  14. request.headers.setdefault('User_Agent',user_agent)

2. 在settings.py 配置文件中:

  1. DOWNLOADER_MIDDLEWARES = {
  2. 'wy.middlewares.WyDownloaderMiddleware': 300,
  3. 'wy.middlewares.RandomUserAgent': 543,
  4. }

IP池

http://www.goubanjia.com/

1. 中间件中:

  1. # 批量对拦截到的请求对ip 进行更换 ,自定义一个ip代理类
  2.  
  3. class Proxy(object):
  4.  
  5. def process_request(self,request,spider):
  6.  
  7. # 两种 ip 池
    proxy_http=['206.189.231.239:8080','66.42.116.151:8080']
    proxy_https=['113.140.1.82:53281','36.79.152.0:8080']
    # request.url 返回值 :http://www.xxx.com 或 https://www.xxx.com
    h = request.url.split(":")[0]
  8.  
  9. if h=="http:":
    ip = random.choices(proxy_http)
    request.meta['proxy']='http://'+ip
    else:
    ip = random.choices(proxy_https)
    request.meta['proxy'] = 'https://'+ip

2. settings.py 配置

  1. DOWNLOADER_MIDDLEWARES = {
    'wy.middlewares.WyDownloaderMiddleware': 543,
    'wy.middlewares.RandomUserAgent': 542,
    'wy.middlewares.Proxy': 541,
    }

改为分布式爬虫

1.  redis 配置文件redis.conf 进行修改

注释该行:#bind 127.0.0.1,表示可以让其他ip访问

将yes该为no:protected-mode no,表示可以让其他ip操作redis

2. 对爬虫进行修改

将爬虫类的父类修改成基于RedisSpider或者RedisCrawlSpider。注意:如果原始爬虫文件是基于Spider的,则应该将父类修改成RedisSpider,如果原始爬虫文件是基于CrawlSpider的,则应该将其父类修改成RedisCrawlSpider。

- 注释或者删除start_urls列表,切加入redis_key属性,属性值为scrpy-redis组件中调度器队列的名称

3.  在配置文件中进行相关配置,开启使用scrapy-redis组件中封装好的管道

  1. ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': }

4. 在配置文件中进行相关配置,开启使用scrapy-redis组件中封装好的调度器

  1. # 使用scrapy-redis组件的去重队列
  2. DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
  3. # 使用scrapy-redis组件自己的调度器
  4. SCHEDULER = "scrapy_redis.scheduler.Scheduler"
  5. # 是否允许暂停
  6. SCHEDULER_PERSIST = True

5.在配置文件中进行爬虫程序链接redis的配置

  1. REDIS_HOST = 'redis服务的ip地址'
  2. REDIS_PORT = 6379
  3. REDIS_ENCODING = utf-8
  4. #REDIS_PARAMS = {‘password’:’123456’} # 有密码就需要写

6 开启redis服务器:redis-server 配置文件

7开启redis客户端:redis-cli

8 运行爬虫文件:

scrapy crawl wangyi

9 向调度器队列中扔入一个起始url(在redis客户端中操作):lpush redis_key属性值 起始url

selenium、UA池、ip池、scrapy-redis的综合应用案例的更多相关文章

  1. UA池 代理IP池 scrapy的下载中间件

    # 一些概念 - 在scrapy中如何给所有的请求对象尽可能多的设置不一样的请求载体身份标识 - UA池,process_request(request) - 在scrapy中如何给发生异常的请求设置 ...

  2. scrapy版本爬取某网站,加入了ua池,ip池,不限速不封号,100个线程爬崩网站

    目录 scrapy版本爬取妹子图 关键所在下载图片 前期准备 代理ip池 UserAgent池 middlewares中间件(破解反爬) settings配置 正题 爬虫 保存下载图片 scrapy版 ...

  3. 在Scrapy中使用IP池或用户代理更新版(python3)

    middlewares.py # -*- coding: utf-8 -*- # 导入随机模块 import random # 导入有关IP池有关的模块 from scrapy.downloaderm ...

  4. 在Scrapy中使用IP池或用户代理(python3)

    一.创建Scrapy工程 scrapy startproject 工程名 二.进入工程目录,根据爬虫模板生成爬虫文件 scrapy genspider -l # 查看可用模板 scrapy gensp ...

  5. Python爬虫代理IP池

    目录[-] 1.问题 2.代理池设计 3.代码模块 4.安装 5.使用 6.最后 在公司做分布式深网爬虫,搭建了一套稳定的代理池服务,为上千个爬虫提供有效的代理,保证各个爬虫拿到的都是对应网站有效的代 ...

  6. java爬虫进阶 —— ip池使用,iframe嵌套,异步访问破解

    写之前稍微说一下我对爬与反爬关系的理解 一.什么是爬虫      爬虫英文是splider,也就是蜘蛛的意思,web网络爬虫系统的功能是下载网页数据,进行所需数据的采集.主体也就是根据开始的超链接,下 ...

  7. springboot实现java代理IP池 Proxy Pool,提供可用率达到95%以上的代理IP

    一.背景 前段时间,写java爬虫来爬网易云音乐的评论.不料,爬了一段时间后ip被封禁了.由此,想到了使用ip代理,但是找了很多的ip代理网站,很少有可以用的代理ip.于是,抱着边学习的心态,自己开发 ...

  8. 自己设计代理IP池

    大体思路 使用redis作为队列,买了一份蘑菇代理,但是这个代理每5秒可以请求一次,我们将IP请求出来,从redis列表队列的左侧插入,要用的时候再从右侧取出,请求成功证明该IP是可用的,将该代理IP ...

  9. 封装IP池和用户代理相应的类(python3)

    一.middlewares.py源代码: # -*- coding: utf-8 -*- # 导入随机模块 import random # 导入有关IP池有关的模块 from scrapy.contr ...

随机推荐

  1. 放弃antd table,基于React手写一个虚拟滚动的表格

    缘起 标题有点夸张,并不是完全放弃antd-table,毕竟在react的生态圈里,对国人来说,比较好用的PC端组件库,也就antd了.即便经历了2018年圣诞彩蛋事件,antd的使用者也不仅不减,反 ...

  2. 利用Oracle Database Resource Manager实现UNDO表空间的quota

    1.查出当前使用的是哪个resource plan select * from GV$RSRC_PLAN 2.创建pending area begin  dbms_resource_manager.c ...

  3. Python之socket_udp

    UDP服务端&客户端编程 ''' udp编程 创建socket对象,socket.SOCK_DGRAM 绑定ip和port,bind()方法 传输数据 1.接收数据,socket.recvfr ...

  4. H3C交换机配置命令(收集)

    1:配置登录用户,口令等 <H3C>                   //用户直行模式提示符,用户视图 <H3C>system-view        //进入配置视图 [ ...

  5. Keepalived配置文件详解

    global_defs { router_id LVS_$prio #节点唯一标识,通常为hostname } local_address_group laddr_g1 { ${lvs_node} # ...

  6. Tensorflow object detection API ——环境搭建与测试

    1.开发环境搭建 ①.安装Anaconda 建议选择 Anaconda3-5.0.1 版本,已经集成大多数库,并将其作为默认python版本(3.6.3),配置好环境变量(Anaconda安装则已经配 ...

  7. SSM框架下 Failed to load resource: the server responded with a status of 404 (Not Found)错误

    这个错误提示的是js的引用路径有错: 1.检查应用路径是否正确(我的问题是路径是正确的但是去到页面就会提示404错误) 引用路径,最好都使用绝对路径 <script type="tex ...

  8. workbench使用小笔记(不定期持续更新)

    1. 删除不使用的工作空间 在使用workbench时,之前可能建了好几个工作空间,现在有一些不使用了,每次打开都能还能看到它们,对于强迫症来说多少有一些不爽.如下图: 现在,就把那些不使用的工作空间 ...

  9. hdu5686大数斐波那契

    Problem Description   度熊面前有一个全是由1构成的字符串,被称为全1序列.你可以合并任意相邻的两个1,从而形成一个新的序列.对于给定的一个全1序列,请计算根据以上方法,可以构成多 ...

  10. ELK学习笔记之logstash安装logstash-filter-multiline(在线离线安装)

    0x00 概述 ELK-logstash在搬运日志的时候会出现多行日志,普通的搬运会造成保存到ES中单条单条,很丑,而且不方便读取,logstash-filter-multiline可以解决该问题 g ...