(六)基于Scrapy爬取网易新闻中的新闻数据

需求：爬取这国内、国际、军事、航空、无人机模块下的新闻信息

1.找到这五个板块对应的url

2.进入每个模块请求新闻信息

我们可以明显发现‘’加载中‘’，因此我们判断新闻数据是动态加载出来的。

3.拿到新闻的标题和详情url

4.请求详情页获取新闻内容

5.思路：思路已经很清晰了，请求五大板块拿到五大板块的详情页，获取每一个板块下的新闻标题和新闻详情页url，再对新闻详情页请求拿到新闻的内容。

需要注意的一点是，新闻都是动态加载出来的，因此我们用selenium来抓取新闻的数据。

6.代码实现

爬虫文件: wangyi.py

# -*- coding: utf-8 -*-

import scrapy

from selenium import webdriver

from wangYi.items import WangyiItem

class WangyiSpider(scrapy.Spider):

    name = 'wangyi'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://news.163.com/']

    urls = []

    def __init__(self):

        self.bro = webdriver.Chrome(executable_path='D:\OldBoy_Luffy\code_practice\chapter11\爬虫\scrapy框架\chromedriver.exe')

    def parse(self, response):

        li_list = response.xpath('//*[@id="index2016_wrap"]/div[1]/div[2]/div[2]/div[2]/div[2]/div/ul/li')

        # 五大模块所在li标签的索引

        index_list = [3,4,6,7,8]

        # 获取五大模块的url

        for index in index_list:

            model_src = li_list[index].xpath('./a/@href').extract_first()

            self.urls.append(model_src)

        # 发送请求

        for url in self.urls:

            yield scrapy.Request(url=url, callback=self.parse_model)

    def parse_model(self,response):

        item = WangyiItem()

        # 每条新闻所在的div标签

        div_list = response.xpath('/html/body/div/div[3]/div[4]/div[1]/div/div/ul/li/div/div')

        for div in div_list:

            # 获取标题与详情页的url

            title = div.xpath('./div/div[1]/h3/a/text()').extract_first()

            detail_url = div.xpath('./div/div[1]/h3/a/@href').extract_first()

            item['title'] = title

            # 部分的新闻中可能会有广告信息 因此可能会匹配为空  跳过循环

            if detail_url is None:

                continue

            # 请求详情页  请求传参

            yield scrapy.Request(url=detail_url, callback=self.detail_parse,meta={'item':item})

    def detail_parse(self,response):

        item = response.meta['item']

        # 获取新闻内容

        content = response.xpath('//div[@id="endText"]//text()').extract()

        content = ''.join(content)

        item['content'] = content

        # 存入管道

        yield item

    def closed(self,spider):  # 重写父类方法 爬虫结束时执行

        self.bro.quit()

中间件middlewares.py

  def process_response(self, request, response, spider):  # spider就是爬虫文件中 爬虫类的实例化对象

        # 拿到浏览器对象

        bro = spider.bro

        if request.url in spider.urls:

            # 获取动态加载的数据

            bro.get(request.url)

            page_text = bro.page_source

            # 封装成响应对象返回

            new_response = HtmlResponse(url=request.url,body=page_text,encoding='utf-8',request=request)

            return new_response

        else:

            return response

items.py

class WangyiItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    content = scrapy.Field()

pipelines.py

class WangyiPipeline:

    def open_spider(self,spider):

        self.fp = open('news.txt','w',encoding='utf-8')

        print('爬取开始...')

    def process_item(self, item, spider):

        title = item['title']

        content = item['content']

        if title is None:

            title=''

        if content is None:

            content = ''

        self.fp.write(title+'\n'+content)

        return item

    def close_spider(self,spider):

        self.fp.close()

        print('爬取结束')

(六)基于Scrapy爬取网易新闻中的新闻数据的更多相关文章

scrapy项目4：爬取当当网中机器学习的数据及价格（CrawlSpider类）
scrapy项目3中已经对网页规律作出解析,这里用crawlspider类对其内容进行爬取: 项目结构与项目3中相同如下图,唯一不同的为book.py文件 crawlspider类的爬虫文件book的 ...
scrapy项目3：爬取当当网中机器学习的数据及价格（spider类）
1.网页解析当当网中,人工智能数据的首页url如下为http://category.dangdang.com/cp01.54.12.00.00.00.html 点击下方的链接,一次观察各个页面的ur ...
1)③爬取网易It方面部分新闻
__author__ = 'minmin' #coding:utf-8 import re,urllib,sgmllib,os #根据当前的url获取html def getHtml(url): pa ...
Scrapy爬取豆瓣电影top250的电影数据、海报，MySQL存储
从GitHub得到完整项目(https://github.com/daleyzou/douban.git) 1.成果展示数据库本地海报图片 2.环境 (1)已安装Scrapy的Pycharm (2 ...
用scrapy爬取京东的数据
本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中. 一.项目介绍主要目标 1.使用scrapy爬取京东上所有的手机数据 2.将爬取的数据存储到MongoDB 环境 ...
scrapy爬取海量数据并保存在MongoDB和MySQL数据库中
前言一般我们都会将数据爬取下来保存在临时文件或者控制台直接输出,但对于超大规模数据的快速读写,高并发场景的访问,用数据库管理无疑是不二之选.首先简单描述一下MySQL和MongoDB的区别:MySQ ...
Python爬虫实战教程：爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Amauri PS:如有需要Python学习资料的小伙伴可以加点击 ...
如何利用python爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: LSGOGroup PS:如有需要Python学习资料的小伙伴可以 ...
Python爬虫实战教程：爬取网易新闻；爬虫精选高手技巧
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. stars声明很多小伙伴学习Python过程中会遇到各种烦恼问题解决不了.为 ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...

随机推荐

阿里开源自研工业级稀疏模型高性能训练框架 PAI-HybridBackend
简介:近年来,随着稀疏模型对算力日益增长的需求, CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本.为了解决这一问题,阿里云机器学习PAI平台开 ...
基于 KubeVela 的机器学习实践
简介:本文主要介绍如何使用 KubeVela 的 AI 插件,来帮助工程师更便捷地完成模型训练及模型服务. 作者:KubeVela 社区在机器学习浪潮迸发的当下,AI 工程师除了需要训练.调试自己 ...
10亿+文件数压测，阿里云JindoFS轻松应对
简介: Apache Hadoop FileSystem (HDFS) 是被广为使用的大数据存储方案,其核心元数据服务 NameNode 将全部元数据存放在内存中,因此所能承载的元数据规模受限于内存, ...
基于Confluent+Flink的实时数据分析最佳实践
简介:在实际业务使用中,需要经常实时做一些数据分析,包括实时PV和UV展示,实时销售数据,实时店铺UV以及实时推荐系统等,基于此类需求,Confluent+实时计算Flink版是一个高效的方案. 业务 ...
什么是 objdump 命令
objdump 是在类 Unix 操作系统上显示关于目标文件的各种信息的命令行程序. 它以一种可阅读的格式让你更多地了解二进制文件可能带有的附加信息. 简单来说,和 IDA 这类软件都可用于反汇编. ...
WPF 基于 .NET 5 框架和 .NET 6 的 SDK 进行完全单文件发布
本文来告诉大家如何基于 .NET 5 框架和 .NET 6 SDK 进行完全单文件发布,这是对 WPF 应用程序进行独立发布,生成的是完全单文件的方法在之前的版本,尽管也是基于 .NET 5 框架的 ...
2018-2-13-win10-uwp-从StorageFile获取文件大小
title author date CreateTime categories win10 uwp 从StorageFile获取文件大小 lindexi 2018-2-13 17:23:3 +0800 ...
C++ 多级继承与多重继承：代码组织与灵活性的平衡
C++ 多级继承多级继承是一种面向对象编程(OOP)特性,允许一个类从多个基类继承属性和方法.它使代码更易于组织和维护,并促进代码重用. 多级继承的语法在 C++ 中,使用 : 符号来指定继承关系 ...
Java数字转中文数字——支持：Integer、BigDecimal
1.效果 public static void main(String[] args) { System.out.println(int2chineseNum(3456)); System.out.p ...
使用Vue3在浏览器端进行zip文件压缩
在前端开发中,我们时常需要处理文件上传和下载的功能.有时,用户可能希望将多个文件打包成一个zip文件以便于下载.今天,我将分享一个使用Vue3和JSZip库在浏览器端实现zip文件压缩的示例. 首先, ...

(六)基于Scrapy爬取网易新闻中的新闻数据

(六)基于Scrapy爬取网易新闻中的新闻数据的更多相关文章

随机推荐

热门专题