scrapy爬虫简单案例（简单易懂适合新手）

爬取所有的电影名字，类型，时间等信息

1.准备工作

爬取的网页 https://www.ddoutv.com/f/27-1.html

创建项目

win + R 打开cmd输入

scrapy startproject 项目名

然后在pycharm终端输入

scrapy genspider 类名 xxx.com

一个爬虫类就创建好了

2.思路分析

我们爬取全站数据首先要将分页的url规律找到
因为我们的数据在二级页码，所以需要在一级页面里面拿到所以的二级页码url再进行请求
二级页码url拿到后就可以开始写xpath获取需要的数据了*
具体注释在代码内

代码如下

`import scrapy

from move.items import MoveItem

class TestSpider(scrapy.Spider):

name = 'Test'

# allowed_domains = ['xxx.con']

def start_requests(self):

    # 有4896页数据所有循环请求

    for i in range(1, 4897):

        # html分页符用i代替

        start_urls = f'https://www.ddoutv.com/f/27-{i}.html'

        # 手动请求url

        yield scrapy.Request(url=start_urls, callback=self.parse)

def parse(self, response, **kwargs):

    # 爬取所有的二级页面的url

    all_a = response.xpath('//div[@class="stui-pannel-box"]/div[@class="stui-pannel_bd"]/ul/li')

    # 遍历出来

    for li in all_a:  # type:scrapy.Selector

        link = li.xpath('./div/a/@href').extract()[0]

        # 将url拼接完整

        links = response.urljoin(link)

        # 回调

        yield scrapy.Request(url=links, callback=self.reques)

def reques(self, response):

    # 获取二级页面的数据

    all_name = response.xpath('//div[@class="stui-content"]/div[@class="container"]/div[@class="row"]/div/div[2]')

    for i in all_name:

        name = i.xpath('./h1/text()').extract_first(default=0)

        print(name)

        types = i.xpath('./p[1]/a[1]/text()').extract_first(default=0)

        print(types)

        address = i.xpath('./p[1]/a[2]/text()').extract_first(default=0)

        print(address)

        year = i.xpath('./p[1]/a[3]/text()').extract_first(default=0)

        print(year)

        actor = i.xpath('./p[2]/text()').extract_first(default=0)

        print(actor)

        director = i.xpath('./p[3]/text()').extract_first(default=0)

        print(director)

        update = i.xpath('./p[4]/text()').extract_first(default=0)

        print(update)`

3.运行结果图

到此一个简单的scrapy爬取项目就完成啦！

scrapy爬虫简单案例（简单易懂适合新手）的更多相关文章

Scrapy爬虫及案例剖析
由于互联网的极速发展,所有现在的信息处于大量堆积的状态,我们既要向外界获取大量数据,又要在大量数据中过滤无用的数据.针对我们有益的数据需要我们进行指定抓取,从而出现了现在的爬虫技术,通过爬虫技术我们可 ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
scrapy爬虫学习系列二：scrapy简单爬虫样例学习
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
关于富文本编辑器ueditor（jsp版）上传文件到阿里云OSS的简单实例，适合新手
关于富文本编辑器ueditor(jsp版)上传文件到阿里云OSS的简单实例,适合新手本人菜鸟一枚,最近公司有需求要用到富文本编辑器,我选择的是百度的ueditor富文本编辑器,闲话不多说,进入正 ...
做一个简单的scrapy爬虫
前言: 做一个简单的scrapy爬虫,带大家认识一下创建scrapy的大致流程.我们就抓取扇贝上的单词书,python的高频词汇. 步骤: 一,新建一个工程scrapy_shanbay 二,在工程中中 ...
简单scrapy爬虫实例
简单scrapy爬虫实例流程分析抓取内容:网站课程页面:https://edu.hellobi.com 数据:课程名.课程链接及学习人数观察页面url变化规律以及页面源代码帮助我们获取所有数据 ...
python环境搭建-requests的简单安装（适合新手）
安装完python之后,一定要记住安装后的路径.这是我当前的路径. 下面是requests的安装步骤: 我们这里直接用pip安装(这样比较适合新手),新版python自带pip,python3.6.1 ...
IDEA+Maven 整合SSM框架实现简单的增删改查(新手入门，傻瓜操作)
原博客地址:https://blog.csdn.net/khxu666/article/details/79851070 选用SSM框架的原因在目前的企业级Java应用中,Spring框架是必须的.S ...
Scrapy爬取小说简单逻辑
Scrapy爬取小说简单逻辑一准备工作 1)安装Python 2)安装PIP 3)安装scrapy 4)安装pywin32 5)安装VCForPython27.exe ........... 具体 ...

随机推荐

微信小程序清除缓冲
1:wxml定义一个清除缓冲的按钮,并绑定触摸事件 <button bindtap="clear">清空缓冲</button> 2:wxjs定义方法: // ...
dopamine源码解析之dqn_agent
目录 epsilon函数 DQNAgent构造函数核心参数 DQNAgent核心函数 tf.make_template 核心数据流图 epsilon函数 linearly_decaying_epsil ...
es6 快速入门系列 —— 对象
其他章节请看: es6 快速入门系列对象试图解决的问题写法繁杂属性初始值需要重复写 function createPeople(name, age){ // name 和 age 都写了 2 ...
CVE-2018-12613phpMyAdmin 后台文件包含漏洞分析
一. 漏洞背景 phpMyAdmin 是一个以PHP为基础,以Web-Base方式架构在网站主机上的MySQL的数据库管理工具,让管理者可用Web接口管理MySQL数据库.借由此Web接口可以成 ...
vue3-关于$props,$parents等引用元素和组件的注意事项
同一个组件内可以使用,但是在不同的组件内,不要用$parents或$refs来访问另一个组件内的数据, 这会使代码的耦合性变高,同时也会让代码的可读性变差, 在不同组件访问数据时,使用props等来传 ...
阿里云服务器搭建vulhub靶场
阿里云服务器搭建vulhub靶场环境服务器:阿里云服务器系统:centos7 应用:vulhub 步骤 vulhub需要依赖docker搭建,首先安装docker. 使用以下方法之一: # cu ...
Redhat7 安装 yum源（亲测有效）
由于之前安装Redhat7 想安装vsftpd 使用yum install vsftpd 报错: This system is not registered to Red Hat Subscri ...
Oracle视图（view）传参数教程
废话不多说,直接上例子! 创建包: create or replace package p_view_param is function set_param(num number) return nu ...
web服务器-Nginx下载限速
web服务器-Nginx下载限速一. 限速介绍在生产环境中,为了保护WEB服务器的安全,我们都会对用户的访问做出一些限制,保证服务器的安全及资源的合理分配. 限流(rate limiting)是N ...
mycat分库分表看这一篇就够了
之前我们已经讲解过了数据的切分,主要有两种方式,分别是垂直切分和水平切分,所谓的垂直切分就是将不同的表分布在不同的数据库实例中,而水平切分指的是将一张表的数据按照不同的切分规则切分在不同实例的相同 ...

scrapy爬虫简单案例（简单易懂 适合新手）

爬取所有的电影名字，类型，时间等信息

到此一个简单的scrapy爬取项目就完成啦！

scrapy爬虫简单案例（简单易懂 适合新手）的更多相关文章

随机推荐

热门专题

scrapy爬虫简单案例（简单易懂适合新手）

scrapy爬虫简单案例（简单易懂适合新手）的更多相关文章