Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy

1. 海王评论数据爬取前分析

海王上映了，然后口碑炸了，对咱来说，多了一个可爬可分析的电影，美哉~

摘录一个评论

零点场刚看完，温导的电影一直很不错，无论是速7，电锯惊魂还是招魂都很棒。打斗和音效方面没话说非常棒，特别震撼。总之，DC扳回一分（￣▽￣）。比正义联盟好的不止一点半点（我个人感觉）。还有艾梅伯希尔德是真的漂亮，温导选的人都很棒。

真的第一次看到这么牛逼的电影转场特效都吊炸天

2. 海王案例开始爬取数据

数据爬取的依旧是猫眼的评论，这部分内容咱们用把牛刀，scrapy爬取，一般情况下，用一下requests就好了

抓取地址

http://m.maoyan.com/mmdb/comments/movie/249342.json?_v_=yes&offset=15&startTime=2018-12-11%2009%3A58%3A43

关键参数

url:http://m.maoyan.com/mmdb/comments/movie/249342.json

offset:15

startTime:起始时间

scrapy 爬取猫眼代码特别简单，我分开几个py文件即可。

Haiwang.py

import scrapy

import json

from haiwang.items import HaiwangItem

class HaiwangSpider(scrapy.Spider):

    name = 'Haiwang'

    allowed_domains = ['m.maoyan.com']

    start_urls = ['http://m.maoyan.com/mmdb/comments/movie/249342.json?_v_=yes&offset=0&startTime=0']

    def parse(self, response):

        print(response.url)

        body_data = response.body_as_unicode()

        js_data = json.loads(body_data)

        item = HaiwangItem()

        for info in js_data["cmts"]:

            item["nickName"] = info["nickName"]

            item["cityName"] = info["cityName"] if "cityName" in info else ""

            item["content"] = info["content"]

            item["score"] = info["score"]

            item["startTime"] = info["startTime"]

            item["approve"] = info["approve"]

            item["reply"] = info["reply"]

            item["avatarurl"] = info["avatarurl"]

            yield item

        yield scrapy.Request("http://m.maoyan.com/mmdb/comments/movie/249342.json?_v_=yes&offset=0&startTime={}".format(item["startTime"]),callback=self.parse)

setting.py

设置需要配置headers

DEFAULT_REQUEST_HEADERS = {

    "Referer":"http://m.maoyan.com/movie/249342/comments?_v_=yes",

    "User-Agent":"Mozilla/5.0 Chrome/63.0.3239.26 Mobile Safari/537.36",

    "X-Requested-With":"superagent"

}

需要配置一些抓取条件

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

# See also autothrottle settings and docs

DOWNLOAD_DELAY = 1

# Disable cookies (enabled by default)

COOKIES_ENABLED = False

开启管道

# Configure item pipelines

# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

   'haiwang.pipelines.HaiwangPipeline': 300,

}

items.py

获取你想要的数据

import scrapy

class HaiwangItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    nickName = scrapy.Field()

    cityName = scrapy.Field()

    content = scrapy.Field()

    score = scrapy.Field()

    startTime = scrapy.Field()

    approve = scrapy.Field()

    reply =scrapy.Field()

    avatarurl = scrapy.Field()

pipelines.py

保存数据，数据存储到csv文件中

import os

import csv

class HaiwangPipeline(object):

    def __init__(self):

        store_file = os.path.dirname(__file__) + '/spiders/haiwang.csv'

        self.file = open(store_file, "a+", newline="", encoding="utf-8")

        self.writer = csv.writer(self.file)

    def process_item(self, item, spider):

        try:

            self.writer.writerow((

                item["nickName"],

                item["cityName"],

                item["content"],

                item["approve"],

                item["reply"],

                item["startTime"],

                item["avatarurl"],

                item["score"]

            ))

        except Exception as e:

            print(e.args)

        def close_spider(self, spider):

            self.file.close()

begin.py

编写运行脚本

from scrapy import cmdline

cmdline.execute(("scrapy crawl Haiwang").split())

走起，搞定，等着数据来到，就可以了

Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy的更多相关文章

Python爬虫入门教程 23-100 石家庄链家租房数据抓取
1. 写在前面作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材. 我们需要爬取 ...
Python爬虫入门教程 21-100 网易云课堂课程数据抓取
写在前面今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了. 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下 ...
Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取
写在前面从今天开始的几篇文章,我将就国内目前比较主流的一些在线学习平台数据进行抓取,如果时间充足的情况下,会对他们进行一些简单的分析,好了,平台大概有51CTO学院,CSDN学院,网易云课堂,慕课网 ...
Python爬虫入门教程 15-100 石家庄政民互动数据爬取
石家庄政民互动数据爬取-写在前面今天,咱抓取一个网站,这个网站呢,涉及的内容就是网友留言和回复,特别简单,但是网站是gov的.网址为 http://www.sjz.gov.cn/col/14900 ...
Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取
写在前面很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都 ...
Python爬虫入门教程 33-100 电影评论数据抓取 scrapy
1. 海王评论数据爬取前分析海王上映了,然后口碑炸了,对咱来说,多了一个可爬可分析的电影,美哉~ 摘录一个评论零点场刚看完,温导的电影一直很不错,无论是速7,电锯惊魂还是招魂都很棒.打斗和音效方面 ...
Python爬虫入门教程第七讲：蜂鸟网图片爬取之二
蜂鸟网图片--简介今天玩点新鲜的,使用一个新库 aiohttp ,利用它提高咱爬虫的爬取速度. 安装模块常规套路 pip install aiohttp 运行之后等待,安装完毕,想要深造,那么官方文 ...
Python爬虫：新浪新闻详情页的数据抓取（函数版）
上一篇文章<Python爬虫:抓取新浪新闻数据>详细解说了如何抓取新浪新闻详情页的相关数据,但代码的构建不利于后续扩展,每次抓取新的详情页时都需要重新写一遍,因此,我们需要将其整理成函数, ...
Python爬虫入门教程 32-100 B站博人传评论数据抓取 scrapy
1. B站博人传评论数据爬取简介今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...

随机推荐

三、OpenStack创建域,项目,用户和角色，验证，创建客户端脚本
一.Identity服务为每个OpenStack服务提供身份验证服务. 身份验证服务使用域,项目,用户和角色的组合. 1.创建service 项目 # openstack project creat ...
SQL 收缩日志
USE [master]ALTER DATABASE RcBalance SET RECOVERY SIMPLE WITH NO_WAITALTER DATABASE RcBalance SET RE ...
JS实现快速排序，冒泡排序
JS-排序详解-冒泡排序说明时间复杂度指的是一个算法执行所耗费的时间空间复杂度指运行完一个程序所需内存的大小稳定指,如果a=b,a在b的前面,排序后a仍然在b的前面不稳定指,如果a=b, ...
Exp3 免杀原理与实践 20164302 王一帆
1 实践内容 1.1 正确使用msf编码器(0.5分),msfvenom生成如jar之类的其他文件(0.5分),veil-evasion(0.5分),加壳工具(0.5分),使用shellcode编程( ...
[POJ3630]Phone List (Tire)
题意 trie字典树模板 LOJ有中文翻译https://loj.ac/problem/10049 思路 TIRE 代码之前在LOJ上做过直接交了 #include<cstdio> # ...
Ecust OJ
1 #include <bits/stdc++.h> using namespace std ; struct bigInt { ] ; int size ; ; private : vo ...
锐捷交换机配置DHCP SERVER给固定的MAC地址分配静态IP
今天突发奇想,想给自己的手机分配固定地址,使得接入公司无线网络时每次都取到同一ip地址,这样可以排除认证登录问题. 上网溜达一下,记录下锐捷官方的[常见问题]如下,经验证可行. 需求: 给MAC地址为 ...
XP Sp3 开机就要激活，否则无法登录windows桌面
参考网页:https://www.reddit.com/r/sysadmin/comments/5m9240/activating_windows_xp_in_2017_still_possible/ ...
Vue（三十二）SSR服务端渲染Nuxt.js
初始化Nuxt.js项目步骤 1.使用脚手架工具 create-nuxt-app 创建Nuxt项目使用yarn或者npm $ yarn create nuxt-app <项目名> 注:根 ...
你不知道的JS之作用域和闭包（一）什么是作用域？
原文:你不知道的js系列什么是作用域(Scope)? 作用域是这样一组规则——它定义了如何存放变量,以及程序如何找到之前定义的变量. 编译器原理 JavaScript 通常被归类为动态语言或者解释 ...

Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy

1. 海王评论数据爬取前分析

2. 海王案例开始爬取数据

Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy的更多相关文章

随机推荐

热门专题