Scrapy 抓取股票行情

安装scrapy会出现错误，我们选择anaconda3作为编译环境，搜索scrapy安装（有错误自查）

创建scrapy爬虫项目：

　　调出cmd，到相应目录：输入：

scrapy startproject stockstar

放置spide代码的目录文件　　 spider（用于编写爬虫）

项目中的item文件　　　　　　items.py(用于保存所抓取的数据的容器，其存储方式类似于Python的字典)

项目的中间件　　　　　　　 middlewares.py（提供一种简便的机制，通过允许插入自定义代码来拓展scrapy的功能）

项目的pipelines文件　　　　　pipelines.py(核心处理器)

项目的设置文件　　　　　　　settings.py

项目的配置文件　　　　　　 scrapy.cfg

创建项目后：在settings文件中有一句：

# Obey robots.txt rules

ROBOTSTXT_OBEY = True

有时候我们需要关闭：设为false

右击文件夹，在弹出的快捷键中选择：Mark Directory as --Sources Root,这样使导入包的语法更简洁

1.定义一个item容器：

在items.py中编写：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

from scrapy.loader import ItemLoader

from scrapy.loader.processors import TakeFirst

class StockstarItemLoader(ItemLoader):

    #自定义itemloader,用于存储爬虫所抓取的字段内容

    default_output_processor = TakeFirst()

class StockstarItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    code = scrapy.Field()               #股票代码

    abbr = scrapy.Field()               #股票简称

    last_trade = scrapy.Field()         #最新价

    chg_ratio = scrapy.Field()          #涨跌幅

    chg_amt = scrapy.Field()            #涨跌额

    chg_ratio_5min = scrapy.Field()     #5分钟涨幅

    volumn = scrapy.Field()             #成交量

    turn_over = scrapy.Field()          #成交额

settings.py加上：

from scrapy.exporters import JsonItemExporter

#默认显示的中文是阅读性较差的Unicode字符

#需定义子类显示出原来的字符集（将父类的ensure——ascii属性设置为False即可）

class CustomJsonLinesItemExporter(JsonItemExporter):

    def __init__(self,file,**kwargs):

        super(CustomJsonLinesItemExporter,self).__init__(file,ensure_ascii=False,**kwargs)

#启用新定义的Exporter类

FEED_EXPORTERS = {

    'json':'stockstar.settings.CustomJsonLinesItemExporter',

}

DOWNLOAD_DELAY = 0.25

cmd进入项目文件：

输入：scrapy genspider stock quote.stockstar.com，生产spider代码

stock.py

# -*- coding: utf-8 -*-

import scrapy

from items import StockstarItem,StockstarItemLoader

class StockSpider(scrapy.Spider):

    name = 'stock'  #定义爬虫名

    allowed_domains = ['quote.stockstar.com']#定义爬虫域

    start_urls = ['http://quote.stockstar.com/stock/ranklist_a_3_1_1.html']#定义爬虫连接

    def parse(self, response):#撰写爬虫逻辑

        page = int(response.url.split("_")[-1].split(".")[0])#抓取页码

        item_nodes = response.css('#datalist tr')

        for item_node in item_nodes:

            #根据item文件所定义的字段内容，进行字段内容的抓取

            item_loader = StockstarItemLoader(item=StockstarItem(),selector=item_node)

            item_loader.add_css("code","td:nth-child(1) a::text")

            item_loader.add_css("abbr","td:nth-child(2) a::text")

            item_loader.add_css("last_trade","td:nth-child(3) span::text")

            item_loader.add_css("chg_ratio","td:nth-child(4) span::text")

            item_loader.add_css("chg_amt","td:nth-child(5) span::text")

            item_loader.add_css("chg_ratio_5min","td:nth-child(6) span::text")

            item_loader.add_css("volumn","td:nth-child(7)::text")

            item_loader.add_css("turn_over","td:nth-child(8)::text")

            stock_item = item_loader.load_item()

            yield stock_item

        if item_nodes:

            next_page = page+1

            next_url = response.url.replace("{0}.html".format(page),"{0}.html".format(next_page))

            yield  scrapy.Request(url=next_url,callback=self.parse)

在stockstar下添加一个main.py

from scrapy.cmdline import execute

execute(["scrapy","crawl","stock","-o","items.json"])

#等价于在cmd中输入：scrapy crawl stock -o items.json

执行：

Scrapy 抓取股票行情的更多相关文章

吴裕雄--天生自然PYTHON爬虫：使用Scrapy抓取股票行情
Scrapy框架它能够帮助提升爬虫的效率,从而更好地实现爬虫.Scrapy是一个为了抓取网页数据.提取结构性数据而编写的应用框架,该框架是封装的,包含request异步调度和处理.下载器(多线程的Do ...
通过Scrapy抓取QQ空间
毕业设计题目就是用Scrapy抓取QQ空间的数据,最近毕业设计弄完了,来总结以下: 首先是模拟登录的问题: 由于Tencent对模拟登录比较讨厌,各个防备,而本人能力有限,所以做的最简单的,手动登录后 ...
python scrapy 抓取脚本之家文章(scrapy 入门使用简介)
老早之前就听说过python的scrapy.这是一个分布式爬虫的框架,可以让你轻松写出高性能的分布式异步爬虫.使用框架的最大好处当然就是不同重复造轮子了,因为有很多东西框架当中都有了,直接拿过来使用就 ...
scrapy抓取淘宝女郎
scrapy抓取淘宝女郎准备工作首先在淘宝女郎的首页这里查看,当然想要爬取更多的话,当然这里要查看翻页的url,不过这操蛋的地方就是这里的翻页是使用javascript加载的,这个就有点尴尬了,找 ...
写一个shell脚本利用wget抓取股票历史数据
今天,大数据部老大交给我一项任务——抓取股票历史数据.于是乎,我自行在网上找了一下,发现wget真真是一个非常强大的linux下载工具.我已经被深深震撼到了.下面叙述今天的一些过程,还是比较坎坷的. ...
scrapy抓取拉勾网职位信息（一）——scrapy初识及lagou爬虫项目建立
本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练 python版本:3.7.1 框架:scrapy(pip直接安装可能会报错,如果是vc++环境不满足,建议直接安装一个visua ...
scrapy抓取的中文结果乱码解决办法
使用scrapy抓取的结果,中文默认是Unicode,无法显示中文. 中文默认是Unicode,如: \u5317\u4eac\u5927\u5b66 在setting文件中设置: FEED_EXPO ...
分布式爬虫：使用Scrapy抓取数据
分布式爬虫:使用Scrapy抓取数据 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘. ...
解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题
注意:此方法跟之前保存成json文件的写法有少许不同之处,注意区分情境再现: 使用scrapy抓取中文网页,得到的数据类型是unicode,在控制台输出的话也是显示unicode,如下所示 {'au ...

随机推荐

MySQL5.6.35部署
1.下载软件 [root@localhost src]# wget -q http://mirrors.sohu.com/mysql/MySQL-5.6/mysql-5.6.35-linux-glib ...
Python Windows下打包成exe文件
Python Windows 下打包成exe文件,使用PyInstaller 软件环境: 1.OS:Win10 64 位 2.Python 3.7 3.安装PyInstaller 先检查是否已安装Py ...
Weblogic10.3.6部署解决CXF webService 调用报错: “Cannot create a secure XMLInputFactory”
一,解决步骤 1.添加jar包 stax2-api-3.1.4.jar woodstox-core-asl-4.4.1.jar 2.编写监听器 package com.neusoft.cxf.list ...
$_SERVER['HTTP_REFERER']
$_SERVER['HTTP_REFERER']//获取前一个页面的url地址
docker镜像存出与载入
尝试从官网上下载ubuntu镜像,太慢下载不下来. 使用daocloud加速器进行加速之后,由于公司网络不好,仍然下载不下来. 没办法,只能从别的环境上搞一个已经存在的ubuntu镜像,折腾到自己的虚 ...
CentOS7 下安装 supervisor
[注] linux环境必须安装 python 1.获取supervisor包:[https://pypi.python.org/pypi/supervisor] # wget https://pypi ...
.NET开源MSSQL、Redis监控产品Opserver之Redis配置
安全与基础配置地址:http://www.cnblogs.com/xiaopotian/p/6898310.html edis监控数据实例的加载可以查看Opserver.Core项目data/Redi ...
Spring框架总结(一)
名词解释: 框架就是组件的集合.比如:Struts.Spring.Hibernate就是组件的集合组件就是常用的功能包封装成工具类. 常用组件: Dom4j/Xpath.DBUtils.C3p0.B ...
javascrip总结42:属性操作案例: 点击盒子,改变盒子的位置和背景颜色
<!DOCTYPE html> <html lang="zh-CN"> <head> <meta charset="UTF-8& ...
iPhone Development – core data relationships tutorial part 1
I’m going to start a short series on Core Data relationships and maybe throw in some general Core Da ...

Scrapy 抓取股票行情

Scrapy 抓取股票行情的更多相关文章

随机推荐

热门专题