贪心学院 scrapy爬虫

生成爬虫

scrapy genspider 爬虫名 网址

打开调试用shell

scrapy shell 网址

主体 stock.py

# -*- coding: utf-8 -*-

import re

from urllib import parse

import scrapy

from stock_spider.items import StockItem

class StockSpider(scrapy.Spider):

    name = 'stock'

    allowed_domains = ['pycs.greedyai.com/']  #域名

    start_urls = ['http://pycs.greedyai.com/']    #地址

    def parse(self, response):

        post_urls= response.xpath("//a/@href").extract()  #获取子网址

        for post_url in post_urls:

            yield scrapy.Request(url=parse.urljoin(response.url,post_url),callback=self.parse_detail,dont_filter=True)  #整合成可访问的网址

    def parse_detail(self,response):

        stock_item= StockItem()

        #董事会成员

        stock_item['names']=self.get_name(response)

        #性别

        # stock_item['sexs']=self.get_sex(response)  #部分人员无性别资料导致后来的list越界

        #股票代码

        stock_item['codes']=self.get_code(response)

        #成员职位

        stock_item['positions']=self.get_position(response)

        yield stock_item

    def get_name(self,response):

        name=response.xpath("//td[@class=\"tc name\"]/a/text()").extract()

        return name

    def get_sex(self,response):

        sex_temp = response.xpath("//td[@class=\"intro\"]/text()").extract()

        sex_list=[]

        for sex_info in sex_temp:

            try:

                sex=re.findall("男|女",sex_info)[0]

                sex_list.append(sex)

            except(IndexError):  #捕获到该异常，则继续往下读取，因为视频上显示在有用数据前后有一些无效的转义字符

                continue

        return sex_list

    def get_code(self,response):

        code_temp=response.xpath("/html/body/div[3]/div[1]/div[2]/div[1]/h1/a/@title").extract()

        for code_info in code_temp:

            code=re.findall("\d+",code_info)

        return code

    def get_position(self,response):

        position = response.xpath("//td[@class=\"tl\"]/text()").extract()

        return position

main.py

from scrapy.cmdline import execute  #调试用

import sys

import os

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(["scrapy","crawl","stock"])

items.py

# -*- coding: utf-8 -*-

import scrapy

class StockSpiderItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    pass

class StockItem(scrapy.Item):  #新添加

    names=scrapy.Field()

    # sexs=scrapy.Field()

    codes=scrapy.Field()

    positions=scrapy.Field()

pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

import os

class StockSpiderPipeline(object):

    def process_item(self, item, spider):

        return item

class StockPipeline(object): #新添加

    # 类被加载时创建一个文件

    def __init__(self):

        self.file=open("executive_prep.csv","a+") # a+有则追加，无则创建

    def process_item(self, item, spider):

        #判断文件是否为空，为空则写入标头：姓名,性别,股票代码,职位

        #为空则追加写文件

        if os.path.getsize("executive_prep.csv"): #获取文件大小

            #开始写文件

            self.write_content(item)

        else:

            self.file.write("姓名,性别,股票代码,职位\n")

        self.file.flush()

    def write_content(self,item):

        names = item['names']

        # sexs = item['sexs']

        codes = item['codes']

        positions = item['positions']

        for i in range(len(names)):

            result=names[i]+","+codes[0]+","+positions[i]+"\n"

            self.file.write(result)

settings.py

# -*- coding: utf-8 -*-

BOT_NAME = 'stock_spider'

SPIDER_MODULES = ['stock_spider.spiders']

NEWSPIDER_MODULE = 'stock_spider.spiders' #新添加

# Configure item pipelines

# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

   'stock_spider.pipelines.StockSpiderPipeline': 300,

    'stock_spider.pipelines.StockPipeline': 300, #新添加

}

贪心学院 scrapy爬虫的更多相关文章

scrapy爬虫结果插入mysql数据库
1.通过工具创建数据库scrapy
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
Linux搭建Scrapy爬虫集成开发环境
安装Python 下载地址:http://www.python.org/, Python 有 Python 2 和 Python 3 两个版本, 语法有些区别,ubuntu上自带了python2.7. ...
Scrapy 爬虫
Scrapy 爬虫使用指南完全教程 scrapy note command 全局命令: startproject :在 project_name 文件夹下创建一个名为 project_name ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
同时运行多个scrapy爬虫的几种方法（自定义scrapy项目命令）
试想一下,前面做的实验和例子都只有一个spider.然而,现实的开发的爬虫肯定不止一个.既然这样,那么就会有如下几个问题:1.在同一个项目中怎么创建多个爬虫的呢?2.多个爬虫的时候是怎么将他们运行起来 ...
如何让你的scrapy爬虫不再被ban之二（利用第三方平台crawlera做scrapy爬虫防屏蔽）
我们在做scrapy爬虫的时候,爬虫经常被ban是常态.然而前面的文章如何让你的scrapy爬虫不再被ban,介绍了scrapy爬虫防屏蔽的各种策略组合.前面采用的是禁用cookies.动态设置use ...
如何让你的scrapy爬虫不再被ban
前面用scrapy编写爬虫抓取了自己博客的内容并保存成json格式的数据(scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据)和写入数据库(scrapy爬虫成长日记之将抓取内容写入 ...
scrapy爬虫成长日记之将抓取内容写入mysql数据库
前面小试了一下scrapy抓取博客园的博客(您可在此查看scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据),但是前面抓取的数据时保存为json格式的文本文件中的.这很显然不满足我 ...

随机推荐

Jmeter测试部全体学习
Jmeter小助手:__counter __Random __UUID __CSVRead 性能指标:CPU 内存磁盘网络版本(系统版本) linux命令: top 能够试 ...
PHP大文件分片上传
前段时间做视频上传业务,通过网页上传视频到服务器. 视频大小小则几十M,大则 1G+,以一般的HTTP请求发送数据的方式的话,会遇到的问题:1,文件过大,超出服务端的请求大小限制:2,请求时间过长, ...
hdu 4810 Wall Painting (组合数+分类数位统计）
Wall Painting Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) T ...
【luoguP1991】无线通讯网--最小生成树
题目描述国防部计划用无线网络连接若干个边防哨所.2 种不同的通讯技术用来搭建无线网络: 每个边防哨所都要配备无线电收发器:有一些哨所还可以增配卫星电话. 任意两个配备了一条卫星电话线路的哨所(两边都 ...
CUDA-F-5-5-常量内存
title: [CUDA 基础]5.5 常量内存 categories: - CUDA - Freshman tags: - CUDA常量内存 - CUDA只读缓存 toc: true date: 2 ...
树莓派安装alsa-lib库
安装alsa-lib库 apt-get install libasound2-dev dpkg -L libasound2-dev 参考:https://blog.csdn.net/happygril ...
Python基础之深浅copy
1. 赋值 lst1 = [1, 2, 3, ["a", "b", "c"]] lst2 = lst1 lst1[0] = 11 print ...
ACM之路（18）—— 矩阵
矩阵是干什么的呢?一句话来说就是,知道相邻两个函数的递推关系和第一个数,让你递推到第n个数.显然,如果n很大,那么一个一个递推过去是会超时的.所以矩阵就是用来解决这种快速递推的问题的. 比方说斐波那契 ...
HDU 2176 取(m堆)石子游戏 —— （Nim博弈）
如果yes的话要输出所有情况,一开始觉得挺难,想了一下也没什么. 每堆的个数^一下,答案不是0就是先取者必胜,那么对必胜态显然至少存在一种可能性使得当前局势变成必败的.只要任意选取一堆,把这堆的数目变 ...
Leetcode题目56.合并区间（中等）
题目描述: 给出一个区间的集合,请合并所有重叠的区间. 示例 1: 输入: [[1,3],[2,6],[8,10],[15,18]] 输出: [[1,6],[8,10],[15,18]] 解释: 区间 ...

贪心学院 scrapy爬虫

生成爬虫

打开调试用shell

主体 stock.py

main.py

items.py

pipelines.py

settings.py

贪心学院 scrapy爬虫的更多相关文章

随机推荐

热门专题