爬虫scrapy模块

首先下载scrapy模块

这里有惊喜

https://www.cnblogs.com/bobo-zhang/p/10068997.html

创建一个scrapy文件

首先在终端找到一个文件夹

输入

scrapy startproject jy (项目件名)

修改setting文件配置

# Crawl responsibly by identifying yourself (and your website) on the user-agent

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36'

# Obey robots.txt rules

ROBOTSTXT_OBEY = Fals

cd 到 spiders文件,在终端创建一个文件

scrapy genspider myjy(文件名) www.xxx.com

在文件里执行我们的第一个代码吧

#实现解析+持久化存储

# -*- coding: utf-8 -*-
import scrapy

class FirstSpider(scrapy.Spider):
    #爬虫文件的名称
    name = 'first'
    #允许的域名
    #allowed_domains = ['www.xxx.com']
    #起始url列表
    start_urls = ['https://www.qiushibaike.com/text/']
    #实现了数据的基本解析操作
    # def parse(self, response):
    #     div_list = response.xpath('//div[@id="content-left"]/div')
    #     for div in div_list:
    #         #author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()
    #         #如果可以保证xpath返回的列表中只有一个列表元素则可以使用extract_first(),否则必须使用extract()
    #         author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()
    #         content = div.xpath('./a[1]/div/span//text()').extract()
    #         content = ''.join(content)
    #         print(author,content)

    #实现解析+持久化存储
    #1.基于终端指令的持久化存储
        # 只可以将parse方法的返回值持久化存储到本地的文本中
    #2.基于管道的持久化存储

    # 1.基于终端指令的持久化存储
    def parse(self, response):
        div_list = response.xpath('//div[@id="content-left"]/div')
        all_data = []
        for div in div_list:
            #author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()
            #如果可以保证xpath返回的列表中只有一个列表元素则可以使用extract_first(),否则必须使用extract()
            author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()
            content = div.xpath('./a[1]/div/span//text()').extract()
            content = ''.join(content)

            dic = {
                'author':author,
                'content':content
            }

            all_data.append(dic)

        return all_data

最后运行文件

scrapy crawl myjy

#解析+管道持久化存储

首先在psrse里写入文件

# -*- coding: utf-8 -*-

import scrapy

from bossPro.items import BossproItem

class BossSpider(scrapy.Spider):

    name = 'boss'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.zhipin.com/job_detail/?query=python%E7%88%AC%E8%99%AB&scity=101010100&industry=&position=']

    url = 'https://www.zhipin.com/c101010100/?query=python爬虫&page=%d&ka=page-2'

    page = 1

    #解析+管道持久化存储

    def parse(self, response):

        li_list = response.xpath('//div[@class="job-list"]/ul/li')

        for li in li_list:

            job_name = li.xpath('.//div[@class="info-primary"]/h3/a/div/text()').extract_first()

            salary = li.xpath('.//div[@class="info-primary"]/h3/a/span/text()').extract_first()

            company = li.xpath('.//div[@class="company-text"]/h3/a/text()').extract_first()

            #实例化一个item对象

            item = BossproItem()

            #将解析到的数据全部封装到item对象中

            item['job_name'] = job_name

            item['salary'] = salary

            item['company'] = company

            #将item提交给管道

            yield item

        if self.page <= 3:

            print('if 执行!!!')

            self.page += 1

            new_url = format(self.url%self.page)

            print(new_url)

            #手动请求发送

            yield scrapy.Request(url=new_url,callback=self.parse)

配置items.py文件,用来作为数据结构

import scrapy

class BossproItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    job_name = scrapy.Field()

    salary = scrapy.Field()

    company = scrapy.Field()

在pipelines.py里写入文件

# -*- coding: utf-8 -*-

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

import pymysql

from redis import Redis

class BossproPipeline(object):

    fp = None

    def open_spider(self, spider):

        print('开始爬虫......')

        self.fp = open('./boss.txt','w',encoding='utf-8')

    def close_spider(self, spider):

        print('结束爬虫......')

        self.fp.close()

    #爬虫文件每向管道提交一次item,则该方法就会被调用一次.

    #参数:item 就是管道接收到的item类型对象

    def process_item(self, item, spider):

        #print(item)

        self.fp.write(item['job_name']+':'+item['salary']+':'+item['company']+'\n')

        return item #返回给下一个即将被执行的管道类

class mysqlPileLine(object):

    conn = None

    cursor =None

    def open_spider(self,spider):

        self.conn = pymysql.Connect(host='127.0.0.1',port=3306,user='root',password='',db='scrapy',charset="utf8")

        print(self.conn)

    def process_item(self, item, spider):

        self.cursor = self.conn.cursor()

        # print(item)

        #print('insert into boss values ("%s","%s","%s")'%(item['job_name'],item['salary'],item['company']))

        try:

            print('insert into boss values ("%s","%s","%s")'%(item['job_name'],item['salary'],item['company']))

            self.cursor.execute('insert into boss values ("%s","%s","%s")'%(item['job_name'],item['salary'],item['company']))

            self.conn.commit()

        except Exception as e:

            print(e)

            self.conn.rollback()

    def close_spider(self,spider):

        self.conn.close()

        self.cursor.close()

class redisPileLine(object):

    conn = None

    def open_spider(self,spider):

        self.conn = Redis(host='127.0.0.1',port=6379)

        print(self.conn)

    def process_item(self, item, spider):

        # print(item)

        dic = {

            'name':item['job_name'],

            'salary':item['salary'],

            'company':item['company']

        }

        self.conn.lpush('boss',dic)

别忘了在setting里面配置

ITEM_PIPELINES = {

   # 'boss.pipelines.BossPipeline': 300,

   'boss.pipelines.redisPipeline': 301,

   # 'boss.pipelines.mysqlPipeline': 302,

}

爬虫scrapy模块的更多相关文章

第三百二十六节，web爬虫，scrapy模块,解决重复ur——自动递归url
第三百二十六节,web爬虫,scrapy模块,解决重复url——自动递归url 一般抓取过的url不重复抓取,那么就需要记录url,判断当前URL如果在记录里说明已经抓取过了,如果不存在说明没抓取过 ...
第三百二十五节，web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签
第三百二十五节,web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象需 ...
第三百二十四节，web爬虫，scrapy模块介绍与使用
第三百二十四节,web爬虫,scrapy模块介绍与使用 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了 ...
第三百二十三节，web爬虫，scrapy模块以及相关依赖模块安装
第三百二十三节,web爬虫,scrapy模块以及相关依赖模块安装当前环境python3.5 ,windows10系统 Linux系统安装在线安装,会自动安装scrapy模块以及相关依赖模块 pip ...
二 web爬虫，scrapy模块以及相关依赖模块安装
当前环境python3.5 ,windows10系统 Linux系统安装在线安装,会自动安装scrapy模块以及相关依赖模块 pip install Scrapy 手动源码安装,比较麻烦要自己手动安 ...
网页爬虫--scrapy入门
本篇从实际出发,展示如何用网页爬虫.并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序.正因为是程序,所以获得网页的速度可以轻易超过单 ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
python爬虫scrapy项目详解（关注、持续更新）
python爬虫scrapy项目(一) 爬取目标:腾讯招聘网站(起始url:https://hr.tencent.com/position.php?keywords=&tid=0&st ...
自己动手实现爬虫scrapy框架思路汇总
这里先简要温习下爬虫实际操作: cd ~/Desktop/spider scrapy startproject lastspider # 创建爬虫工程 cd lastspider/ # 进入工程 sc ...

随机推荐

Hive表的几种存储格式
Hive的文件存储格式: textFile textFile为默认格式存储方式:行存储缺点:磁盘开销大:数据解析开销大:压缩的text文件,hive无法进行合并和拆分 sequencefile 二 ...
vmware workstations 虚拟机安装CentOS
1.下载vmware ,我的版本是从上学时保存网盘的,版本比较低,链接如下: 链接:https://pan.baidu.com/s/19QP0q8xmPWIPn-rziPTvKg 提取码:lvh9 2 ...
设计模式-Bridge（结构型模式）-用于客户需求较多，频繁对类进行添加修改的情形,将抽象类与具体实现类分开
以下代码来源: 设计模式精解-GoF 23种设计模式解析附C++实现源码 //AbstractionImp.h #pragma once class AbstractionImp { public: ...
SQL查询--索引
索引概念和作用索引是建立在表上的可选对象,目的是为了提高查询速度. 如果要在表中查询指定的记录,在没有索引的情况下,必须遍历整个表,而有了索引之后,只需要在索引中找到符合查询条件的索引字段值,就可以 ...
java图形界面计算器实现
编写程序实现一个简单计算器的基本功能,具体可以模仿Windows附件中的计算器或模拟常见的实物计算器. package beizi; import java.awt.EventQueue; impor ...
C#位运算实际作用之操作整型某一位
1.前言前几天写了两篇关于c#位运算的文章 c#位运算基本概念与计算过程 C#位运算实际运用在文中也提到了位运算的实际作用之一就是合并整型,当时引用了一个问题: C# 用两个short,一个int ...
Python爬取6271家死亡公司数据，一眼看尽十年创业公司消亡史！
小五利用python将其中的死亡公司数据爬取下来,借此来观察最近十年创业公司消亡史. 获取数据 F12,Network查看异步请求XHR,翻页. 成功找到返回json格式数据的url, 很多人 ...
图解Java常用数据结构
最近在整理数据结构方面的知识, 系统化看了下 Java 中常用数据结构, 突发奇想用动画来绘制数据流转过程. 主要基于 jdk8, 可能会有些特性与 jdk7 之前不相同, 例如 LinkedList ...
【Linux】文本处理工具介绍
文本处理工具介绍 grep.sed和awk都是文本处理工具,各自都有各自的优缺点,一种文本处理命令是不能被另一个完全替换的.相比较而言,sed和awk功能更强大,且已独立成一种语言来介绍. grep: ...
详解JAVA8Stream API {全}
1: 概述 1.1 优势 1.2 与传统迭代器的区分 1.3 流的操作类型分为两种: 2:流的构造与转换 2:1 常见构造 2.2: 三大包装类型的构造 2.3 并行流的规则输出 2.4 流的转换 3 ...

爬虫scrapy模块

#实现解析+持久化存储

#解析+管道持久化存储

爬虫scrapy模块的更多相关文章

随机推荐

热门专题