Python的scrapy之爬取51job网站的职位

今天老师讲解了Python中的爬虫框架--scrapy，然后带领我们做了一个小爬虫--爬取51job网的职位信息，并且保存到数据库中

用的是Python3.6 pycharm编辑器

爬虫主体：

import scrapy

from ..items import JobspidersItem

class JobsspiderSpider(scrapy.Spider):

    name = 'jobsspider'

    #allowed_domains = ['search.51job.com/list/010000,000000,0000,00,9,99,%2520,2,1.html']

    #start_urls = ['https://search.51job.com/list/010000,000000,0000,00,9,99,%2520,2,1.html/']

    start_urls = [

        'https://search.51job.com/list/010000,000000,0000,01,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=']

    def parse(self, response):

        currentPageItems = response.xpath('/html/body/div[@class="dw_wp"]/div[@class="dw_table"]/div[@class="el"]')

        print(currentPageItems)

        # currentPageItems = response.xpath('//div[@class="el"]')

        for jobItem in currentPageItems:

            print('----',jobItem)

            jobspidersItem = JobspidersItem()

            jobPosition = jobItem.xpath('p[@class="t1 "]/span/a/text()').extract()

            if jobPosition:

                #print(jobPosition[0].strip())

                jobspidersItem['jobPosition'] = jobPosition[0].strip()

            jobCompany = jobItem.xpath('span[@class="t2"]/a/text()').extract()

            if jobCompany:

                #print(jobCompany[0].strip())

                jobspidersItem['jobCompany'] = jobCompany[0].strip()

            jobArea = jobItem.xpath('span[@class="t3"]/text()').extract()

            if jobArea:

                #print(jobArea[0].strip())

                jobspidersItem['jobArea'] = jobArea[0].strip()

            jobSale = jobItem.xpath('span[@class="t4"]/text()').extract()

            if jobSale:

                # print(jobCompany[0].strip())

                jobspidersItem['jobSale'] = jobSale[0].strip()

            jobDate = jobItem.xpath('span[@class="t5"]/text()').extract()

            if jobDate:

                # print(jobCompany[0].strip())

                jobspidersItem['jobDate'] = jobDate[0].strip()

            yield jobspidersItem  # 通过yield 调用输出管道

            pass

        nextPageURL = response.xpath('//li[@class="bk"]/a/@href').extract()  # 取下一页的地址

        print(nextPageURL)

        if nextPageURL:

            url = response.urljoin(nextPageURL[-1])

            print('url', url)

            # 发送下一页请求并调用parse()函数继续解析

            yield scrapy.Request(url, self.parse, dont_filter=False)

            pass

        else:

            print("退出")

        pass

items.py 设置五个items

import scrapy

class JobspidersItem(scrapy.Item):

    # define the fields for your item here like:

    jobPosition = scrapy.Field()

    jobCompany = scrapy.Field()

    jobArea = scrapy.Field()

    jobSale = scrapy.Field()

    jobDate = scrapy.Field()

    pass

pipelines.py 输出管道

class JobspidersPipeline(object):

    def process_item(self, item, spider):

        print('职位:', item['jobPosition'])

        print('公司:', item['jobCompany'])

        print('工作地点:', item['jobArea'])

        print('薪资:', item['jobSale'])

        print('发布时间:', item['jobDate'])

        print('----------------------------')

        return item

pipelinesmysql.py 输出到mysql中第一行的意思是使用了以前封装的数据库操作类

from week5_day04.dbutil import dbutil

# 作业： 自定义的管道，将完整的爬取数据，保存到MySql数据库中

class JobspidersPipeline(object):

    def process_item(self, item, spider):

        dbu = dbutil.MYSQLdbUtil()

        dbu.getConnection()  # 开启事物

        # 1.添加

        try:

            #sql = "insert into jobs (职位名,公司名,工作地点,薪资,发布时间)values(%s,%s,%s,%s,%s)"

            sql = "insert into t_job (jobname,jobcompany,jobarea,jobsale,jobdata)values(%s,%s,%s,%s,%s)"

            #date = []

            #dbu.execute(sql, date, True)

            dbu.execute(sql, (item['jobPosition'],item['jobCompany'],item['jobArea'],item['jobSale'],item['jobDate']),True)

            #dbu.execute(sql,True)

            dbu.commit()

            print('插入数据库成功！！')

        except:

            dbu.rollback()

            dbu.commit()  # 回滚后要提交

        finally:

            dbu.close()

        return item

最终结果：

通过这个最基础的51job爬虫，进入到scrapy框架的学习中，这东西挺好使

Python的scrapy之爬取51job网站的职位的更多相关文章

python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
初识python 之爬虫：爬取某网站的壁纸图片
用到的主要知识点:requests.get 获取网页HTMLetree.HTML 使用lxml解析器解析网页xpath 使用xpath获取网页标签信息.图片地址request.urlretrieve ...
scrapy版本爬取某网站，加入了ua池，ip池，不限速不封号，100个线程爬崩网站
目录 scrapy版本爬取妹子图关键所在下载图片前期准备代理ip池 UserAgent池 middlewares中间件(破解反爬) settings配置正题爬虫保存下载图片 scrapy版 ...
Python的scrapy之爬取boss直聘网站
在我们的项目中,单单分析一个51job网站的工作职位可能爬取结果不太理想,所以我又爬取了boss直聘网的工作,不过boss直聘的网站一次只能展示300个职位,所以我们一次也只能爬取300个职位. jo ...
python爬虫scrapy框架——爬取伯乐在线网站文章
一.前言 1. scrapy依赖包: 二.创建工程 1. 创建scrapy工程: scrapy staratproject ArticleSpider 2. 开始(创建)新的爬虫: cd Artic ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
Python的scrapy之爬取6毛小说网的圣墟
闲来无事想看个小说,打算下载到电脑上看,找了半天,没找到可以下载的网站,于是就想自己爬取一下小说内容并保存到本地圣墟第一章沙漠中的彼岸花 - 辰东 - 6毛小说网 http://www.6ma ...

随机推荐

haproxy学习——简介、基本配置（二）
官网:http://www.haproxy.org/ 个人感觉haproxy学习的重点在于配置上,把配置文档搞懂了就明白大部分套路了.不过本篇内容属于入门学习:1.使用haproxy简单的实现负载均衡 ...
Network Request Failed
在react native项目中,有时候调用接口会出现这样的错误提示:“Network Request Failed”. 一.模拟器上报“Network Request Failed”解决办法,也是官 ...
Android应用开发基础之二：数据存储和界面展现（二）
常见布局相对布局 RelativeLayout 组件默认左对齐.顶部对齐设置组件在指定组件的右边 android:layout_toRightOf="@id/tv1" 设置在指 ...
Siebel计划和实施
1.计划: 自上而下计划配置项目 1)首先,确定UI和应用产品功能 2)然后,确定为实现UI功能而需要在业务层所做的更改 3)最后,确定为实现业务层更改而需要在数据层所做的更改---尽可能少做更改如 ...
关于Cookie 的HttpOnly属性(java/web操作cookie+Tomcat操作jsessionid)
关于Cookie的其它只是不在累述.本文主要讲讲自己在项目中遇到的cookie的HttpOnly属性问题 Cookie的HttpOnly属性说明 cookie的两个新的属性secure和Httponl ...
Python中深浅拷贝垃圾回收与 super继承(六)
1 python拷贝深拷贝,浅拷贝与引用三者的区别 import copy a = [1, 2, 3, 4, ['a', 'b']] #原始对象 b = a #赋值,传对象的引用 c = copy ...
day5-基础函数
函数函数一词来源于数学,但编程中的「函数」概念,与数学中的函数是有很大不同的,具体区别,我们后面会讲,编程中的函数在英文中也有很多不同的叫法.在BASIC中叫做subroutine(子过程或子程序 ...
matlab解方程
[x1,y1,x2,y2]=solve('x1^2 + y1^2=1','x2^2-8*x2 +y2^2 +15=0','x1*x2 + y1 * y2=1','x1 + x2 =a','x1','y ...
PHP设计模式——桥接模式
<?php /* * 桥接模式 * 使用发送器,将一个类对象传入另一个类作为属性,耦合M+N个类 * */ abstract class Info { protected $_send = NU ...
css ul dl dt 表格分页文本框样式
<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding= ...

Python的scrapy之爬取51job网站的职位

Python的scrapy之爬取51job网站的职位的更多相关文章

随机推荐

热门专题