scrapy框架爬取智联招聘网站上深圳地区python岗位信息。

爬取字段，公司名称，职位名称，公司详情的链接，薪资待遇，要求的工作经验年限

1，items中定义爬取字段

import scrapy

class ZhilianzhaopinItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    company_name = scrapy.Field()

    jobName = scrapy.Field()

    company_url = scrapy.Field()

    salary = scrapy.Field()

    workingExp = scrapy.Field()

2，主程序函数

# -*- coding: utf-8 -*-

import scrapy

from urllib.parse import urlencode

import json

import math

from zhilianzhaopin.items import ZhilianzhaopinItem

class ZlzpSpider(scrapy.Spider):

    name = 'zlzp'

    # allowed_domains = ['www.zhaopin.com']

    start_urls = ['https://fe-api.zhaopin.com/c/i/sou?']

    data = {

        'start': '',

        'pageSize': '',

        'cityId': '',

        'kw': 'python',

        'kt': ''

    }

    def start_requests(self):

        url = self.start_urls[0]+urlencode(self.data)

        yield scrapy.Request(url=url,callback=self.parse)

    def parse(self, response):

        response = json.loads(response.text)

        sum = int(response['data']['count'])

        for res in response['data']['results']:

            item = ZhilianzhaopinItem()

            item['company_name'] = res['company']['name']

            item['jobName'] = res['jobName']

            item['company_url'] = res['company']['url']

            item['salary'] = res['salary']

            item['workingExp'] = res['workingExp']['name']

            yield item

        for url_info in range(90,sum,90):

            self.data['start'] = str(url_info)

            url_i = self.start_urls[0]+urlencode(self.data)

            yield scrapy.Request(url=url_i,callback=self.parse)

3，settings中设置请求头和打开下载管道

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'

ITEM_PIPELINES = {

   'zhilianzhaopin.pipelines.ZhilianzhaopinPipeline': 300,

}

4，创建数据库，

5，pipelines.py文件中写入数据库

import pymysql

# 写入mysql数据库

class ZhilianzhaopinPipeline(object):

    conn = None

    mycursor = None

    def open_spider(self, spider):

        print('链接数据库...')

        self.conn = pymysql.connect(host='172.16.25.4', user='root', password='root', db='scrapy')

        self.mycursor = self.conn.cursor()

    def process_item(self, item, spider):

        print('正在写数据库...')

        company_name = item['company_name']

        jobName = item['jobName']

        company_url = item['company_url']

        salary = item['salary']

        workingExp = item['workingExp']

        sql = 'insert into zlzp VALUES (null,"%s","%s","%s","%s","%s")' % (company_name, jobName, company_url,salary,workingExp)

        bool = self.mycursor.execute(sql)

        self.conn.commit()

        return item

    def close_spider(self, spider):

        print('写入数据库完成...')

        self.mycursor.close()

        self.conn.close()

6，查看是否写入成功

done。

scrapy框架爬取智联招聘网站上深圳地区python岗位信息。的更多相关文章

用Python爬取智联招聘信息做职业规划
上学期在实验室发表时写了一个爬取智联招牌信息的爬虫. 操作流程大致分为:信息爬取——数据结构化——存入数据库——所需技能等分词统计——数据可视化 1.数据爬取 job = "通信工程师&qu ...
scrapy项目2：爬取智联招聘的金融类高端岗位（spider类）
---恢复内容开始--- 今天我们来爬取一下智联招聘上金融行业薪酬在50-100万的职位. 第一步:解析解析网页当我们依次点击下边的索引页面是,发现url的规律如下: 第1页:http://www. ...
node.js 89行爬虫爬取智联招聘信息
写在前面的话, .......写个P,直接上效果图.附上源码地址 github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...
用生产者消费模型爬取智联招聘python岗位信息
爬取python岗位智联招聘这里爬取北京地区岗位招聘python岗位,并存入EXECEL文件内,代码如下: import json import xlwt import requests from ...
Python+selenium爬取智联招聘的职位信息
整个爬虫是基于selenium和Python来运行的,运行需要的包 mysql,matplotlib,selenium 需要安装selenium火狐浏览器驱动,百度的搜寻. 整个爬虫是模块化组织的,不 ...
python爬取智联招聘职位信息（多进程）
测试了下,采用单进程爬取5000条数据大概需要22分钟,速度太慢了点.我们把脚本改进下,采用多进程. 首先获取所有要爬取的URL,在这里不建议使用集合,字典或列表的数据类型来保存这些URL,因为数据量 ...
python爬取智联招聘职位信息（单进程）
我们先通过百度搜索智联招聘,进入智联招聘官网,一看,傻眼了,需要登录才能查看招聘信息没办法,用账号登录进去,登录后的网页如下: 输入职位名称点击搜索,显示如下网页: 把这个URL:https://s ...
scrapy 爬取智联招聘
准备工作 1. scrapy startproject Jobs 2. cd Jobs 3. scrapy genspider ZhaopinSpider www.zhaopin.com 4. scr ...
『Scrapy』爬取腾讯招聘网站
分析爬取对象初始网址, http://hr.tencent.com/position.php?@start=0&start=0#a (可选)由于含有多页数据,我们可以查看一下这些网址有什么相 ...

随机推荐

Appium基础之屏幕截图
应用背景在实际自动化项目运行过程中,很多时候App可以会出现各种异常,为了更好的定位问题,除了捕捉日志我们还需要对运行时的设备状态来进行截屏.从而达到一种“有图有真相”的效果. 截图方法方法1 s ...
使用ReadtheDocs托管技术文档
ReadtheDocs Read the Docs非常适合写软件文档以及编写一些教程.电子书之类.对于一些一两篇文章就能写清楚的可以记笔记或写博客, 但是如果要写成一个系列的,不如写成一本书的形式,更 ...
CentOS7 初始化硬盘分区、挂载、重启自动挂载
挂载硬盘设备到本地有一下步骤: 1.通过fdisk -l命令,查看硬盘信息可以看到有两块磁盘/dev/vda和/dev/vdb vda是系统盘,vdb使我们新增的数据盘,在上图中其实已经挂载完成(设 ...
ai切片的完美解决方案
ai切片的完美解决方案1 背景拖到外面2 导出psd3 ps切片背景夹层黑色就看清楚啦
Linux下使用matlab在后台默默的运行.m文件（无界面形式）
Linux下使用matlab在后台默默的运行.m文件(无界面形式)本主在Ubuntu18.04LTS上已经安装了matlab直接运行Matlab$ matlab会启动 matlab,出现启动界面但想要 ...
JVM内存调优原则及几种JVM内存调优方法
转载,如需帮助,请联系wlgchun@163.com https://blog.csdn.net/LeegooWang/article/details/88696195 如何对JVM进行内存调优? ...
网络爬虫第五章之Scrapy框架
第一节:Scrapy框架架构 Scrapy框架介绍写一个爬虫,需要做很多的事情.比如:发送网络请求.数据解析.数据存储.反反爬虫机制(更换ip代理.设置请求头等).异步请求等.这些工作如果每次都要自 ...
jQuery Ajax async=>false异步改为同步时，导致浏览器假死的处理方法
今天做一个需求遇到了这么个情况,就是用户个人中心有个功能,点击按钮,可以刷新用户当前的积分,这个肯定需要使用到ajax的同步请求了,当时喀喀喀三下五除二写玩了,大概代码如下: /** * 异步当前用户 ...
Linux目录结构(目录结构详解是重点)
1.Linux目录与Windows目录对比 1.Windows目录结构 2.Linux目录结构深刻理解Linux 树状文件目录是非常重要的,只有记住他们,你才能在命令行中任意切换,想去哪里去哪里 2 ...
（六）pdf的构成之文件体（pages对象）
页面树(pages) 通过页面树访问文档的页面,页面树定义PDF文档中的所有页面.树包含表示PDF文档页面的节点,可以是两种类型:中间节点和叶节点.中间节点也称为页面树节点,而叶节点称为页面对象.最简 ...

scrapy框架爬取智联招聘网站上深圳地区python岗位信息。

scrapy框架爬取智联招聘网站上深圳地区python岗位信息。的更多相关文章

随机推荐

热门专题