scrapy 抓取拉勾网数据

【scrapy 抓取拉勾网数据】的更多相关文章

scrapy 抓取拉勾网数据

其实很简单,却因为一些小问题,折腾不少时间,简要记录一下,以备后需. >> scrapy startproject lagou >> cd lagou >> scrapy gen lagou_jd www.lagou.com 定义item 在items.py中继续完善定义: # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: #…

scrapy抓取拉勾网职位信息（一）——scrapy初识及lagou爬虫项目建立

本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练 python版本:3.7.1 框架:scrapy(pip直接安装可能会报错,如果是vc++环境不满足,建议直接安装一个visual studio一劳永逸,如果报错缺少前置依赖,就先安装依赖) 本篇主要对scrapy生成爬虫项目做一个基本的介绍 tips:在任意目录打开cmd的方式可以使用下面这两种方式 shift + 右键打开cmd(window10的powershell你可以简单理解为cmd升级版) 在路径框直接输入cmd…

pythonのscrapy抓取网站数据

(1)安装Scrapy环境步骤请参考:https://blog.csdn.net/c406495762/article/details/60156205 需要注意的是,安装的时候需要根据自己的python的版本进行安装. (2)创建Scrapy项目通过命令创建: scrapy startproject tutorial 在任意文件夹运行都可以,如果提示权限问题,可以加sudo运行.这个命令将会创建一个名字为tutorial的文件夹,文件夹结构如下: |____scrapy.cfg # Scr…

scrapy抓取拉勾网职位信息（三）——爬虫rules内容编写

在上篇中,分析了拉勾网需要跟进的页面url,本篇开始进行代码编写. 在编写代码前,需要对scrapy的数据流走向有一个大致的认识,如果不是很清楚的话建议先看下:scrapy数据流本篇目标:让拉勾网爬虫能跑起来分析:我们要通过拉勾网的起始url,通过设定一些规则,跟进我们需要的网页,提取出详情页的某些字段,如:岗位,薪酬,公司名称,地址等编写lagou_c.py文件原始代码如下: # -*- coding: utf-8 -*- import scrapy from scrapy.linke…

scrapy抓取拉勾网职位信息（二）——拉勾网页面分析

网站结构分析: 四个大标签:首页.公司.校园.言职我们最终是要得到详情页的信息,但是从首页的很多链接都能进入到一个详情页,我们需要对这些标签一个个分析,分析出哪些链接我们需要跟进. 首先是四个大标签,鼠标点击进入后可以发现首页.公司.校园,这三个包含有招聘职位 1.首先是对首页的分析首页正文部分包括:搜索栏(含热门搜索).职业方向标签(java.php...).热门职位.热门公司搜索栏:搜索标签的岗位数量较少,我们要做全站数据爬取的话,不跟进这个标签职业方向标签:这个标签指向的url都是…

scrapy抓取拉勾网职位信息（七）——实现分布式

上篇我们实现了数据的存储,包括把数据存储到MongoDB,Mysql以及本地文件,本篇说下分布式. 我们目前实现的是一个单机爬虫,也就是只在一个机器上运行,想象一下,如果同时有多台机器同时运行这个爬虫,并且把数据都存储到同一个数据库,那不是美滋滋,速度也得到了很大的提升. 要实现分布式,只需要对settings.py文件进行适当的配置就能完成. 文档时间:官方文档介绍如下: Use the following settings in your project: # Enables schedul…

scrapy抓取拉勾网职位信息（四）——对字段进行提取

上一篇中已经分析了详情页的url规则,并且对items.py文件进行了编写,定义了我们需要提取的字段,本篇将具体的items字段提取出来这里主要是涉及到选择器的一些用法,如果不是很熟,可以参考:scrapy选择器的使用依旧是在lagou_c.py文件中编写代码首先是导入LagouItem类,因为两个__init__.py文件的存在,所在的文件夹可以作为python包来使用 from lagou.items import LagouItem 编写parse_item()函数(同样为了详细解释…

scrapy抓取拉勾网职位信息（七）——数据存储（MongoDB，Mysql，本地CSV）

上一篇完成了随机UA和随机代理的设置,让爬虫能更稳定的运行,本篇将爬取好的数据进行存储,包括本地文件,关系型数据库(以Mysql为例),非关系型数据库(以MongoDB为例). 实际上我们在编写爬虫rules规则的时候,做了很多的限定,而且没有对翻页进行处理,所以最终提取的信息数量比较少,经我的测试,总共只有4k多条职位.如果要进行数据分析的话,数量量必须要足够,因此我们先将爬虫规则进行修改. 修改lagou_c.py文件rules rules = ( Rule(LinkExtractor(al…

scrapy抓取拉勾网职位信息（六）——反爬应对（随机UA，随机代理）

上篇已经对数据进行了清洗,本篇对反爬虫做一些应对措施,主要包括随机UserAgent.随机代理. 一.随机UA 分析:构建随机UA可以采用以下两种方法我们可以选择很多UserAgent,形成一个列表,使用的时候通过middleware获取到settings.py文件中的配置,然后进行随机选择使用第三方库fake-useragent,这个库可以方便的生成一个随机UA,使用起来也很方便本篇我们使用第二种方式来构建随机UA 安装第三方库fake_useragent,使用命令pip install…

scrapy抓取拉勾网职位信息（五）——代码优化

上一篇我们已经让代码跑起来,各个字段也能在控制台输出,但是以item类字典的形式写的代码过于冗长,且有些字段出现的结果不统一,比如发布日期. 而且后续要把数据存到数据库,目前的字段基本都是string类型,会导致占用空间较多,查询时速度会较慢,所以本篇先对目前已写好的代码进行适当优化. 本篇目的:使用item loader以及processor对代码进行优化,对字段数据进行清洗 1.修改一下items.py文件的字段我们对工资和工作经验字段进行分割让其更适合数据库存储: import scra…