第6章通过CrawlSpider对招聘网站进行整站爬取

通过前几章的2个项目的学习，其实本章的拉钩网项目还是挺容易理解的。

本章主要的还是对CrawlSpider源码的解析，其实我对源码还不是很懂，只是会基本的一些功能而已。

不分小节记录了，直接上知识点，可能比较乱。

1.建立数据表sql语句参考

 CREATE TABLE `lagou_job` (

   `job_id` int(11) NOT NULL DEFAULT '' COMMENT '职位页面的id',

   `title` varchar(255) NOT NULL COMMENT '职位名称',

   `url` varchar(255) NOT NULL COMMENT '职位链接',

   `salary` varchar(255) DEFAULT NULL COMMENT '工资',

   `job_city` varchar(255) DEFAULT NULL COMMENT '城市',

   `work_years` varchar(255) DEFAULT NULL COMMENT '工作经验',

   `degree_need` varchar(255) DEFAULT NULL COMMENT '学历',

   `job_type` varchar(255) DEFAULT NULL COMMENT '工作性质',

   `publish_time` varchar(255) DEFAULT NULL COMMENT '发布时间',

   `job_advantage` varchar(255) DEFAULT '' COMMENT '职位诱惑',

   `job_desc` longtext COMMENT '职位描述',

   `job_addr` varchar(255) DEFAULT NULL COMMENT '工作详细地点',

   `company_url` varchar(255) DEFAULT NULL COMMENT '公司链接',

   `company_name` varchar(255) DEFAULT NULL COMMENT '公司名称',

   PRIMARY KEY (`job_id`)

 ) ENGINE=MyISAM DEFAULT CHARSET=utf8;

2.继承CrawlSpider

scrapy genspider -t crawl lagou www.lagou.com

3.根目录问题

有时候from ... import ...出错的时候，可以看看根目录是不是对的

4.CrawlSpider使用说明

参考scrapy文档： http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html#crawlspider

作者：今孝

出处：http://www.cnblogs.com/jinxiao-pu/p/6757603.html

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

第6章通过CrawlSpider对招聘网站进行整站爬取的更多相关文章

通过CrawlSpider对招聘网站进行整站爬取（拉勾网实战）
爬虫首先要明确自己要爬取的网站以及内容进入拉勾网的网站然后看看想要爬取什么内容职位,薪资,城市,经验要求学历要求,全职或者兼职职位诱惑,职位描述提取公司的名称以及在拉勾网的url等等然后在na ...
Scrapy 使用CrawlSpider整站抓取文章内容实现
刚接触Scrapy框架,不是很熟悉,之前用webdriver+selenium实现过头条的抓取,但是感觉对于整站抓取,之前的这种用无GUI的浏览器方式,效率不够高,所以尝试用CrawlSpider来实 ...
写了一个Windows服务，通过C#模拟网站用户登录并爬取BUG列表查询有没有新的BUG，并提醒我
写了一个Windows服务,通过C#模拟网站用户登录并爬取BUG列表查询有没有新的BUG,并提醒我 1.HttpUtil工具类,用于模拟用户登录以及爬取网页: using System; using ...
网站seo整站优化有什么优势
http://www.wocaoseo.com/thread-314-1-1.html 现在很多企业找网络公司做网站优化,已经不再像以前那样做目标关键词,而是通过整站优化来达到企业营销目的 ...
8月份Python招聘情况怎么样？Python爬取招聘数据，并进行分析
前言拉勾招聘是专业的互联网求职招聘平台.致力于提供真实可靠的互联网招聘求职找工作信息.今天我们一起使用 python 采集拉钩的 python 招聘信息,分析一下找到高薪工作需要掌握哪些技术开发环 ...
歌曲网站，教你爬取 mp3 和 lyric
从歌曲网站,获取音频和歌词的流程: 1, 输入歌曲名,查找网站中存在的歌曲 id 2, 拿歌曲 id 下载歌词 lyric 简单的 url 拼接 3, 拿歌曲 id 下载音频 mp3 先用一个 POS ...
wget整站抓取、网站抓取功能；下载整个网站；下载网站到本地
wget -r -p -np -k -E http://www.xxx.com 抓取整站 wget -l 1 -p -np -k http://www.xxx.com 抓取第一级 - ...
python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制
CrawlSpider实现的全站数据的爬取新建一个工程 cd 工程创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com 连接提取器Link ...
scrapy框架之CrawlSpider全站自动爬取
全站数据爬取的方式 1.通过递归的方式进行深度和广度爬取全站数据,可参考相关博文(全站图片爬取),手动借助scrapy.Request模块发起请求. 2.对于一定规则网站的全站数据爬取,可以使用Cra ...

随机推荐

roadflow企业微信工作流程的配置与使用
1.在您的微信后台添加应用应用地址: 待办事项 :http://demo.roadflow.net/RoadFlowCore/Mobile/WaitTask 已办事项:http://demo.roa ...
WPF自定义ComboBox
<ControlTemplate x:Key="ComboBoxTextBox" TargetType="{x:Type TextBox}"> &l ...
WPF TextCompositionManager 事件说明
TextCompositionManager中三个隧道事件,三个冒泡事件. 除了引发的过程不一样之外其作用是一样的. 事件分别为: InputStart InputUpdate TextInput 其 ...
indexOf用法
例子: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8 ...
位集合（BitSet）| Java数据结构
Java Bitset类 BitSet使用示例: import java.util.BitSet; public class BitSetDemo { public static void main( ...
九，php中上传文件
1,php网页上传文件大小有限制的,默认最大2M.可以修改php.ini调节大小,upload_max_filesize = 2M.网页上传使用http协议,上传大文件性能不好:有些公司做一个客户端软 ...
私有成员的设置和访问方式——setter和getter
在定义类时,为了保证类中成员数据安全性及的封装性,防止成员数据值被任意修改,通常将类中成员属性用private进行修饰. 被private修改的成员属性,只能在类中访问,跳出本类后,就无法直接访问. ...
Jquery、Ajax实现新闻列表页分页功能
前端页面官网的开发,离不开新闻列表,新闻列表一般都会有分页的功能,下面是我自己总结加查找网上资料写的一个分页的功能,记录一下. 首先,官网的开发建立在前后端分离的基础上: 再有,后端小伙伴们提供列表页 ...
iOS --高仿QQ空间页面
1.首先分析一下qq空间页面的主要2个功能: 1)随着TableView的向上滑动导航栏的颜色渐变,变化过程是从透明变成白色. 2)随着TableView的向下滑动,图片随着offset放大. 2.首 ...
AFNetworking 3.1.0 使用中某些知识点讲解
# POST / GET 请求 /*! 首先要知道,POST请求不能被缓存,只有 GET 请求能被缓存.因为从数学的角度来讲,GET 的结果是幂等的,就好像字典里的 key 与 value 就是 ...

第6章 通过CrawlSpider对招聘网站进行整站爬取

第6章 通过CrawlSpider对招聘网站进行整站爬取的更多相关文章

随机推荐

热门专题

第6章通过CrawlSpider对招聘网站进行整站爬取

第6章通过CrawlSpider对招聘网站进行整站爬取的更多相关文章