scrapy 爬虫基础

　　Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

　　安装Scrapy的过程比较复杂而且容易出错，贴出一个参考链接：windows下scrapy安装步骤。

　　安装完成后，在自定义目录下输入

scrapy startproject Project_Name //创建新爬虫项目

scrapy genspider -t crawl Crawl_Name Url_addr//创建爬虫，模板，爬虫名和待爬网址

　　Scrapy内置的爬虫模板可使用：scrapy genspider -l 来查询，查询结果如下：包括basic crawl csvfeed xmlfeed四种类型。

　　使用以上命令后，便会在目录中自动生成爬虫项目，包含的内容如下图：

　　分别代表的意义为：

　　　　scrapy.cfg：项目的配置文件
　　　　jd_crawling/：项目的Python模块，将会从这里引用代码
　　　　jd_crawling/items.py：项目的items文件
　　　　jd_crawling/pipelines.py：项目的pipelines文件（pipeline意为管道，即将数据传递过来进行储存或处理）
　　　　jd_crawling/settings.py：项目的设置文件
　　　　jd_crawling/spiders/：存储爬虫的目录

　　进入目录中，在item中定义待爬的关键字（target），目的是封装进Item中，做为整个项目的一个对象进行引用和处理

class JdCrawlingItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    goods_name = scrapy.Field()#定义商品名称

    goods_link = scrapy.Field()#定义商品链接

　　items创建完成后进入spider创建爬虫规则：先爬，再取。可以看到在子佛那个创建的项目中已经为我们自动创建了一些内容：

class JdUrlSpider(CrawlSpider):

    name = 'jd_url'                         #爬虫的识别名称,必须唯一

    allowed_domains = ['jd.com']            # 允许执行的url范围

    start_urls = ['http://www.jd.com/']     # 爬取的URL列表

　　创建匹配规则：

    def parse_item(self, response): #解析的方法，调用的时候传入从每一个URL传回的Response对象作为唯一参数，负责解析并匹配抓取的数据(解析为item)

        item = JdCrawlingItem() #此处便引用了之前定义的item

        item['goods_name'] = response.xpath("//a[@class='pic']/@title").extract()

        item['goods_link'] = response.xpath("//a[@class='pic']/@href").extract()

        print(item['goods_name'])

　　xpath的使用方法详见：关于scrapy网络爬虫的xpath书写经验总结

　　最后执行：scrapy crawl jd_url 则可以开始我们的爬虫了。

　　这是最基本的爬虫，之后还会涉及到：1通过pipeline 写进数据库（pymsql）2突破反爬虫限制3爬虫数据分析和处理等内容。会在接下来的内容中完善

scrapy 爬虫基础的更多相关文章

小白学 Python 爬虫（33）：爬虫框架 Scrapy 入门基础（一）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（34）：爬虫框架 Scrapy 入门基础（二）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（36）：爬虫框架 Scrapy 入门基础（四） Downloader Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（38）：爬虫框架 Scrapy 入门基础（六） Item Pipeline
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（41）：爬虫框架 Scrapy 入门基础（八）对接 Splash 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
爬虫入门之Scrapy 框架基础功能(九)
Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非 ...

随机推荐

洛谷P1171 售货员的难题【状压DP】
题目描述某乡有n个村庄(1 输入格式: 村庄数n和各村之间的路程(均是整数). 输出格式: 最短的路程. 输入样例: 3 0 2 1 1 0 2 2 1 0 输出样例 3 说明输入解释 3 {村庄 ...
statement preparestatement CallableStatement
大家都知道Statement.PrepareStatement 和CallableStatement 对象,其实它们是interface,为什么JDBC2.0中要提供这三个对象呢?对于Statemen ...
Entity Framework——记录执行的命令信息
有两种方法可以记录执行的SQl语句: 使用DbContext.Database.Log属性实现IDbCommandInterceptor接口一使用DbContext.Database.Log属性 ...
老男孩Python全栈开发（92天全）视频教程自学笔记16
day16课程内容: 装饰器: def outer(): x=10 def inner(): print(x) return innerouter()() #inner 是局部变量,10闭包:如果在一 ...
uva10603 倒水问题
状态搜索.类似八数码问题 AC代码 #include<cstdio> #include<queue> #include<cstring> #include<a ...
Selenium里可以自行封装与get_attribute对应的set_attribute方法
我们在做UI自动化测试的过程中,某些情况会遇到,需要操作WebElement属性的情况. 假设现在我们需要获取一个元素的title属性,我们可以先找到这个元素,然后利用get_attribute方法获 ...
内置函数--global() 和 local()
一 . globals :返回当前作用域内全局变量的字典. >>> globals() {'__spec__': None, '__package__': None, '__bu ...
SELinux一键开启与禁用脚本
SELinux是美国国家安全局(NSA)对于强制访问控制的实现,是 Linux历史上最杰出的新安全子系统.但是SELinux的并不能与众多服务很好的兼容,有些人会关闭SELinux一了百了.在日常的运 ...
排序算法整理（python version）
import random import time def bubble_sort(a): n=len(a) while n>1: for i in range(n-1): if a[i]> ...
linux HAProxy及Keepalived热备
HAProxy 它是免费,快速且可靠的一种解决方案没,适用于那些负载特大的web站点这些站点通常又需要会话保持或七层处理提供高可用性,负载均衡及基于tcp和http应用的代理衡量负载均衡器性能的因素 ...

scrapy 爬虫基础

scrapy 爬虫基础的更多相关文章

随机推荐

热门专题