scrapy学习笔记(1)
初探scrapy,发现很多入门教程对应的网址都失效或者改变布局了,走了很多弯路。于是自己摸索做一个笔记。
环境是win10 python3.6(anaconda)。
安装
- pip install scrapy
由于是第一次尝试,这次爬取美剧天堂(http://www.meijutt.com/)以下模块的剧名:
1.创建工程
- scrapy startproject movie
2.编辑items.py,设置数据存储模版
- # -*- coding: utf-8 -*-
- # Define here the models for your scraped items
- #
- # See documentation in:
- # http://doc.scrapy.org/en/latest/topics/items.html
- import scrapy
- class MovieItem(scrapy.Item):
- # define the fields for your item here like:
- name = scrapy.Field()
3.查看网页源代码,在spiders目录下创建爬虫文件meiju.py,如下:
- # -*- coding: utf-8 -*-
- import scrapy
- from movie.items import MovieItem
- class MeijuSpider(scrapy.Spider):
- name = "meiju"
- allowed_domains = ["meijutt.com"]
- start_urls = ['http://meijutt.com/']
- def parse(self, response):
- movies=response.xpath('//div[@class="c1_l_wap_contact"]/ul/li')
- for each_movie in movies:
- item=MovieItem()
- item['name']=each_movie.xpath('./a/@title').extract()[0]
- yield item
在parse函数中取文档中(//为选择匹配的节点,不考虑位置;/为选择根目录下的节点)属性为c1_l_wap_condact的div标签下的ul标签中的li标签。对每个元素选取a标签中的title属性。返回list格式,取第一个元素。(xpath语法参见 http://www.w3school.com.cn/xpath/xpath_syntax.asp)
yield函数的作用:“函数中使用yield,可以使函数变成生成器。一个函数如果是生成一个数组,就必须把数据存储在内存中,如果使用生成器,则在调用的时候才生成数据,可以节省内存。 ”
4.settings.py中增加以下内容,激活item pipeline组件:
- ITEM_PIPELINES = {'movie.pipelines.MoviePipeline':100}
这里的整数值决定pipelines运行的先后顺序,小的先运行,大的后运行。整数值通常设置在0-1000之间。
为了避免莫名奇妙的报错,暂时设置ROBOTSTXT_OBEY = False。以后会尽量遵守君子协定吧。。
5.编辑pipelines.py
- # -*- coding: utf-8 -*-
- # Define your item pipelines here
- #
- # Don't forget to add your pipeline to the ITEM_PIPELINES setting
- # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
- class MoviePipeline(object):
- def process_item(self, item, spider):
- with open("my_meiju.txt",'ab+') as fp:
- fp.write(item['name'].encode('utf-8')+'\n'.encode('utf-8'))
- return item
为了写入中文并且每次写入新的一行而不要覆盖,使用'ab+'。'\n'也要转为utf8格式。
6.执行爬虫(在movie目录下)
- scrapy crawl meiju
生成的txt文件会出现在目录下了。内容如下:
- 抵押第一季
- 沉默的天使第一季
- 此时此刻第一季
- 黑道无边第一季
- 芝加哥故事第一季
- 相对宇宙第一季
- 不列颠尼亚第一季
- 一起单身第一季
今天先探秘到这里~
scrapy学习笔记(1)的更多相关文章
- Scrapy:学习笔记(2)——Scrapy项目
Scrapy:学习笔记(2)——Scrapy项目 1.创建项目 创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...
- Scrapy:学习笔记(1)——XPath
Scrapy:学习笔记(1)——XPath 1.快速开始 XPath是一种可以快速在HTML文档中选择并抽取元素.属性和文本的方法. 在Chrome,打开开发者工具,可以使用$x工具函数来使用XPat ...
- scrapy 学习笔记1
最近一段时间开始研究爬虫,后续陆续更新学习笔记 爬虫,说白了就是获取一个网页的html页面,然后从里面获取你想要的东西,复杂一点的还有: 反爬技术(人家网页不让你爬,爬虫对服务器负载很大) 爬虫框架( ...
- Scrapy学习笔记(5)-CrawlSpider+sqlalchemy实战
基础知识 class scrapy.spiders.CrawlSpider 这是抓取一般网页最常用的类,除了从Spider继承过来的属性外,其提供了一个新的属性rules,它提供了一种简单的机制,能够 ...
- scrapy 学习笔记2
本章学习爬虫的 回调和跟踪链接 使用参数 回调和跟踪链接 上一篇的另一个爬虫,这次是为了抓取作者信息 # -*- coding: utf-8 -*- import scrapy class Myspi ...
- scrapy学习笔记一
以前写爬虫都是直接手写获取response然后用正则匹配,被大佬鄙视之后现在决定开始学习scrapy 一.安装 pip install scrapy 二.创建项目 scrapy startprojec ...
- Scrapy 学习笔记(一)数据提取
Scrapy 中常用的数据提取方式有三种:Css 选择器.XPath.正则表达式. Css 选择器 Web 中的 Css 选择器,本来是用于实现在特定 DOM 元素上应用花括号内的样式这样一个功能的. ...
- scrapy 学习笔记
1.scrapy 配合 selenium.phantomJS 抓取动态页面, 单纯的selemium 加 Firefox浏览器就可以抓取动态页面了, 但开启窗口太耗资源,而且一般服务器的linux 没 ...
- scrapy学习笔记
1.scrapy用哪条命令行重新编辑已有的项目?cd projectname 2.如何在pycharm中开启scrapy?先在终端创建一个项目(即文件夹),再在pycharm中打开.
随机推荐
- 【原创】大数据基础之Mesos+Marathon+Docker部署nginx
一 安装 安装docker:https://www.cnblogs.com/barneywill/p/10343091.html安装mesos:https://www.cnblogs.com/barn ...
- git remote: HTTP Basic: Access denied Mac 使用Sourcetree 密码输错 再次输入解决方案
删除下面的key即可
- memcached笔记
启动memcached:./memcached -d -m 10 -l 127.0.0.1 -p 11211 -u root 连接memcached:telnet 127.0.0.1 11211 查看 ...
- java 小程序开发PKCS7Padding 解密方法实现,以及错误Cannot find any provider supporting AES/CBC/PKCS7Padding 解决办法
近日在对接小程序API,其中wx.getUserInfo api返回的数据encryptedData 的解密算法要求为: AES-128-CBC,数据采用PKCS#7填充. 经过一番查询,得到java ...
- Swift 统计项目中所有按钮的点击次数
class Swizzle: NSObject { override class func load() { UIButton.xxx_swizzleSendAction() } } extensio ...
- UOJ#407. 【IOI2018】狼人 Kruskal,kruskal重构树,主席树
原文链接https://www.cnblogs.com/zhouzhendong/p/UOJ407.html 题解 套路啊. 先按照两个节点顺序各搞一个kruskal重构树,然后问题转化成两棵krus ...
- 合并K个排序链表
合并 k 个排序链表,返回合并后的排序链表.请分析和描述算法的复杂度. 示例: 输入: [ 1->4->5, 1->3->4, 2->6 ] 输出: 1-&g ...
- 机器学习入门之python实现图片简单分类
小任务:实现图片分类 1.图片素材 python批量压缩jpg图片: PIL库 resize http://blog.csdn.net/u012234115/article/details/50248 ...
- win10,vs2017+mpi v10.0 安装与入门 (详细)
一.安装visual studio 2017 下载 地址:https://visualstudio.microsoft.com/zh-hans/vs/ 安装 我们再选择自己想要安装的东西,确认好后点 ...
- Lock锁方式解决线程安全问题
在JDK5.0之后新增加了一种更强大的线程同步机制---通过显示定义同步锁来实现线程同步解决线程安全问题.同步锁使用Lock对象充当. java.util.concurrent.locks.lock接 ...