scrapy爬虫--10分钟入门

# -*- coding: utf-8 -*-
# @Time    : 2019/4/18 9:10
# @Author  : wujf
# @Email   : 1028540310@qq.com
# @File    : mingyan_spider.py
# @Software: PyCharm

import scrapy

class mingyan(scrapy.Spider):
    #name = "mingyan2"

    # def start_requests(self):
    #
    #     #定义爬取的链接
    #     urls = [
    #         'http://lab.scrapyd.cn/page/1/',
    #         'http://lab.scrapyd.cn/page/2/'
    #     ]
    #
    #     for url in urls:
    #         yield scrapy.Request(url=url,callback=self.parse)

    #另外一种写法
    name = 'itemSpider'
    start_urls = [
        'http://lab.scrapyd.cn'
    ]

    def parse(self, response):
        mingyan = response.css('div.quote')
        for v in mingyan:

            text    = v.css('.text::text').extract_first()
            author  = v.css('.author::text').extract_first()
            tags    = v.css('.tags .tag::text').extract()
            tags    = ','.join(tags)
            fileName= '%s-语录.txt'%author
            with open(fileName,'a+') as f:
                f.write(text+'\n'+'标签：'+tags)

        next_page = response.css('li.next a::attr(href)').extract_first()
        if next_page is not None:
            next_page = response.urljoin(next_page)   #urljoin(next_page)把相对路径，如：page/1转换为绝对路径，其实也就是加上网站域名
            yield scrapy.Request(next_page,callback=self.parse)  #yield 生成器一般

        # page = response.url.split('/')[-2]
        # filename = 'mingyan-%s.html'%page
        #
        # with open(filename,'wb') as f:
        #     f.write(response.body)
        # self.log('保存文件：%s'%filename)

scrapy爬虫--10分钟入门的更多相关文章

Apache Shiro系列三，概述 —— 10分钟入门
一.介绍看完这个10分钟入门之后,你就知道如何在你的应用程序中引入和使用Shiro.以后你再在自己的应用程序中使用Shiro,也应该可以在10分钟内搞定. 二.概述关于Shiro的废话就不多说了 ...
JavaScript 10分钟入门
JavaScript 10分钟入门随着公司内部技术分享(JS进阶)投票的失利,先译一篇不错的JS入门博文,方便不太了解JS的童鞋快速学习和掌握这门神奇的语言. 以下为译文,原文地址:http://w ...
kafka原理和实践（一）原理：10分钟入门
系列目录 kafka原理和实践(一)原理:10分钟入门 kafka原理和实践(二)spring-kafka简单实践 kafka原理和实践(三)spring-kafka生产者源码 kafka原理和实践( ...
Markdown - Typora 10分钟入门 - 精简归纳
Markdown - Typora 10分钟入门 - 精简归纳 JERRY_Z. ~ 2020 / 8 / 22 转载请注明出处! 目录 Markdown - Typora 10分钟入门 - 精简归纳 ...
[入门到吐槽系列] Webix 10分钟入门一管理后台制作
前言本人是服务端程序员,同时需要兼职前端开发.常用的就是原生态的HTML.Javascript,也用过ExtJS.Layui.可是ExtJS变公司后非常难用.Layui上手还行,用过一段时间,会觉得 ...
[入门到吐槽系列] Webix 10分钟入门二表单Form的使用
前言继续接着上一篇的webix入门:https://www.cnblogs.com/zc22/p/15912342.html.今天完成剩下两个最重要的控件,表单和表格的使用.掌握了这两个,整个Web ...
Webpack 10分钟入门
可以说现在但凡开发Single page application,webpack是一个不可或缺的工具. WebPack可以看做是一个模块加工器,如上图所示.它做的事情是,接受一些输入,经过加工产生一些 ...
「从零单排canal 01」 canal 10分钟入门（基于1.1.4版本）
1.简介 canal [kə'næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费.应该是阿里云DTS(Data Transfer Servi ...
scrapy爬虫简单项目入门练习
[写在开头] scrapy环境配置配置好了之后,开始着手简单项目入门练习.关于环境配置见上一篇博客https://www.cnblogs.com/ljxh/p/11235079.html. [正文部分 ...

随机推荐

SSH整合开发时Scope为默认时现象与原理
1.前提知识 1)scope默认值进行SSH整合开发时,Struts2的action须要用spring容器进行管理,仅仅要涉及到类以bean的形式入到spring容器中.无论是xml配置还是使用注解 ...
Eclipse ADT 导入别的电脑开发的项目
用Eclipse开发的时候常常要导入别的电脑开发的项目,常常会出错,甚至导入不了. 方法一: 把你正在使用的Eclipse开发的随便一个项目.打开,把下图这三个文件复制过去你要导入的项目.覆盖.然后再 ...
数据结构（C实现）------- 顺序栈
栈是限定仅在表的一端进行插入或删除的纯属表,通常称同意插入.删除的一端为栈顶(Top),对应在的.则称还有一端为栈底(Bottom). 不含元素的栈则称为空栈. 所设栈S＝{a1,a2,a3,..., ...
Manacher求最长回文
#1032 : 最长回文子串时间限制:1000ms 单点时限:1000ms 内存限制:64MB 描写叙述小Hi和小Ho是一对好朋友.出生在信息化社会的他们对编程产生了莫大的兴趣,他们约定好互相帮助 ...
封装RecyclerViewAdapter实现RecyclerView下拉刷新上拉载入很多其它
实现关于下拉刷新使用的是github上的项目Ultra Pull To Refresh项目. gradle依赖例如以下: compile 'in.srain.cube:ultra-ptr:1.0.1 ...
SpringMVC + hibernate 配置文件
web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns="htt ...
bazel编译tensorflow 生成libtensorflow_inference.so 和 libandroid_tensorflow_inference_java.jar
bazel build -c opt //tensorflow/contrib/android:libtensorflow_inference.so --crosstool_top=//externa ...
为什么倒排索引不采用zlib这样的字典压缩算法——因为没法直接使用啊
看了下压缩算法的发展历史,根据倒排索引的数据结构特点,个人认为zstd不适合做倒排索引压缩,举例说明下: 假设有一份文档倒排列表为:[300, 302, 303, 332],对于这组倒排数据,是没法* ...
poj 2351 Farm Tour (最小费用最大流）
Farm Tour Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 17230 Accepted: 6647 Descri ...
MySQL：常用语句
ylbtech-MySQL:常用语句 1.返回顶部 1. -- ---------------------------- -- Table structure for st_student -- -- ...

scrapy爬虫--10分钟入门

scrapy爬虫--10分钟入门的更多相关文章

随机推荐

热门专题