浅谈scrapy框架安装使用

Scrapy笔记: 一安装:

pip3 install wheel
1. pip3 install lxml
  1. pip3 install pyopenssl
  2. pip3 install -i https://mirrors.aliyun.com/pypi/simple/ pypiwin32
  3. 下载文件(twisted): https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted pip3 install 文件路径\Twisted-19.2.0-cp36-cp36m-win_amd64.whl 6.pip3 install scrapy 7.scrapy 测试安装是否成功 Scrapy 1.6.0 - no active project ...

二 scrapy命令全局(所有路径下都可以使用): bench Run quick benchmark test fetch Fetch a URL using the Scrapy downloader

      # 会把爬虫程序创建在当前目录下
      genspider     Generate new spider using pre-defined templates

      # 可以在当前目录下启动爬虫程序
      runspider     Run a self-contained spider (without creating a project)

      runspider 爬虫程序的绝对路径

      settings      Get settings values
      shell         Interactive scraping console

      # 创建scrapy项目
      startproject  Create new project
      version       Print Scrapy version
      view

局部(在scrapy项目中可以使用):
      bench         Run quick benchmark test
      # 监测语法
      check         Check spider contracts
      # 根据爬虫程序的name 启动爬虫程序
      crawl         Run a spider

      # ！！！！！！！重点使用它！！！！！！！
      scrapy crawl name

      edit          Edit spider
      fetch         Fetch a URL using the Scrapy downloader
      genspider     Generate new spider using pre-defined templates
      # 查看所有的爬虫程序
      list          List available spiders

      parse         Parse URL (using its spider) and print the results

      runspider     Run a self-contained spider (without creating a project)

      settings      Get settings values
      shell         Interactive scraping console
      startproject  Create new project
      version       Print Scrapy version
      view          Open URL in browser, as seen by Scrapy

三创建scrapy项目 Django: # 创建项目 django-admin startproject P1 cd P1

    # 创建实例
    python3 manage.py app01
    python3 manage.py bbs

Scrapy:
    # 创建项目
    scrapy startproject spider_project
    cd spider_project

    # 创建爬虫程序
    scrapy genspider chouti chouti.com

    # 执行爬虫程序
    scrapy crawl chouti

    # 取消日志
    scrapy crawl --nolog chouti

settings：
    # 不遵循反爬协议
    ROBOTSTXT_OBEY = False

main.py
    from scrapy.cmdline import execute
    # execute(['scrapy', 'crawl', 'baidu'])
    execute("scrapy crawl --nolog chouti".split(' '))

main.py
    from scrapy.cmdline import execute
    # execute(['scrapy', 'crawl', 'baidu'])
    execute("scrapy crawl --nolog chouti".split(' '))

Spiders.chouti.py

    class ChoutiSpider(scrapy.Spider):
        def parse(self, response):
        def parse_user_index(self, response):

items.py
    # 新闻items类
    class SpiderNewListItem(scrapy.Item):
        # define the fields for your item here like:
        # 新闻链接
        new_url = scrapy.Field()
        # 新闻文本
        new_text = scrapy.Field()
        # 点赞数
        nice_num = scrapy.Field()
        # 新闻ID
        new_id = scrapy.Field()
        # 评论数
        commit_num = scrapy.Field()
        # 新闻详情
        new_content = scrapy.Field()
        # 发表新闻用户的主页
        user_link = scrapy.Field()

    # 新闻items类
    class SpiderUserListItem(scrapy.Item):
        # define the fields for your item here like:
        # 新闻链接
        new_url = scrapy.Field()
        # 新闻文本
        new_text = scrapy.Field()
        # 点赞数
        nice_num = scrapy.Field()
        # 新闻ID
        new_id = scrapy.Field()
        # 评论数
        commit_num = scrapy.Field()
        # 新闻详情
        new_content = scrapy.Field()
        # 用户名
        user_name = scrapy.Field()

pipelines.py

    class SpiderNewListPipeline(object):
        def __init__(self, ip, port, mongo_db):
            self.ip = ip
            self.port = port
            self.mongo_db = mongo_db

    # 必须配置才可以启动ITEM_PIPELINES
    ITEM_PIPELINES = {
       'spider_project.pipelines.SpiderNewListPipeline': 300,
       'spider_project.pipelines.SpiderUserListPipeline': 301,
    }

    # MongoDB配置信息
    IP = 'localhost'
    PORT = 27017
    DB = 'chouti'

浅谈scrapy框架安装使用的更多相关文章

Python爬虫进阶三之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...
Python爬虫进阶之Scrapy框架安装配置
Python爬虫进阶之Scrapy框架安装配置初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此 ...
手撸ORM浅谈ORM框架之基础篇
好奇害死猫一直觉得ORM框架好用.功能强大集众多优点于一身,当然ORM并非完美无缺,任何事物优缺点并存!我曾一度认为以为使用了ORM框架根本不需要关注Sql语句如何执行的,更不用关心优化的问题!!! ...
手撸ORM浅谈ORM框架之Add篇
快速传送手撸ORM浅谈ORM框架之基础篇手撸ORM浅谈ORM框架之Add篇手撸ORM浅谈ORM框架之Update篇手撸ORM浅谈ORM框架之Delete篇手撸ORM浅谈ORM框架之Query ...
手撸ORM浅谈ORM框架之Update篇
快速传送手撸ORM浅谈ORM框架之基础篇手撸ORM浅谈ORM框架之Add篇手撸ORM浅谈ORM框架之Update篇手撸ORM浅谈ORM框架之Delete篇手撸ORM浅谈ORM框架之Query ...
手撸ORM浅谈ORM框架之Delete篇
快速传送手撸ORM浅谈ORM框架之基础篇手撸ORM浅谈ORM框架之Add篇手撸ORM浅谈ORM框架之Update篇手撸ORM浅谈ORM框架之Delete篇手撸ORM浅谈ORM框架之Query ...
手撸ORM浅谈ORM框架之Query篇
快速传送手撸ORM浅谈ORM框架之基础篇手撸ORM浅谈ORM框架之Add篇手撸ORM浅谈ORM框架之Update篇手撸ORM浅谈ORM框架之Delete篇手撸ORM浅谈ORM框架之Query ...
Scrapy 框架安装五大核心组件 settings 配置管道存储
scrapy 框架的使用博客: https://www.cnblogs.com/bobo-zhang/p/10561617.html 安装: pip install wheel 下载 Twisted ...
Scrapy 框架安装
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页 ...

随机推荐

vue 生命周期函数详解
beforeCreate( 创建前 ) 在实例初始化之后,数据观测和事件配置之前被调用,此时组件的选项对象还未创建,el 和 data 并未初始化,因此无法访问methods, data, compu ...
分别在javascript和JSP中动态设置下拉列表默认值
一.JavaScript中动态设置select标签中<option>选项的默认值: 比如,要完成下边这个下拉列表的动态显示,并且当进行前后翻页时,下拉列表中的值自动更新为当前页码: 图1 ...
Mac 上使用svn 记录
.启动svn服务器 svnadmin create /Users/liuwei/Desktop/svn/UI 如果本地有 UI这个目录了就不用再运行使用这句就可以了 svnserve -d -r / ...
使用DMA方式发送串口数据
一.初始化部分代码 //串口接收DMA缓存 uint8_t Uart_Rx[UART_RX_LEN] = {}; uint32_t Uart_Send_Buffer[] = {}; void USAR ...
网络体系应用层之DNS系统
1.概述域名系统 DNS 是因特网使用的命名系统,用来把便于人们使用的机器名字(即域名)转换为 ip 地址. 用户与因特网上某个主机通信时,必须要知道对方的 ip 地址,然而用户很难记住长达32位二 ...
【BZOJ2639】矩形计算（二维普通莫队）
题意:输入一个n*m的矩阵,矩阵的每一个元素都是一个整数,然后有q个询问,每次询问一个子矩阵的权值. 矩阵的权值是这样定义的,对于一个整数x,如果它在该矩阵中出现了p次,那么它给该矩阵的权值就贡献p^ ...
tom
题目描述众所周知,Tom 猫对香肠非常感兴趣.有一天,Tom 家里的女主人赏给了Tom 一大堆香肠.这些香肠太多了,以至于Tom 一顿吃不完,于是它把这些香肠串成了一棵树,树的每个节点上都有一个香肠 ...
20175213 2018-2019-2 《Java程序设计》第11周学习总结
教材学习内容总结 URL类是java.net包中的一个重要的类,URL的实例封装着一个统一资源定位符(Uniform Resource Locator),使用URL创建对象的应用程序称作客户端程序 U ...
第六周学习总结&实验报告四
一.实验目的 (1)掌握类的继承 (2)变量的继承和覆盖,方法的继承,重载和覆盖的实现: 二.实验的内容 (1)根据下面的要求实现圆类Circle. 1.圆类Circle的成员变量:radius表示圆 ...
在阿里云 Ubuntu上通过nginx+uwsgi服务器部署Django出现的502错误
https://blog.csdn.net/luojie140/article/details/76919471 https://blog.csdn.net/sinat_21302587/articl ...

浅谈scrapy框架安装使用

浅谈scrapy框架安装使用的更多相关文章

随机推荐

热门专题