1、scrapy爬虫的流程,可简单该括为以下4步:

  1).新建项目---->scrapy startproject 项目名称(例如:myspider)

  

  >>scrapy.cfg为项目配置文件

  >>myspider:项目的Python模块,将会从这里引用代码

    >>mySpider/items.py :项目的目标文件

    >>mySpider/pipelines.py :项目的管道文件

    >>mySpider/settings.py :项目的设置文件

    >>mySpider/spiders/ :存储爬虫代码目录

  2).编写items.py文件,可以理解为要爬取的内容,后边在案例中说明

  3).编写爬虫文件,在spiders中自己创建,或者通过命令:scrapy genspider 爬虫名 爬虫允许访问的域

  4).存储内容(pipelines.py)

案例:爬取黑马培训的老师信息

第一步:创建项目 scrapy startproject ItcastSpider

 

第二步:解析网页,明确要爬取的内容,并编写item文件,代码如下:

  1. # -*- coding: utf-8 -*-
  2. # Define here the models for your scraped items
  3. # See documentation in:
  4. # http://doc.scrapy.org/en/latest/topics/items.html
  5.  
  6. import scrapy
  7.  
  8. class ItcastspiderItem(scrapy.Item):
  9. # define the fields for your item here like:
  10. # name = scrapy.Field()
  11. # 老师姓名
  12. name = scrapy.Field()
  13. # 职位
  14. level = scrapy.Field()
  15. # 介绍信息
  16. info = scrapy.Field()

第三步:编写爬虫文件 切入spiders文件夹,通过scrapy genspider itcast 'itcast.cn' 来创建

  1. # -*- coding: utf-8 -*-
  2. import scrapy
  3. # 导入之前已经写好的items文件中的类
  4. from ItcastSpider.items import ItcastspiderItem
  5.  
  6. class ItcastSpider(scrapy.Spider):
  7. name = "itcast" #爬虫名
  8. allowed_domains = ["http://www.itcast.cn"] #爬虫允许访问的域
  9. start_urls = ['http://www.itcast.cn/channel/teacher.shtml#apython'] # 要爬取的第一个url
  10.  
  11. def parse(self, response):
  12. # 通过scrapy内置的xpath规则解析网页,返回一个包含selector对象的列表
  13. teacher_list = response.xpath('//div[@class="li_txt"]')
  14. # 实例化类
  15. item = ItcastspiderItem()
  16.  
  17. for each in teacher_list:
  18. # 通过xpath解析后返回该表达式所对应的所有节点的selector list列表,利用extract()可将该节点序列化为Unicode字符串并返回列表
  19. # 老师名称
  20. item['name'] = each.xpath('./h3/text()').extract()[0]
  21. # 老师的职称
  22. item['level'] = each.xpath('./h4/text()').extract()[0]
  23. # 信息
  24. item['info'] = each.xpath('./p/text()').extract()[0]
  25. yield item

第四步:编辑管道文件pipelines,将爬取内容存贮到本地

  1. # -*- coding: utf-8 -*-
  2.  
  3. # Define your item pipelines here
  4. #
  5. # Don't forget to add your pipeline to the ITEM_PIPELINES setting
  6. # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
  7.  
  8. import json
  9. class ItcastspiderPipeline(object):
  10. def __init__(self):
  11. # 在本地创建teacher.json文件
  12. self.filename = open('teacher.json','w')
  13.  
  14. def process_item(self, item, spider):
  15. # python类型转化为json字符串
  16. text = json.dumps(dict(item),ensure_ascii = False) + '\n'
  17. # 写入
  18. self.filename.write(text.encode('utf-8'))
  19. return item
  20.  
  21. def close_spider(self,spider):
  22.  
  23. self.filename.close()

第五步:在settings.py中配置管道文件

第六步:启动爬虫 命令 scrapy crawl itcast

  

  

 

  

scrapy项目1:爬取某培训机构老师信息(spider类)的更多相关文章

  1. 使用python爬取东方财富网机构调研数据

    最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研 网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...

  2. scrapy爬取全部知乎用户信息

    # -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...

  3. [转]使用python爬取东方财富网机构调研数据

    最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研 网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...

  4. 爬虫系列5:scrapy动态页面爬取的另一种思路

    前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...

  5. 第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

    第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址 有多 ...

  6. 十三 web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

    crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息, ...

  7. [Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息

    [Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多 分类专栏: 网络爬虫   版权声明: ...

  8. 爬虫学习(二)--爬取360应用市场app信息

    欢迎加入python学习交流群 667279387 爬虫学习 爬虫学习(一)-爬取电影天堂下载链接 爬虫学习(二)–爬取360应用市场app信息 代码环境:windows10, python 3.5 ...

  9. 使用python爬取MedSci上的期刊信息

    使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...

随机推荐

  1. mavn Nexus Repository Manager漏洞

    https://www.secpulse.com/archives/112290.html

  2. web框架 Spring+SpringMvc+Jpa 纯注解搭建

    0.jar包依赖 maven  pom.xml <properties> <spring_version>4.3.25.RELEASE</spring_version&g ...

  3. zk ui安装 (选装,页面查看zk的数据)

    # 使用WEB UI查看监控集群-zk ui安装 cd /usr/local git clone https://github.com/DeemOpen/zkui.git yum install -y ...

  4. MySQL数据表操作命令

    mysql语句: 1.修改表名: rename table 旧表名 to 新表名; 2.修改字段类型: alter table 表名 modify column 字段名 字段类型(长度) 3.修改字段 ...

  5. 腾讯万亿级分布式消息中间件TubeMQ正式开源

    TubeMQ是腾讯在2013年自研的分布式消息中间件系统,专注服务大数据场景下海量数据的高性能存储和传输,经过近7年上万亿的海量数据沉淀,目前日均接入量超过25万亿条.较之于众多明星的开源MQ组件,T ...

  6. [转载]Jupyter Notebook中自动补全代码

    原文地址:https://yq.aliyun.com/articles/667928 在公众号之前的文章中,已经介绍了在Jupyter Notebook中设置主题以及输出代码文件到pdf文件中,本文来 ...

  7. HTTPS到底是什么

    Http存在的问题   上过网的朋友都知道,网络是非常不安全的.尤其是公共场所很多免费的wifi,或许只是攻击者的一个诱饵.还有大家平时喜欢用的万能钥匙,等等.那我们平时上网可能会存在哪些风险呢?   ...

  8. $id(id)函数

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

  9. xml发post请求

    # python3字符串换行,在右边加个反斜杠 body = '<?xml version="1.0" encoding = "UTF-8"?>' ...

  10. JVM运行时的内存划分--JDK1.8

    对比JDK1.7,JDK1.8在运行时的内存分配上进行了调整.本篇对JDK1.8版本进行简要介绍. 先以一张图片描述运行时内存: 程序计数器 记录当前线程执行的字节码行号.如果执行的是native方法 ...