Python项目--Scrapy框架(一)

环境

win8, python3.7, pycharm

正文

1.Scrapy框架的安装

在cmd命令行窗口执行:

pip install Scrapy

即可完成Scrapy框架的安装

2. 创建Scrapy项目

在cmd命令行窗口下切换到想要的目录下, 我这里是C:\Users\Administrator\PycharmProjects\untitled\Tests\Scrapy

执行下面代码, 即可在当前的"Scrapy"目录下生成JianShu项目文件夹.

scrapy startproject JianShu

文件夹结构如下:

items.py: 定义要爬取的项目

middlewares.py: 定义爬取时的中间介质

pipelines.py: 定义数据管道

settings.py: 配置文件

scrapy.cfg: Scrapy部署时的配置文件

3. 创建JianShuSpider

在cmd命令行依次执行以下代码, 即可在"JianShu/spiders"目录下创建JianShuSpider.py文件

cd JianShu

scrapy genspider JianShuSpider JianShuSpider.toscrape.com

4. 定义要爬取的项目

在items.py中确定要爬取的信息: 简书热门专题中的主题, 内容, 文章数, 粉丝数这四个信息

 import scrapy

 from scrapy.item import Item, Field

 class JianshuItem(Item):

     # define the fields for your item here like:

     # name = scrapy.Field()

     title = Field()         #主题

     content  = Field()      #内容

     article = Field()       #文章

     fans = Field()          #粉丝

5. 编写爬虫主程序

简书热门专题采用异步加载, 在NetWork中选择XHR来确定异步加载的url: https://www.jianshu.com/recommendations/collections?page=(1,2,3,4.....)&order_by=hot

在JianShuSpider.py中编写主程序:

 import scrapy

 from scrapy.spiders import CrawlSpider

 from scrapy.selector import Selector

 from JianShu.items import JianshuItem

 from scrapy.http import Request

 class JianShu(CrawlSpider):

     name = 'JianShu'

     allowed_domains = ['JianShuSpider.toscrape.com']

     start_urls = ['https://www.jianshu.com/recommendations/collections?page=1&order_by=hot']

     def parse(self, response):

         item = JianshuItem()

         #对源码进行初始化

         selector = Selector(response)

         #采用xpath进行解析

         infos = selector.xpath('//div[@class="collection-wrap"]')

         for info in infos:

             title = info.xpath('a[1]/h4/text()').extract()[0]

             content = info.xpath('a[1]/p/text()').extract()

             article = info.xpath('div/a/text()').extract()[0]

             fans = info.xpath('div/text()').extract()[0]

             #加入判断, 如果content存在则返回content[0], 否则返回''

             if content:

                 content = content[0]

             else:

                 content = ''

             item['title'] = title

             item['content'] = content

             item['article'] = article

             item['fans'] = fans

             yield item

         #列表生成式, 生成多个url

         urls = ['https://www.jianshu.com/recommendations/collections?page={0}&order_by=hot'.format(str(page)) for page in range(2,37)]

         for url in urls:

             yield Request(url,callback=self.parse)

6. 保存到MongoDB

利用pipelines数据管道将其存储至MongoDB, 在pipelines.py编写:

 import pymongo

 class JianshuPipeline(object):

     def __init__(self):

         '''连接Mongodb'''

         client = pymongo.MongoClient(host='localhost')

         db = client['test']

         jianshu = db["jianshu"]

         self.post = jianshu

     def process_item(self, item, spider):

         '''写入Mongodb'''

         info = dict(item)

         self.post.insert(info)

         return item

7. setting配置

 BOT_NAME = 'JianShu'

 SPIDER_MODULES = ['JianShu.spiders']

 NEWSPIDER_MODULE = 'JianShu.spiders'

 #从网站请求头复制粘贴User-Agent

 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'

 ROBOTSTXT_OBEY = True

 #设置等待时间5秒

 DOWNLOAD_DELAY = 5

 #配置项目管道

 ITEM_PIPELINES = {

    'JianShu.pipelines.JianshuPipeline': 300,

 }

8. 新建main.py文件

在JianShu文件目录下新建main.py文件, 编辑如下代码:

 from scrapy import cmdline

 cmdline.execute('scrapy crawl JianShu'.split())

9. 运行main.py文件

在运行之前, 需确保mongodb服务已经启动, 执行结果如下:

Python项目--Scrapy框架(一)的更多相关文章

Python项目--Scrapy框架(二)
本文主要是利用scrapy框架爬取果壳问答中热门问答, 精彩问答的相关信息环境 win8, python3.7, pycharm 正文 1. 创建scrapy项目文件在cmd命令行中任意目录下执行 ...
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
Python爬虫Scrapy框架入门（1）
也许是很少接触python的原因,我觉得是Scrapy框架和以往Java框架很不一样:它真的是个框架. 从表层来看,与Java框架引入jar包.配置xml或.property文件不同,Scrapy的模 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
Python爬虫 ---scrapy框架初探及实战
目录 Scrapy框架安装操作环境介绍安装scrapy框架(linux系统下) 检测安装是否成功 Scrapy框架爬取原理 Scrapy框架的主体结构分为五个部分: 它还有两个可以自定义下载功能的 ...
python爬虫scrapy框架
Scrapy 框架关注公众号"轻松学编程"了解更多. 一.简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量 ...
Python爬虫Scrapy框架入门（2）
本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写 ...
Python爬虫Scrapy框架入门（0）
想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy. scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述.专心记录我自己遇到的问题 ...
基于python的scrapy框架爬取豆瓣电影及其可视化
1.Scrapy框架介绍主要介绍,spiders,engine,scheduler,downloader,Item pipeline scrapy常见命令如下: 对应在scrapy文件中有,自己增加 ...

随机推荐

alert大法看执行流程(一次采坑)
页面的dom元素加载完了,给元素一次性添加事件. 收获:事件都是一次性给添加好的,不是点击一次,................................................... ...
IntelliJ IDEA 新版发布：支持CPU火焰图，新增酷炫主题
JetBrain 是一家伟大的公司,一直致力于为开发者开发世界上最好用的集成开发环境就在上周,JetBrain 公司发布了 Java 集成开发环境 IntelliJ IDEA 最新版本 2018.3 ...
Codeblocks中文乱码解决方法
odeblocks中文乱码解决方法: 特别提示:出现中文乱码情况才执行以下操作,未出现请勿随意修改!!!! 打开Codeblocks -> 设置 -> 编辑器: 然后点击 Encoding ...
在子页面操作父页面元素和iframe说明
实现功能:在子页面操作父页面元素. 在实际编码的过程中,大家一定有这种需求:在父级页面有一个<iframe scrolling='auto'></iframe>内联框架,而我们 ...
C语言strcmp()实现
函数原型: extern int strcmp(const char *s1,const char *s2); 比较两个字符串设这两个字符串为str1,str2, 若str1=str2,则返回 ...
HTTP各种特性
一.Http客户端 1.浏览器.打开百度首页 2.Curl工具二.CORS 跨域(浏览器的功能) 1.修改Server.js const http = require('http'); const ...
手把手教你实现 Google 拓展插件（转自实验楼）
一.课程简介 1.1 实验介绍本课程的实验环境由实验楼提供,Google 浏览器拓展的运行环境为 Google 浏览器.在本实验中,你将了解如何制作一个属于你自己的 Google 拓展插件. 课程实 ...
SWD通讯
这几日看到坛里有几个关于SWD协议相关的文章,自己也尝试了下,有点体会,也有些疑惑,写出来与大家分享和交流下. 以下我的模拟SWD接口的板子简称为Host,目标MCU(即我要连接的板子)简称为T ...
C# 语言历史版本特性（C# 1.0到C# 7.1汇总更新）
历史版本C#作为微软2000年以后.NET平台开发的当家语言,发展至今具有17年的历史,语言本身具有丰富的特性,微软对其更新支持也十分支持.微软将C#提交给标准组织ECMA,C# 5.0目前是ECMA ...
python http请求及多线程应用
目录概述 tomorrow包准备运行环境遇到的问题其他尝试未果概述今天, 使用python3 模拟下发包, http get 请求, 然后采用tomorrow 多线程. 代码如下: # c ...