1、引言

　　Scrapy框架结构清晰，基于twisted的异步架构可以充分利用计算机资源，是做爬虫必备基础，本文将对Scrapy的安装作介绍。

2、安装lxml

　　2.1 下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted　　选择对应python3.5的lxml库

2.2 如果pip的版本过低，先升级pip：

python -m pip install -U pip

2.3 安装lxml库（先将下载的库文件copy到python的安装目录，按住shift键并鼠标右击选择“在此处打开命令窗口”）

pip install lxml-4.1.1-cp35-cp35m-win_amd64.whl

看到出现successfully等字样说明按章成功。

3、安装Twisted库

3.1 下载链接：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted　　选择对应python3.5的库文件

3.2 安装

pip install Twisted-17.9.0-cp35-cp35m-win_amd64.whl

　　看到出现successfully等字样说明按章成功。

Note：部分机器可能安装失败，可以尝试将 Twisted-17.9.0-cp35-cp35m-win_amd64.whl文件移动到 $python/Scripts/ 目录下，重新安装。

4、安装Scrapy

twisted库安装成功后，安装scrapy就简单了，在命令提示符窗口直接输入命令：

pip install scrapy

　　看到出现successfully等字样说明按章成功。

5、Scrapy测试

5.1 新建项目

　　先新建一个Scrapy爬虫项目，选择python的工作目录（我的是：H:\PycharmProjects 然后安装Shift键并鼠标右键选择“在此处打开命令窗口”），然后输入命令：

scrapy startproject allister

　　对应目录会生成目录allister文件夹，目录结构如下：

└── allister

├── allister

│ ├── __init__.py

│ ├── items.py

│ ├── pipelines.py

│ ├── settings.py

│ └── spiders

└── scrapy.cfg

简单介绍个文件的作用：

# -----------------------------------------------

scrapy.cfg：项目的配置文件；

allister/ : 项目的python模块，将会从这里引用代码

allister/items.py:项目的items文件

allister/pipelines.py:项目的pipelines文件

allister/settings.py ：项目的设置文件

allister/spiders : 存储爬虫的目录

5.2 修改allister/items.py文件：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class AllisterItem(scrapy.Item):

    name = scrapy.Field()

    level = scrapy.Field()

    info = scrapy.Field()

5.3 编写文件 AllisterSpider.py

# !/usr/bin/env python

# -*- coding: utf-8 -*-

# @File  : AllisterSpider.py

# @Author: Allister.Liu

# @Date  : 2018/1/18

# @Desc  :

import scrapy

from allister.items import AllisterItem

class ItcastSpider(scrapy.Spider):

    name = "ic2c"

    allowed_domains = ["http://www.itcast.cn"]

    start_urls = [

        "http://www.itcast.cn/channel/teacher.shtml#ac"

    ]

    def parse(self, response):

        items = []

        for site in response.xpath('//div[@class="li_txt"]'):

            item = AllisterItem()

            t_name = site.xpath('h3/text()')

            t_level = site.xpath('h4/text()')

            t_desc = site.xpath('p/text()')

            unicode_teacher_name = t_name.extract_first().strip()

            unicode_teacher_level = t_level.extract_first().strip()

            unicode_teacher_info = t_desc.extract_first().strip()

            item["name"] = unicode_teacher_name

            item["level"] = unicode_teacher_level

            item["info"] = unicode_teacher_info

            yield item

编写完成后复制至项目的 \allister\spiders目录下，cmd选择项目根目录输入以下命令：　　

scrapy crawl ic2c -o itcast_teachers.json -t json

　　抓取的数据将以json的格式存储在ic2c_infos.json文件中；

如果出现如下错误请看对应解决办法：

Scrapy运行错误：ImportError: No module named win32api

Python3.5下安装&测试Scrapy的更多相关文章

Python3.X下安装Scrapy
Python3.X下安装Scrapy (转载) 2017年08月09日 15:19:30 jingzhilie7908 阅读数:519 标签: python 相信很多同学对于爬虫需要安装Scrap ...
centos7 python3.5 下安装paramiko
centos7 python3.5 下安装paramiko 安装开发包 yum install openssl openssl-devel python-dev -y 安装pip前需要前置安装setu ...
在python3.5下安装scrapy包
此前scrapy只支持python2.x 但是最新的1.1.0rc1已结开始支持py3了如果电脑上安装了scrapy的依赖包,诸如lxml.OpenSSL 1.你直接下载Scrapy-1.1.0rc ...
python3 linux下安装
1.下载 https://www.python.org/ftp/python/3.5.2/Python-3.5.2.tgz 2.安装上传到linux服务器 #进入上传文件的目录 cd /app/pr ...
在Python3.5下安装和测试Scrapy爬网站
1. 引言 Scrapy框架结构清晰,基于twisted的异步架构可以充分利用计算机资源,是爬虫做大的必备基础.本文将讲解如何快速安装此框架并使用起来. 2. 安装Twisted 2.1 同安装Lxm ...
win7中python3.4下安装scrapy爬虫框架（亲测可用）
貌似最新的scrapy已经支持python3,但是错误挺多的,以下为在win7中的安装步骤: 1.首先需要安装Scrapy的依赖包,包括parsel, w3lib, cryptography, pyO ...
在Windows10 64位 Anaconda4 Python3.5下安装XGBoost
系统环境: Windows10 64bit Anaconda4 Python3.5.1 软件安装: Git for Windows MINGW 在安装的时候要改一个选择(Architecture选择x ...
Windows python3.3下安装BeautifulSoup
首先在官网下载:http://www.crummy.com/software/BeautifulSoup/#Download BeautifulSoup在版本4以上都开始支持python3了,所以就下 ...
关于在Python3.6下安装MySQL-python,flask-sqlalchemy模块的问题
这周末在学习Flask框架的时候,有需要安装MySQL-python模块,一开始用pip安装: pip install MySQL-python 但是安装的时候报错了: error: command ...

随机推荐

oracle如何连接别人的数据库，需要在本地添加一些配置
2.oracle如何连接别人的数据库,需要在本地添加一些配置 1.找到 listener.ora 文件,打开(一般在 C 文件夹) ORCL = (DESCRIPTION = (ADDRESS = ( ...
django2.0+linux服务器，如何让自己电脑访问
这几天一直在搞这个服务器端口开放问题,来让自己电脑可以访问服务器下的django网页,今天终于弄好了~~~~~离成功又进了一步~~~~~ 1.首先,我们来开放一个linux服务器的端口(我开放了828 ...
Android项目实战（三十九）：Android集成Unity3D项目（图文详解）
需求: Unity3D 一般用于做游戏而且是跨平台的.原本设计是Android 应用端A(原生开发)进行一些业务处理,最后由A 打开Android 应用端B(Unity3D 游戏开发)进行游戏操作. ...
Android项目实战（三十六）：给背景加上阴影效果
圆角背景大家应该经常用: 一个drawable资源文件里面控制corner圆角和solid填充色 <shape xmlns:android="http://schemas.and ...
【CSS3】透明度opacity与rgba()区别、光标cursor、display、轮廓outline与margin及border区别、em和rem区别
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
Android活动生命周期
任务(Task) Android 是使用任务(Task)来管理活动的,一个任务就是一组存放在栈里的活动的集合,这个栈也被称作返回栈(Back Stack).在默认情况下,每当我们启动了一个新的活动,它 ...
C图形库Easyx的使用
学习Eaxy X图形库后我的成果: 花了一周时间做出并完善了Flappy Bird,目前功能如下: 1. 背景的显示 2. 加入小鸟image 3. 小鸟自由下落,按空格键/鼠标右键后上升 4. 加入 ...
c#中treeview的使用方法（转）
本文主要介绍treeView控件中,添加,修改.删除节点的操作, 首先当窗体加载的时候,我们添加上图中所示的节点. 当点击“Delete the Selected”按钮时,被选中的节点将被删除. 当点 ...
ogg12c_静默安装
1.上传压缩包:123010_fbo_ggs_Linux_x64_shiphome.zip 2.解压: unzip 123010_fbo_ggs_Linux_x64_shiphome.zip 3.配置 ...
vmware workstation14永久激活密钥分享
vmware workstation14永久激活密钥分享 VMware Workstation是一款功能强大的桌面虚拟计算机软件,简单来说就是最强的中文虚拟机了,可以在桌面上运行不同的操作系统,下面就 ...

Python3.5下安装&测试Scrapy

1、引言

2、安装lxml

3、 安装Twisted库

4、安装Scrapy

5、Scrapy测试

Scrapy运行错误：ImportError: No module named win32api

Python3.5下安装&测试Scrapy的更多相关文章

随机推荐

热门专题

3、安装Twisted库