scrapy作为一个成熟的爬虫框架,网上有大量的相关教程供大家选择,尤其是关于其的安装步骤更是丰富的很。在这里我想记录下自己的相关经验,希望能给大家带来点帮助。

在scrapy0.24版之前,安装scrapy前需要自己手动安装它的相关依赖,尤其是在windows上,更是有很多坑,甚至会和注册表信息有关系。随着新版本的推出,它的安装也越来越人性化,大部分依赖会自己解决。那么本文就基于最新的scrapy1.2在windows上的安装来举例讲解。

首先来看看官方文档给出的相关步骤:

在scrapy1.1及以后,其已经支持python3的环境了,不过需要python3.3及以上版本。但是在windows环境中仍然只支持python2.7,至于原因上图中的Note已经给出说明:Twisted 在windows中不支持python3。

所以第一步需要安装python2.7,至于其安装和环境变量的添加这里就不再细说了,网上已经烂大街了。不过还是建议大家安装python2.7.9及以上的Python2版本,因为里面自带pip,这样就省了大家执行关于pip的安装操作了。

根据文档下载并运行pywin32,然后就可以输入命令安装scrapy了, pip install scrapy。

就是这样,仍然发生了不可预知的错误。首先pip install的时候需要换源,不然下载东西会超时或者不能找到合适的模块。至于换源这里简单的说一下,如果想要临时的使用新源的话,可以输入命令:

pip install scrapy -i https://pypi.douban.com/simple

如果想要永久的使用新源的话需要在配置文件pip.ini中写入, 该文件需要在本机Users文件夹下中的pip文件夹下新建,eg我的文件路径“C:\Users\Administrator\pip\pip.ini”:

[global]
index-url = http://pypi.douban.com/simple
trusted-host = pypi.douban.com

之后安装的scrapy可能会因为种种原因导致某些模块没有安装成功,最后安装失败。那么就需要根据log信息挨个去补充安装,实在是十分麻烦。

那有没有傻瓜式的一步安装呢?只需要输入一条指令就可以安装scrapy呢?

答案是肯定的。官方文档介绍了另一种方法:

那么Anaconda是个什么东西呢?

Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行package和environment的管理,并且已经包含了Python和相关的配套工具。之前在windows环境中安装pandas,PIL等真心的不容易,用了它以后一切都那么的轻松。

我们可以到其官网去下载这个软件,选择适合你环境的版本。然后就像普通的软件一样双击运行安装,你可以在弹出的高级选项中全部打钩,这样就不用自己去添加环境变量了。

安装成功以后,打开cmd,输入conda install scrapy 就可以安装了。

但是当我的环境为windows64位,python2.7也是64位时,按照上述命令安装scrapy以后,运行scrapy时报错:

出现上述错误的解决方法是:将C:\OpenSSL-Win32\bin中的libeay32.dll和ssleay32.dll放到C:\windows\system32下。这样scrapy就可以正常运行了。如果没有OpenSSL-Win32,那就去网上下一个,或者在C:\windows\system32文件夹下删除libeay32.dll和ssleay32.dll,最好还是替换,删除可能会引起其他的问题。

												

scrapy系列(一)——Python 爬虫框架 Scrapy1.2 Windows 安装教程的更多相关文章

  1. Python爬虫框架Scrapy教程(1)—入门

    最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...

  2. 教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

    本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...

  3. 【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

    原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...

  4. Linux 安装python爬虫框架 scrapy

    Linux 安装python爬虫框架 scrapy http://scrapy.org/ Scrapy是python最好用的一个爬虫框架.要求: python2.7.x. 1. Ubuntu14.04 ...

  5. Python爬虫框架Scrapy实例(三)数据存储到MongoDB

    Python爬虫框架Scrapy实例(三)数据存储到MongoDB任务目标:爬取豆瓣电影top250,将数据存储到MongoDB中. items.py文件复制代码# -*- coding: utf-8 ...

  6. Python爬虫框架Scrapy

    Scrapy是一个流行的Python爬虫框架, 用途广泛. 使用pip安装scrapy: pip install scrapy scrapy由一下几个主要组件组成: scheduler: 调度器, 决 ...

  7. 《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码

    下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码 下载:https://pan. ...

  8. 《精通Python爬虫框架Scrapy》学习资料

    <精通Python爬虫框架Scrapy>学习资料 百度网盘:https://pan.baidu.com/s/1ACOYulLLpp9J7Q7src2rVA

  9. 常见Python爬虫框架你会几个?

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:三名狂客 正文 注意:如果你Python技术学的不够好,可以点击下方链接 ...

随机推荐

  1. Spring Boot Starters启动器

    Starters是什么? Starters可以理解为启动器,它包含了一系列可以集成到应用里面的依赖包,你可以一站式集成Spring及其他技术,而不需要到处找示例代码和依赖包.如你想使用Spring J ...

  2. Python 离线工作环境搭建

    准备 在断网的和联网的机器安装pip,下载地址https://pypi.python.org/pypi/pip 在联网的开发机器上安装好需要的包 例如: pip3 install paramiko p ...

  3. MySql安装与使用(linux)

    安装 MySQL 注意:此处安装是yum安装为例: MySQL安装 #yum install mysql-server 完后显示如下: MySQL初始化 #service mysqld start 查 ...

  4. 机器视觉编程作业02(00)EM算法

    任务:对图像进行边缘检测 思路: )将图像的灰度数值进行0-255的维度统计: )EM算法分析出几个核心显示区块的灰度: )使用通用的边界检测算法(具体哪一种待定). 编辑于2017.12.24 15 ...

  5. url参数+,&,=,/等转义编码

    url出现了有+,空格,/,?,%,#,&,= 等特殊符号的时候,可能在服务器端无法获得正确的参数值. 案例: <img src="BarCode39.aspx?barcode ...

  6. 关于 Spring Security 5 默认使用 Password Hash 算法

    账户密码存储的安全性是一个很老的话题,但还是会频频发生,一般的做法是 SHA256(userInputpwd+globalsalt+usersalt) 并设置密码时时要求长度与大小写组合,一般这样设计 ...

  7. 经典面试题SALES TAXES思路分析和源码分享

    题目: SALES TAXES Basic sales tax is applicable at a rate of 10% on all goods, except books, food, and ...

  8. javascript中的iterable

    遍历Array可以采用下标循环,遍历Map和Set就无法使用下标.为了统一集合类型,ES6标准引入了新的iterable类型,Array.Map和Set都属于iterable类型. 具有iterabl ...

  9. 如何在github上搭建一个免费的 无限流量的静态网页博客Github pages

    前言: 看到很多相关的教程,但是在实际操作的时候还是遇见了不少问题,这里记录分享一下我的操作流程.免费空间用过很多,博客也用过一些,听说了github后就想试着玩一下这个静态库,感觉挺不错的,操作也比 ...

  10. php手撸轻量级开发(二)框架加载

    先上图,有图有真相 1. 加载index文件 index文件是整个项目的唯一入口,任何请求进入项目都是走的index,只是带的参数不一样,然后再在index文件里加载其他文件,相当于把其他文件整个复制 ...