初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下。

Windows 平台:

我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同。

官网文档:http://doc.scrapy.org/en/latest/intro/install.html,最权威哒,下面是我的亲身体验过程。

1.安装Python

安装过程我就不多说啦,我的电脑中已经安装了 Python 2.7.7 版本啦,安装完之后记得配置环境变量,比如我的安装在D盘,D:\python2.7.7,就把以下两个路径添加到Path变量中

  1. D:\python2.7.7;D:\python2.7.7\Scripts

配置好了之后,在命令行中输入 python –version,如果没有提示错误,则安装成功

2.安装pywin32

在windows下,必须安装pywin32,安装地址:http://sourceforge.net/projects/pywin32/

下载对应版本的pywin32,直接双击安装即可,安装完毕之后验证:

在python命令行下输入

import win32com

如果没有提示错误,则证明安装成功

3.安装pip

pip是用来安装其他必要包的工具,首先下载 get-pip.py

下载好之后,选中该文件所在路径,执行下面的命令

  1. python get-pip.py

执行命令后便会安装好pip,并且同时,它帮你安装了setuptools

安装完了之后在命令行中执行

  1. pip --version

如果提示如下,说明就安装成功了,如果提示不是内部或外部命令,那么就检查一下环境变量有没有配置好吧,有两个路径。

4.安装pyOPENSSL

在Windows下,是没有预装pyOPENSSL的,而在Linux下是已经安装好的。

安装地址:https://launchpad.net/pyopenssl

5.安装 lxml

lxml的详细介绍 点我 ,是一种使用 Python 编写的库,可以迅速、灵活地处理 XML

直接执行如下命令

  1. pip install lxml

就可完成安装,如果提示 Microsoft Visual C++库没安装,则 点我 下载支持的库。

6.安装Scrapy

最后就是激动人心的时刻啦,上面的铺垫做好了,我们终于可以享受到胜利的果实啦!

执行如下命令

  1. pip install Scrapy

pip 会另外下载其他依赖的包,这些就不要我们手动安装啦,等待一会,大功告成!

7.验证安装

输入 Scrapy

如果提示如下命令,就证明安装成功啦,如果失败了,请检查上述步骤有何疏漏。

Linux Ubuntu 平台:

Linux 下安装非常简单,只需要执行几条命令几个

1.安装Python

  1. sudo apt- python2.-dev

2.安装 pip

首先下载 get-pip.py

下载好之后,选中该文件所在路径,执行下面的命令

  1. sudo python get-pip.py

3.直接安装 Scrapy

由于 Linux下已经预装了 lxml 和 OPENSSL

如果想验证 lxml ,可以分别输入

  1. sudo pip install lxml

出现下面的提示这证明已经安装成功

  1. Requirement already satisfied (use --upgrade to upgrade): lxml /dist-packages

如果想验证 openssl,则直接输入openssl 即可,如果跳转到 OPENSSL 命令行,则安装成功。

接下来直接安装 Scrapy 即可

  1. sudo pip install Scrapy
  2.  

安装完毕之后,输入 scrapy

注意,这里linux下不要输入Scrapy,linux依然严格区分大小写的,感谢kamen童鞋提醒。

如果出现如下提示,这证明安装成功

  1.  
  2. Usage:
  3. scrapy <command> [options] [args]
  4.  
  5. Available commands:
  6. bench Run quick benchmark test
  7. fetch Fetch a URL using the Scrapy downloader
  8. runspider Run a self-contained spider (without creating a project)
  9. settings Get settings values
  10. shell Interactive scraping console
  11. startproject Create new project
  12. version Print Scrapy version
  13. view Open URL in browser, as seen by Scrapy
  14.  
  15. [ more ] More commands available when run from project directory
  16.  

截图如下

如有问题,欢迎留言!祝各位小伙伴顺利安装!

芝麻HTTP:Python爬虫进阶之Scrapy框架安装配置的更多相关文章

  1. Python爬虫进阶之Scrapy框架安装配置

    Python爬虫进阶之Scrapy框架安装配置 初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此 ...

  2. Python爬虫进阶三之Scrapy框架安装配置

    初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...

  3. python爬虫入门(六) Scrapy框架之原理介绍

    Scrapy框架 Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬 ...

  4. 零基础写python爬虫之使用Scrapy框架编写爬虫

    网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻 ...

  5. python爬虫学习之Scrapy框架的工作原理

    一.Scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 其最初是为了 页面抓取 (更确切来说, 网 ...

  6. PYTHON 爬虫笔记十一:Scrapy框架的基本使用

    Scrapy框架详解及其基本使用 scrapy框架原理 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了 ...

  7. python 爬虫相关含Scrapy框架

    1.从酷狗网站爬取 新歌首发的新歌名字.播放时长.链接等 from bs4 import BeautifulSoup as BS import requests import re import js ...

  8. python爬虫框架(3)--Scrapy框架安装配置

    1.安装python并将scripts配置进环境变量中 2.安装pywin32 在windows下,必须安装pywin32,安装地址:http://sourceforge.net/projects/p ...

  9. Scrapy框架安装配置小结

    Windows 平台: 系统是 Win7 Python  2.7.7版本 官网文档:http://doc.scrapy.org/en/latest/intro/install.html 1.安装Pyt ...

随机推荐

  1. BZOJ 1927: [Sdoi2010]星际竞速 [上下界费用流]

    1927: [Sdoi2010]星际竞速 题意:一个带权DAG,每个点恰好经过一次,每个点有曲速移动到他的代价,求最小花费 不动脑子直接上上下界费用流过了... s到点连边边权为曲速的代价,一个曲速移 ...

  2. Uva 11077 Find the Permutations [置换群 DP]

    题意: 给定$n$和$k$,问有多少排列交换$k$次能变成升序 $n \le 21$ $uva$貌似挂掉了$vjudge$上一直排队 从某个排列到$1,2,...,n$和从$1,2,...,n$到某个 ...

  3. POJ 2187 Beauty Contest [凸包 旋转卡壳]

    Beauty Contest Time Limit: 3000MS   Memory Limit: 65536K Total Submissions: 36113   Accepted: 11204 ...

  4. FileBeat安装配置

    在ELK中因为logstash是在jvm上跑的,资源消耗比较大,对机器的要求比较高.而Filebeat是一个轻量级的logstash-forwarder,在服务器上安装后,Filebeat可以监控日志 ...

  5. yii2 源码分析 Component类分析 (二)

    转载请注明链接http://www.cnblogs.com/liuwanqiu/p/6739538.html 组件(component),是Yii框架的基类,实现了属性.事件.行为三类功能,它集成自o ...

  6. 用最简单的例子实现jQuery图片即时上传

    [http://www.cnblogs.com/Zjmainstay/archive/2012/08/09/jQuery_upload_image.html] 最近看了一些jQuery即时上传的插件, ...

  7. Java中InputStream装饰器模式的大家族

    本文写在po主初学JAVA时,在学习inputStream摸不着头脑,受Java IO-InputStream家族 -装饰者模式一文启发,所以在理清思路时写下本文.因为初学,如有错误,望指正. 因为和 ...

  8. 工作中代码笔记 -- adb命令篇

    1.抓log方法 (bat文件) mkdir D:\logcatset /p miaoshu=请描述操作:adb logcat -v threadtime > D:\logcat\%miaosh ...

  9. 巧用Dictionary<TKey,TValue>,完成客户需求

    前几天与客户沟通一个项目,客户对其中某个模块提了一个需求. 把从数据库中取出的对物品的统计重新拆分重新统计.鉴于用文字不能清除的表达需求,我将该需求画出来,便于理解. 需求如下图: 就是A,B,C D ...

  10. Tomcat启动出现:Failed to start component [StandardEngine[Catalina].StandardHost[localhost].StandardContext[/SpringMvc]]解决办法

    严重: ContainerBase.addChild: start: org.apache.catalina.LifecycleException: Failed to start component ...