Scrapy安装：

1,首先进入虚拟环境
2,使用国内豆瓣源进行安装，快！

 pip install -i https://pypi.douban.com/simple/ scrapy

3,特殊情况出错：缺少c++,解决办法：自己安装了个vs2015

基本命令：

 scrapy --help

     Available commands:

       bench         Run quick benchmark test

       commands

       fetch         Fetch a URL using the Scrapy downloader

       genspider     Generate new spider using pre-defined templates

       runspider     Run a self-contained spider (without creating a project)

       settings      Get settings values

       shell         Interactive scraping console

       startproject  Create new project

       version       Print Scrapy version

       view          Open URL in browser, as seen by Scrapy

   [ more ]      More commands available when run from project directory

   到时候用到再说

创建工程：

　在这里只能通过命令行：pycharm 没有加载scrapy,与Django 不一样
   命令：
       #注意：cd 到所需创建工程的目录下
       scrapy startproject projectname
       默认是没有模板的,还需要自己命令创建
    目录树：（main是后来自己建的）

创建爬虫模板：

好比在Django中创建一个APP，在次创建一个爬虫
   命令：
       #注意：必须在该工程目录下
       #创建一个名字为blogbole,爬取root地址为blog.jobbole.com 的爬虫；爬伯乐在线
       scrapy genspider jobbole blog.jobbole.com

 创建的文件：

 # -*- coding: utf-8 -*-

 import scrapy

 class JobboleSpider(scrapy.Spider):

     #爬虫名字

     name = "jobbole"

     #运行爬取的域名

     allowed_domains = ["blog.jobbole.com"]

     #开始爬取的URL

     start_urls = ['http://blog.jobbole.com']

     #爬取函数

     def parse(self, response):

         #xpath 解析response内容，提取数据

         #//*[@id="post-110769"]/div[1]/h1

         re_selector = response.xpath('//*[@id="post-110769"]/div[1]/h1/text()')

         re2_selector = response.xpath('/html/body/div[3]/div[1]/h1/text()')

         re3_selector = response.xpath('//div[@class="entry-header"]/h1/text()')

         pass

至此，一个爬虫工程建立完毕；

Scrapy基础（二）————Scrapy的安装和目录结构的更多相关文章

第五篇 scrapy安装及目录结构，启动spider项目
实际上安装scrapy框架时,需要安装很多依赖包,因此建议用pip安装,这里我就直接使用pycharm的安装功能直接搜索scrapy安装好了. 然后进入虚拟环境创建一个scrapy工程: (third ...
scrapy基础二
应对反爬虫机制 ①.禁止cookie :有的网站会通过用户的cookie信息对用户进行识别和分析,此时可以通过禁用本地cookies信息让对方网站无法识别我们的会话信息 settings.py里开启禁 ...
爬虫框架Scrapy 之(二) --- scrapy文件
框架简介核心部分: 引擎.下载器.调度器自定义部分: spider(自己建的爬虫文件).管道(pipelines.py) 目录结构 firstSpider firstSpider spiders ...
Scrapy基础(四)————Scrapy的使用Pycharm进行Debuge设置
好比Django的Debuge 与前端进行交互时的方便,但是Scrapy 不自带,所以我们写一个main文件来debuge 作用:通过cmd 命令启动爬虫 #-*-coding:utf-8 -*- # ...
Yii 1.1.17 一、安装、目录结构、视图、控制器、扩展自定义函数
这几天了解了一下Yii框架,以简单的博客项目实战入门.大致的实现流程做个记录. 一.Yii 安装与环境检测从 www.yiiframework.com 获取一份Yii的拷贝,解压到 /wwwroot ...
Nginx安装，目录结构与配置文件详解
1.Nginx简介 Nginx(发音同 engine x)是一款轻量级的Web 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,并在一个BSD-like 协议下发行.由俄罗斯的程序设 ...
Maven进价：Maven的安装和目录结构
一.在windows上安装Maven 1.下载下载地址:http://maven.apache.org/download.html 下载最新版本 maven3.2.5 2.解压解压地址:F:\Ja ...
DedeCMS安装及目录结构
一.安装DedeCMS 1.下载DedeCMS安装包,我下载的版本是DedeCMS-V5.7-UTF8-SP1.tar.gz 官方下载地址 2.解压DedeCMS-V5.7-UTF8-SP1.tar. ...
02_Weblogic课程之安装篇：RedHat下JDK安装，RedHat下Weblogic安装，目录结构，环境变量设置
1 Weblogic的安装方式有三种: 一.GUI方式安装 (java –jar wls1035_generic.jar [-mode=gui])这是默认的二.Console方式安装 ...

随机推荐

Jmeter 谷歌插件工具blazemeter录制脚本
1.下载谷歌浏览器插件工具:blazemeter. 2.在谷歌浏览器中拖放安装扩展工具:blazemeter. 粘贴的图像828x219 13.5 KB 3.测试网站利用这个工具录制jmter脚本. ...
SVN重新设置用户名和密码
在第一次使用TortoiseSVN从服务器CheckOut的时候,会要求输入用户名和密码,这时输入框下面有个选项是保存认证信息,如果选了这个选项,那么以后就不用每次都输入一遍用户名密码了. 不过,如果 ...
C#的值传递与引用传递
值传递:在使用值传递时,是把变量的值传给函数,函数中对此变量的任何修改都不影响该变量本身的值. 引用传递:使用引用传递时,在函数中对此变量的修改会影响变量的值. 说简单点,值传递,就是我把身份证复印件 ...
HTTP 599: SSL certificate problem: unable to get local issuer certificate错误
自己在用 PySpider 框架爬虫运行代码后时出现 HTTP 599: SSL certificate problem: unable to get local issuer certificate ...
java.lang.NoClassDefFoundError: javax/servlet/AsyncListener解决方案
问题:spring3.2的架构在tomcat6.0中无法正常启动,抛出java.lang.NoClassDefFoundError: javax/servlet/AsyncListener错误原因: ...
Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z
1.window操作系统的eclipse运行wordcount程序出现如下所示的错误: Exception in thread "main" java.lang.Unsatisfi ...
uva 11367 (Dijkstra+DP)
题意:一辆汽车在一张无向图中开告诉你每个城市加油的费用.每次给q个查询(起点,终点,油箱容量)问你最小花费是多少. 思路:一道Dijkstra状态的题目.在这种最短路问题中一维的dis数组记录的信息往 ...
构建简单的json树形菜单
json结构: var Menu = [{ tit:"一级菜单", submenu:[{ tit:"二级菜单", url:"", func: ...
Codeforces 639D Bear and Contribution
Bear and Contribution 对于对于5余数为, 0, 1, 2, 3, 4的分别处理一次, 用优先队列贪心. #include<bits/stdc++.h> #define ...
学习Spring必须了解的基础知识——回调机制
上面这张图如果能看得懂就能理解什么是回调机制: A对象在调用a()方法时会调用B对象的b()方法,b()方法必须能调用A对象的callback()方法. 谁白了:a()方法有B对象b()方法的引用,b ...