【Python3爬虫】Scrapy入门教程

TM0831 2024-10-12 09:58:52 原文

Python版本：3.5 系统：Windows

一、准备工作

需要先安装几个库（pip，lxml，pywin32，Twisted，pyOpenSSL），这些都比较容易，如果使用的是Pycharm，就可以更方便的安装模块，在settings里可以选择版本进行下载。

如果在命令行模式下输入pip -V出现 'pip' 不是内部或外部命令，也不是可运行的程序或批处理文件，先确保自己在环境变量中配置E:\Python3.5\Scripts，如果环境变量配置没有问题，但还是出现 'pip' 不是内部或外部命令，也不是可运行的程序或批处理文件，可以在命令行模式下输入python -m pip install --upgrade pip，这步操作之后应该就没问题了。

二、安装scrapy库

在E盘新建一个Scrapy文件夹，然后进入文件夹，shift+鼠标右键，然后打开命令窗口。

在命令行窗口里输入pip install scrapy，就会安装scrapy的最新版本，安装好了之后输入scrapy -h查看相应信息。

三、创建项目

在开始爬取之前，我们必须创建一个新的Scrapy项目。进入我们打算存储代码的目录中，运行下列命令:：

scrapy startproject Test

该命令将会创建包含下列内容的Test 目录:

Test/
    Test/
        __init__.py
    items.py
    pipelines.py
    settings.py
    spiders/
    __init__.py

这些文件分别是：

Test/: 该项目的python模块。之后您将在此加入代码。

Test/items.py: 项目中的item文件.

Test/pipelines.py: 项目中的pipelines文件.

Test/settings.py: 项目的设置文件.

Test/spiders/: 放置spider代码的目录.

做完上述准备工作之后，就可以开始写我们的第一个scrapy项目了。（n_n）

【Python3爬虫】Scrapy入门教程的更多相关文章

[转]Scrapy入门教程
关键字:scrapy 入门教程爬虫 Spider 作者:http://www.cnblogs.com/txw1958/ 出处:http://www.cnblogs.com/txw1958/archi ...
Scrapy入门教程
关键字:scrapy 入门教程爬虫 Spider作者:http://www.cnblogs.com/txw1958/出处:http://www.cnblogs.com/txw1958/archive ...
Scrapy入门教程(转)
关键字:scrapy 入门教程爬虫 Spider作者:http://www.cnblogs.com/txw1958/出处:http://www.cnblogs.com/txw1958/archive ...
2019-03-22 Python Scrapy 入门教程笔记
Python Scrapy 入门教程入门教程笔记: # 创建mySpider scrapy startproject mySpider # 创建itcast.py cd C:\Users\theDa ...
scrapy爬虫框架入门教程
scrapy安装请参考:安装指南. 我们将使用开放目录项目(dmoz)作为抓取的例子. 这篇入门教程将引导你完成如下任务: 创建一个新的Scrapy项目定义提取的Item 写一个Spider用来爬行 ...
python之scrapy入门教程
看这篇文章的人,我假设你们都已经学会了python(派森),然后下面的知识都是python的扩展(框架). 在这篇入门教程中,我们假定你已经安装了Scrapy.如果你还没有安装,那么请参考安装指南. ...
网页爬虫--scrapy入门
本篇从实际出发,展示如何用网页爬虫.并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序.正因为是程序,所以获得网页的速度可以轻易超过单 ...
使用scrapy入门教程
创建项目 scrapy startprogect demo 创建爬虫 scrapy genspider myDomain madomian.com 直接创建文件也可以运行爬虫 scrapy craw ...
爬虫框架Scrapy的第一个爬虫示例入门教程
我们使用dmoz.org这个网站来作为小抓抓一展身手的对象. 首先先要回答一个问题. 问:把网站装进爬虫里,总共分几步? 答案很简单,四步: 新建项目 (Project):新建一个新的爬虫项目明确目 ...

随机推荐

ssh登录远程服务器
在终端输入ssh 用户名@IP地址, 比如输入用户名和密码,进入目录,即可查看修改文件,启动服务. 这和安装xshell和filelizza,终端有什么区别? useradd guangbo pas ...
【Codeforces 321E / BZOJ 5311】【DP凸优化】【单调队列】贞鱼
目录题意: 输入格式输出格式思路: DP凸优化的部分单调队列转移的部分坑点代码题意: 有n条超级大佬贞鱼站成一行,现在你需要使用恰好k辆车把它们全都运走.要求每辆车上的贞鱼在序列中都是连 ...
展开被 SpringBoot 玩的日子《四》 Session 会话共享
共享Session-spring-session-data-redis 分布式系统中,sessiong共享有很多的解决方案,其中托管到缓存中应该是最常用的方案之一. Spring Session官方说 ...
leetcode-求众数
题目:求众数给定一个大小为 n 的数组,找到其中的众数.众数是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素. 你可以假设数组是非空的,并且给定的数组总是存在众数. 示例 1: 输入: [3,2,3 ...
delegate异步
using System; using System.Runtime.Remoting.Messaging; using System.Threading; using System.Threadin ...
curl命令行请求
curl -H "Content-Type: application/json" -X POST --data 'json post数据' -i http://xxx
java课程之团队开发冲刺阶段1.5
一.总结昨天进度 1.昨天由于时间较少,没有太多的时间来进行学习Sqlite 二.遇到的困难 1.由于最终的程序需要调用本地的数据库,所以我们需要在安装程序的时候就需要直接附带安装一个本地的数据库到手 ...
LIS的优化算法O（n log n)
LIS的nlogn的优化:LIS的优化说白了其实是贪心算法,比如说让你求一个最长上升子序列把,一起走一遍. 比如说(4, 2, 3, 1, 2,3,5)这个序列,求他的最长上升子序列,那么来看,如果求 ...
mysqldump 导出中文乱码
命令:mysqldump -uroot -p test > /data/test.sql 导出后的数据库打开是乱码,如下: 开始以为打开的方式不对,就用记事本打开后,用utf-8的编码格式另保存 ...
Java实现堆排序和计数排序
堆排序代码: 思想:每次都取堆顶的元素,将其放在序列最后面,然后将剩余的元素重新调整为最小堆,依次类推,最终得到排序的序列. import java.util.Arrays; /** * 思路:首先要 ...