学习scrapy爬虫框架的一些经验和教训

首先python的scrapy框架很好，功能强大，使用起来也很方便，省去了很多造轮子的时间。在学习的过程中也碰到了一些问题，在这里希望能分享与大家分享，做一个参考

1.安装（pip延时响应问题）

scrapy框架包含了很多包，理论上是通过pip install scrapy命令可直接安装。但实际上还是有很多的问题

问题1：

　　　　　　　　　　在cmd直接输入pip install scrapy，可是网速会显示很慢，最后出现红字报错

　　　　　　　　　　原因：这是网络连接的问题，pip命令会直接在python官网上下载包（官网的速度那就不敢恭维了）

　　　　　　　　　　解决方法：输入 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple [module name]

（这个网站是清华的资源网）

　　　　　　　　　　　　　　　注：如果网速更慢的小伙伴的话，可以在再加上时间元素

　　　　　　　　　　　　　　　　　形如：pip --default-timeout=10000 install package（与上面的方法可以综合使用）

2.所需要的知识储备

　　python基础知识（if while for 继承迭代器异常处理文件操作之类（现用现学也不迟））

　　xpath相关知识，知道如何再xml网页中定位element（https://www.bilibili.com/video/av48794288?from=search&seid=14753612886237754814）

　　css选择器相关知识（https://www.w3school.com.cn/css/index.asp）

　　　　　　　　　　　https://blog.csdn.net/lynnpaul/article/details/79884677

　　正则表达式（B站上全都有）

　　《数据通信与网络第四版》第27章万维网与超文本传输协议（了解web运行的基本原理）

　　掌握上面这些可以基本开始scrapy框架的学习了，后面的知识用到再说

　　*系统性的学习很重要，很重要，很重要。百度只能当作辅助，最好是去看书。好东西都在书里

3.教训

　　　　vscode一定要搭建好环境

　　　　　　推荐阅读：https://www.cnblogs.com/asce/p/11600904.html

　　　　　　　　　　（还有一篇文章找不到了，大意就是配置好环境变量，怎么配置可以自己搜）

4.当scrapy shell出故障时，推荐使用jupyter notebook进行网页分析(刚接触python编程时也推荐使用)

　　补充：通过后续的学习，发现jupyter进行网页分析存在很大一部分局限性。

　　　　　实际上很多网站经典反爬虫机制之一就是会检查User-Agent。当我们直接通过爬虫程序发送请求时，会被网站服务器拒绝(such as经典爬虫练习网站：豆瓣)

　　　　　所以很多时候还是推荐直接使用scrapy框架（已经进行过User-Agent伪装或者模拟）直接分析，比如直接打印所需要的信息来检查xpath语法或者相关解析路径的正确

　　　　　　如何设置随机User-Agent可参考我的另一篇博文：https://www.cnblogs.com/RosemaryJie/p/12336662.html

　　安装：通过pip命令安装，jupyter(模块名)（如何安装详细细节可百度）

　　通过cmd，输入jupyter notebook打开（在cmd中那个文件夹目录下输入命令，文件（file）便储存在哪个文件夹）

　　　　在jupyter中可通过创建selector对象分析网页(selector对象包含了xpath和css方法)

　　　　　　from scrapy.selector import Selector

　　　　　　from scrapy.http import HemlResponse

　　　　　　import requests

　　　　　　Response = requests . get("www.jer0.com")

　　　　　　response = HtmlResponse ( url="www.jer0.com" , body = Response . text , encoding = ' utf-8' )

　　　　　　selector = Selector(response = response)

学习scrapy爬虫框架的一些经验和教训的更多相关文章

scrapy爬虫框架学习笔记(一)
scrapy爬虫框架学习笔记(一) 1.安装scrapy pip install scrapy 2.新建工程: (1)打开命令行模式 (2)进入要新建工程的目录 (3)运行命令: scrapy sta ...
Scrapy 爬虫框架学习笔记(未完，持续更新)
Scrapy 爬虫框架 Scrapy 是一个用 Python 写的 Crawler Framework .它使用 Twisted 这个异步网络库来处理网络通信. Scrapy 框架的主要架构根据它官 ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
Scrapy爬虫框架中的两个流程
下面对比了Scrapy爬虫框架中的两个流程—— ① Scrapy框架的基本运作流程:② Spider或其子类的几个方法的执行流程. 这两个流程是互相联系的,可对比学习. 1 ● Scrapy框架的基本 ...
安装scrapy 爬虫框架
安装scrapy 爬虫框架个人根据学习需要,在Windows搭建scrapy爬虫框架,搭建过程种遇到个别问题,共享出来作为记录. 1.安装python 2.7 1.1下载下载地址 1.2配置环境变 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影
前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大家讲解一个完整爬虫的流程. 工具和环境语言:python 2 ...
Python爬虫教程-31-创建 Scrapy 爬虫框架项目
本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细 Python爬虫教程-31-创建 Scrapy 爬虫框架项目首先说一下,本篇是在 Anaconda 环 ...

随机推荐

Linux搭建nginx+php/php-fpm+mysql环境
百度内部php框架odp有单独的nginx+php/php-fpm环境,但为了更好的实践,自己搭建一套单独的. 1.首先安装nginx 两种方式: 1)yum源安装(使用root权限)yum inst ...
Eclipse添加comment
1.给新增的Java类,自动生成Comment. 打开Preferences,找到Java-->Code Style -->Code Templates-->Comments--&g ...
转：zabbix 更改maps图标
更改Zabbix map图标 Zabbix的maps用来图形化显示监控设备的拓扑图,并且以不同的标记显示故障事件,通过该图表很直观的显示设备的整体情况.系统默认的图标比较简陋,如图十一所示.通过更改系 ...
你相信吗：一加仑汽油可以给iPhone充电20年
一直以来,苹果公司的iPhone系列手机受到了全世界人民的喜欢,很多人就此成为了果粉.或许是由于我们过于在意iPhone系列手机出彩的外形,所以忽略了很多关于iPhone手机有意思的消息,我们今天就来 ...
为什么就连iPhone、三星手机的电池都能出问题？
近年来关于三星.苹果.华为等知名手机厂商电池爆炸的消息一直不断在媒体上报道.这在一定程度上引发了消费者的重度忧虑,也给这些知名手机厂商从一定程度上造成了信任危机.为何连这些知名品牌都无法避免手机电池的 ...
Mongo Delete-19
数据初始化 db.inventory.insertMany( [ { item: "journal", qty: 25, size: { h: 14, w: 21, uom: &q ...
安卓注解处理器-processor
最近在学习安卓开源框架发现,很多的开源框架都使用到了注解处理器,例如EventBus3.0.本文通过一个简单的Demo来介绍如何使用注解处理器.Demo链接为https://github.com/cu ...
5.7之sql_model
问题发生背景今天在部署项目的时候发现,测试后台接口,直接报 500,仔细一看原来是操作数据库的时候报错了,在本地测试的时候是没遇到类似的问题,数据库的版本是一样的,后面查找资料,说是 MySQL 5 ...
扫描神器nmap使用教程
总结 nmap -v 详细信息输出nmap -p 指定端口nmap -iL 扫描文件中的ipnmap -exclude 不扫描某些ipnmap -Pn 使用ping扫描,显式地关闭端口扫描,用于主机发 ...

学习scrapy爬虫框架的一些经验和教训

学习scrapy爬虫框架的一些经验和教训的更多相关文章

随机推荐

热门专题