python应用：爬虫框架Scrapy系统学习第三篇—

scrapy的最通用的爬虫流程：UR²IM

　　U：URL

　　R²：Request 以及 Response

　　I：Item

　　M：More URL

在scrapy shell中打开服务器一个网页

　　cmd中执行：scrapy shell http://www.baidu.com （可以使用exit()退出）

此时，scrapy执行一个默认的GET请求，并得到一个状态码为200的响应

可以使用response.body打印页面源码（或部分字符）

例：response.body[:50]

同时，也可使用response.xpath(' ')来测试XPath表达式的效果

例：response.xpath('//*[@id="su"]') 获取百度一下按钮处的源码

　　response.xpath('//*[@id="su"]').xpath('.//@value') 获取上述局部源码中的value属性值

　　注：.//@value是相对XPath表达式；用于获取selector的得到的局部源码中的信息

　　response.xpath('//*[@id="su"]').xpath('.//@value').extract() 获取上述结果中的源码（源码不等于selector，等于data值）

下一步操作是：从响应中将数据抽取到Item的字段中（通常使用/text()获取文本字段）

　　通常，我们使用//*[@id="su"][1]这种形式。

　　目的：为防止结尾某些细微之处的嵌套信息没有注意到

python应用：爬虫框架Scrapy系统学习第三篇——初识scrapy的更多相关文章

python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说
使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<undersco ...
python 网络爬虫框架scrapy使用说明
1 创建项目scrapy startproject tutorial 2 定义Itemimport scrapyclass DmozItem(scrapy.Item): title = scra ...
scrapy系统学习(1)--概要
本文操作环境:ubuntu14.04 一.安装Scrapy/Mysql/MySQLdb 参照官网教程安装Scrapy #sudo apt-key adv --keyserver hkp://keyse ...
python自动化开发-[第二十四天]-高性能相关与初识scrapy
今日内容概要 1.高性能相关 2.scrapy初识上节回顾: 1. Http协议 Http协议:GET / http1.1/r/n...../r/r/r/na=1 TCP协议:sendall(&qu ...
基于Python接口自动化测试框架+数据与代码分离(进阶篇)附源码
引言在上一篇<基于Python接口自动化测试框架(初级篇)附源码>讲过了接口自动化测试框架的搭建,最核心的模块功能就是测试数据库初始化,再来看看之前的框架结构: 可以看出testcase ...
开源框架.netCore DncZeus学习（三）增加一个菜单
框架运行起来了,先尝试增加一个菜单. 本节增加一个菜单名字:公司管理,需要注意一点,所有的name都要保持一致,注意圈中部分.为了防止手敲代码出错,建议复制已有的代代码进行修改(比如这里用的Role页 ...
python应用：爬虫框架Scrapy系统学习第二篇——windows下安装scrapy
windows下安装scrapy 依次执行下列操作: pip install wheel pip install lxml pip install PyOpenssl 安装Microsoft visu ...
python应用：爬虫框架Scrapy系统学习第一篇——xpath详解
HTML的三大概念:标签.元素以及属性标签:尖括号中的文本例:<head>……</head> 标签通常成对出现元素:标签中的所有内容元素中可包 ...
Scrapy：Python的爬虫框架
网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻 ...

随机推荐

web.xml配置错误页面，及输出错误信息
1.需要在web.xml中配置相关信息  <error-page> <error-code>403</error-code ...
【Leetcode】【Medium】Letter Combinations of a Phone Number
Given a digit string, return all possible letter combinations that the number could represent. A map ...
Java字符串工具类
import java.io.ByteArrayOutputStream;import java.io.UnsupportedEncodingException;import java.lang.re ...
使用简单的Java代码在SAP C4C里创建销售订单
需要创建的销售订单的明细通过硬编码指定: 比如销售订单的描述为Jerry Test 2019-1-23 16:05PM 执行之后,看到Status Code 201,说明创建成功: 到UI上能看到成功 ...
API Gateway微服务
微服务中的 API 网关(API Gateway) 前言又是很久没写博客了,最近一段时间换了新工作,比较忙,所以没有抽出来太多的时间写给关注我的粉丝写一些干货了,就有人问我怎么最近没有更新博客了 ...
Python模块(进阶3)
转载请标明出处: http://www.cnblogs.com/why168888/p/6411917.html 本文出自:[Edwin博客园] Python模块(进阶3) 1. python中模块和 ...
利物浦VS热刺，我努力不去想，但利物浦真的在争冠
用这张图作为开头吧,早餐的时候打开网易,苏神破门红军4-0登榜首的新闻,习惯性的点进去看看KOP的评论,有一句回复『利物浦该夺冠了,多少年了.喜欢利物浦比喜欢老婆还早,老婆都成黄脸婆了.现在带着女 ...
Intellij IDEA 快速补全for循环：fori
快速补全for循环:fori 效果:
使用@AspectJ注解开发Spring AOP
一.实体类: Role public class Role { private int id; private String roleName; private String note; @Overr ...
$Yeasion$的码风修改历程
总之,今天是一个值得纪念的伟大日子,我将自己的码风进行了彻底的修改,大概是参考了Pks和$Rqy$的码风,分为以下几点. 1.变量名.在所有的计算符号之前和之后加空格.如:"&& ...

python应用：爬虫框架Scrapy系统学习第三篇——初识scrapy

python应用：爬虫框架Scrapy系统学习第三篇——初识scrapy的更多相关文章

随机推荐

热门专题