2019-02-08 Python学习之Scrapy的简单了解

今天遇到的问题和昨天差不多，一个Scrapy装了好久，anaconda卸了又装，pycharm卸了又装，环境变量配置一堆，依赖包下载一堆。查了一堆资料总算是搞好了。

Scripy：

先放个框架结构图（来自嵩天老师mooc）

Scrapy 爬虫的使用步骤

创建一个工程和spider模板
编写spider
编写Item Pipeline
优化配置策略

两种风格的demospider写法：

class DemoSpider(scrapy.Spider):
    name = 'demo'
    #allowed_domains = ['python123.io']
    start_urls = ['http://python123.io/ws/demo.html']	#启动时最开始的链接
    def parse(self, response):			#解析和操作的相关步骤
    	fname = response.url.split('/')[-1]		#文件名叫demo.html(切片，得到最后一个)
    	with open(fname,'wb+') as f:
    		f.write(response.body)
    	self.log = ('saved file %s.'% fname)


class DemoSpider(scrapy.Spider):
	name = "demo"
	def start_requests(self):
		urls = [
				'http://python123.io/ws/demo.html'
				]
		for url in urls:
			yield scrapy.Request(url=url,callback=self.parse)
	def parse(self,response):
		fname = response.url.split('/')[-1]
		with open(fname,'wb') as f:
			f.write(response.body)
		self.log('Save file %s.' % fname)

几种类：

Request类

class scrapy.http.Request()

Request对象生成一个HTTP请求
由Spider生成，由Downloader执行

属性和方法

.url 对应请求的url地址

.method 请求方法

.headers 字典类型风格的请求头

.body 请求内容主题

.meta 用户添加的扩展信息

.copy() 复制该响应

Response类

class scrapy.http.Request()

Response对象表示一个http响应
由downloader生成，spider来处理

属性和方法

.urls Response对应的url地址

.status HTTP状态码

.headers Response对应的头部信息

.body Response对应的内容信息

.flags 一组标记

.request 产生Response类型对应的Request对象

.copy() 复制该响应

Item类

class scrapy.item.Item()

Item对象表示一个从HTML页面中提取的信息内容
由Spider生成，由Item Pipeline进行处理
Item类似字典类型，可以按照字典类型进行相关操作\

Scrapy爬虫提取信息的方法

BeautifulSoup

lxml

re

CSS selector

XPath selector

2019-02-08 Python学习之Scrapy的简单了解的更多相关文章

08 python学习笔记-随机生成大乐透号码（八）
1 #产生大乐透号码 2 #前区 1-32,5 后区 1-12,2 3 #1.前区从1-32中级取5个,后区再从1-12里面取2个 4 #01 02 03 04 5 def dlt(): #生成随机大 ...
CF-1110 (2019/02/08)
CF-1110 A. Parity 快速幂的思想,考虑最后一位即可 #include <bits/stdc++.h> using namespace std; typedef long l ...
python学习笔记(3)--turtle简单绘制
参考:大学生mooc 北京理工大学的python程序与设计课程蟒蛇绘制代码如下: #pythonDraw.py import turtle turtle.setup(650,350,200,200) ...
python学习笔记（excel简单操作）
现在的目标是设计一个接口自动化测试框架用例写在excel里面利用python自带的pyunit构建之前已经安装好了处理excel的模块这次简单的使用下提前创建好excel文件 “testca ...
Python学习笔记3：简单文件操作
# -*- coding: cp936 -*- # 1 打开文件 # open(fileName, mode) # 參数:fileName文件名称 # mode打开方式 # w 以写方式打开. ...
Python学习-字典练习：简单通讯录
功能要求: 查询联系人,输入姓名,可以查询当前通讯录里面的联系人信息,若联系人存在,则输出联系人信息,若不存在,则告知插入联系人,可以向通讯录中新建联系人,若联系人已经存在,则询问是否修改联系人信息 ...
python 学习分享-实战篇简单的ftp
import socket import os import time import pickle Basedb = os.path.dirname(os.path.dirname(os.path.a ...
VS2013中Python学习笔记[Django Web的第一个网页]
前言前面我简单介绍了Python的Hello World.看到有人问我搞搞Python的Web,一时兴起,就来试试看. 第一篇 VS2013中Python学习笔记[环境搭建] 简单介绍Python环 ...
Python学习基础笔记（全）
换博客了,还是csdn好一些. Python学习基础笔记 1.Python学习-linux下Python3的安装 2.Python学习-数据类型.运算符.条件语句 3.Python学习-循环语句 4. ...

随机推荐

Gym101630L Laminar Family
题目链接:https://cn.vjudge.net/problem/Gym-101630L 题目大意: 对于一个集合的集合,若其中任意两个集合 $A$ 和 $B$ 都满足下述三个条件之一:\ ...
树莓派安装pip3以及扩展包的方法
树莓派上有的时候需要安装一些python额外的包,但上面没有安装pip3,因此需要动手去安装pip3,之后用来安装拓展包. 1.首先安装setuptools cd /usr/local/src/ su ...
Thinkphp5 post提交模糊查询带分页如何保留参数
最近做了一个分页的模糊查询post请求,发现查出来的分页点击下一页导致所有的搜索条件被重置,分页效果就失效了. 以下是网上部分解决办法: 控制器代码 public function index($na ...
Msql 给结果拼接字符串
SELECT CONCAT("内容:",info)AS info FROM 表名;
MySQL高可用篇之MHA集群
1 准备工作 1.1 修改主机名 vim /etc/hosts # 添加对应主机 192.168.28.128 mha1 192.168.28.131 mha2 192.168.28.132 mha3 ...
JSP+SSM+Mysql实现的图书馆预约占座管理系统
项目简介项目来源于:https://gitee.com/gepanjiang/LibrarySeats 因原gitee仓库无数据库文件且存在水印,经过本人修改,现将该仓库重新上传至个人gitee仓库 ...
[编辑排版]小技巧---markdown 转 richText
Markdown 使用markdown,可以方便地编辑富文本,VSCode自带了对markdown的支持,编辑完成后可点击右上角预览,实时查看效果. 在github上有给账号,就可以使用GithubP ...
Library source does not match the bytecode for class 最佳解决方案
首先分析问题打完的jar包,编译的后class跟java文件不一致,原因是重新打包后还是引用之前的java文件,不能重新加载新生成的jar. 解决方案方案一 IDEA 工具,点击File > ...
html css javascript实现弹弹球
效果如图: 原创代码: <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> & ...
看板 | 漫话之减少WIP（在制品）
传统的流水线生产模式中,生产流程按生产程序进行划分,而各部分因动作的难度或复杂程度的差异导致用时不同. 例如:一个产品进行组装用时2分钟,完成装箱工作只需10秒.在这种情况下,组装动作用时长.产出慢, ...

2019-02-08 Python学习之Scrapy的简单了解

2019-02-08 Python学习之Scrapy的简单了解的更多相关文章

随机推荐

热门专题