Python 爬虫 —

0. 创建网络爬虫的常规方法

进入命令行（操作系统的命令行，不是 python 的命令行）
- windows：cmd ⇒ c:\Uses\Adminstrator>
- Linux：$
执行：scrapy startproject myfirstproj

会自动创建一些文件：
- __init__.py items.py
- pipelines.py settings.py spiders

1. settings.py

settings.py 是爬虫的主要配置文件，其中的几个配置项为：

USER_AGENT（用户代理，简称 UA），也即向 http 发请求时，表明自己的身份，这里为了演示的需要，我们将其（真实身份是爬虫）伪造成浏览器，改成：
```
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
```
ROBOTSTXT_OBEY表示是否遵守robots协议（被封禁的不抓取），因为我们的目的不纯，所以我们不遵守，改成
```
ROBOTSTXT_OBEY = False
```
DOWNLOAD_DELAY 表示对同一个站点抓取延迟，也就是抓一个，歇一会，再抓一个，再歇一会，为了对对方站点冲(yi)击(bei)太(fa)大(xian)，我们调整为1，也就是一秒抓一个
CONCURRENT_REQUESTS_PER_DOMAIN 表示对同一个站点并发有多少个线程抓取，同样道理，我们也调整为 1
CONCURRENT_REQUESTS_PER_IP 同理也调整为 1

2. 爬虫程序的编写

接着我们进入 spiders 文件夹，创建第一个爬虫程序，如下：

import scrapy

class MySpider(scrapy.Spider):

    name = 'zhang'

            # 该项目名，启动时也用这个名字

    allowed_domains= ['blog.csdn.net']

    start_urls = [

        'http://blog.csdn.net/lanchunhui'

    ]

            # response.url ⇒ 'http://blog.csdn.net/lanchunhui'

    def parse(self, response):

        filename = response.url.split('/')[-2] + '.html'

        with open(filename, 'wb') as f:

            f.write(respobse.body)

这里面 start_urls 是初始抓取时的种子链接（seed），parse 方法在抓取完成后自动调用，会把抓取回来的 body 内容写到以 .html 为结尾的文件中。

然后退到上一级目录执行：

> scrapy crawl zhang

执行完成后会多出来一个 blog.csdn.net.html 文件，内容就是http://blog.csdn.net/lanchunhui 网页的内容

3. items.py

items.py 是抓取结果解析出来的结构体；

4. 页面解析

页面解析，这是所有的网络爬虫不能忽略的功能，而且是最核心的部分。python 库用于页面解析的有 BeautifulSoup（速度慢）和 Ixml（非标准库），Scrapy 基于 Ixml 实现了一套页面解析工具，叫做 Selectors。

其使用也十分简单，创建 TestSelectors.py 文件如下：

from scrapy.selector import Selector

from scrapy.http import HtmlResponse

body = '<html><body>hello<span>world</span></body></html>'

span_text = Selector(text=body).xpath('//span/text()').extract()

print(span_text)

进入终端，执行：

> python TestSelectors.py

[u'world']

注意：

如果想获取文本，调用 selector 的 xpath 方法后要调用 extract() 方法
如果想找到第一个匹配 xpath 的内容，需要调用 extract_first() 方法

5. 调试页面解析

scrapy 提供了极为简单的页面解析方法，直接执行

> scrapy shell www.baidu.com

...

In [1]:

进入调试终端，可以直接使用 request、response 等变量来做各种操作尝试.

Python 爬虫 —— scrapy的更多相关文章

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)
操作环境:python3 在上一文中python爬虫scrapy框架--人工识别知乎登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前 ...
python爬虫Scrapy(一)-我爬了boss数据
一.概述学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...
python爬虫scrapy项目详解（关注、持续更新）
python爬虫scrapy项目(一) 爬取目标:腾讯招聘网站(起始url:https://hr.tencent.com/position.php?keywords=&tid=0&st ...
Python爬虫Scrapy框架入门（0）
想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy. scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述.专心记录我自己遇到的问题 ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
安装python爬虫scrapy踩过的那些坑和编程外的思考
这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用.但是以前一直用的java和php,对python不熟悉,于是花一天时 ...
Python 爬虫-Scrapy爬虫框架
2017-07-29 17:50:29 Scrapy是一个快速功能强大的网络爬虫框架. Scrapy不是一个函数功能库,而是一个爬虫框架.爬虫框架是实现爬虫功能的一个软件结构和功能组件集合.爬虫框架是 ...
python爬虫scrapy学习之篇二
继上篇<python之urllib2简单解析HTML页面>之后学习使用Python比较有名的爬虫scrapy.网上搜到两篇相应的文档,一篇是较早版本的中文文档Scrapy 0.24 文档, ...
Python爬虫Scrapy(二)_入门案例
本章将从案例开始介绍python scrapy框架,更多内容请参考:python学习指南入门案例学习目标创建一个Scrapy项目定义提取的结构化数据(Item) 编写爬取网站的Spider并提 ...
python爬虫----scrapy框架简介和基础应用
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以 ...

随机推荐

VIM使用说明
[vim 命令-移动光标]:h 的鍵位于左邊,每次按下就會向左移動.l 的鍵位于右邊,每次按下就會向右移動.j 鍵看起來很象一支尖端方向朝下的箭頭.k朝上移动. [vim 命令-启动和退出]:1. 請 ...
ORACLE中的Net Configuration Assistant 点击后无反应, sqlplus登录数据库提示Oracle11g ORA-12560: TNS: 协议适配器错误
首先是对于点击无反应问题: 如果是客户端下的Net Configuration Assistant可用,而服务器端的Net Configuration Assistant等工具不可用的原因如下. 环境 ...
go初探 - 生成随机整数
func RandInt64(min, max int64) int64 { if min >= max || min == 0 || max == 0 { return max } rand. ...
C#中使用split分割字符串的几种方法小结
1.用字符串分隔: using System.Text.RegularExpressions;string str="aaajsbbbjsccc";string[] sArray= ...
js导出报表
原文链接:https://blog.csdn.net/qq_37936542/article/details/78376156 需求:项目中有一个学生签到模块需要导出每天的签到数据,一开始用poi在后 ...
前端js实现打印（导出）excel表格
产品原型: 图片.png 功能需求:点击导出考勤表格按钮,会自动下载成Excel格式图片.png 图片.png jsp页面代码: <div class="tools"> ...
小强的HTML5移动开发之路（46）——汇率计算器【2】
在上一篇中我们完成了汇率计算页面,下面来完成汇率设置页面的显示. <div class="setRates"> <div class="header&q ...
Birt
http://www.eclipse.org/birt/ 咖啡图 http://www.kafeitu.me/activiti/2012/05/26/kft-activiti-demo.html
Qt 打开安卓相冊选择图片并获取图片的本地路径
Qt 打开安卓相冊选择图片并获取图片的本地路径过程例如以下: 通过 Intent 打开安卓的系统相冊. 推荐使用 QAndroidJniObject::getStaticObjectField 获取 ...
CEO 系列之一：如何当好创业公司 CEO？（不要用战术的勤奋掩盖战略的懒惰，在创业过程中，最核心问题，就是能把创业情怀变成具体问题。这个问题越具体越好）
1. 创业公司要先定一个目标,要善于把目标简化, 分解成一个, 一个更具体,更简单的问题2. 针对简单的问题进行聚焦, 做深做强3. 在做的过程中, 把断地推出自己的产品到市场上去试错, 要用事实来证 ...

Python 爬虫 —— scrapy