Scrapy爬虫入门实例

网上关于Scracpy的讲述已经非常丰富了，而且还有大神翻译的官方文档，我就不重复造轮子了，自己写了一个小爬虫，遇到不少坑，也学到不少东西，在这里给大家分享一下，自己也做个备忘录。

主要功能就是爬取cnvd漏洞库每个漏洞的名称、发布时间，漏洞描述，漏洞编号...

先说下我的环境：

Ubuntu 16.04

python 2.7

scracpy 1.0.3

1、Scracpy的如何自定义UA？

因为某些网站有根据ua做反爬机制，Scracpy已经为我们定义好了处理机制，首先在settings.py中设置处理request的类，然后实现类即可。

settings.py中增加如下内容

#网上找代码，有侵权请通知

WNLOADER_MIDDLEWARES = {

    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None,

    #工程名（cnvd）、类文件名（middlewares）、文件中类名(RotateUserAgentMiddleware)

    'cnvd.middlewares.RotateUserAgentMiddleware':400,

}

在同目录下新建文件Middlewares.py，代码如下

#网上找的代码，有侵权请告知

#!/usr/bin/python

#-*-coding:utf-8-*-  

import random

from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware  

class RotateUserAgentMiddleware(UserAgentMiddleware):

    def __init__(self, user_agent=''):

        self.user_agent = user_agent  

    def process_request(self, request, spider):

        #随机选择list中的ua

        ua = random.choice(self.user_agent_list)

        if ua:

            #设置request头部中的ua信息

            request.headers.setdefault('User-Agent', ua)  

    #the default user_agent_list composes chrome,I E,firefox,Mozilla,opera,netscape

    #for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.php

    user_agent_list = [\

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"\

        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",\

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",\

        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",\

        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",\

        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",\

        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",\

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\

        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\

        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\

        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\

        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\

        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\

        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",\

        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",\

        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

       ]

2、Scracpy中log怎么用？

在网上搜索和官方例子中用的是log.msg("log msg", level=DEBUG)，但是自己使用的时候提示该方法已经被废弃，建议使用python的logging模块。使用方法如下

import logging

logging.debug("msg")

3、yield什么意思

我对python也是一知半解，一直不明白这个是怎么个用法，也说不好，看代码注释吧

#Scracpy会自动向url发一个请求，并使用index_parse解析response

yield scrapy.Request(url, callback=self.index_parse)

#实现回调函数

def index_parse(self, response):

4、Xpath的一些小知识

#获得a标签的href属性值

response.xpath(//tr[@class='current']/td/a/@href)

#查找文本是xxx的标签/对与查找汉字，需要在字符串前加u

response.xpath(u"//td[text()='漏洞描述'])

#找到当前节点的所有兄弟节点

response.xpath(u"//td[text()='漏洞描述']/following-sibling::*")

测试xpath的方法：

1、使用scracpy shell url，会返回一个交互终端，可以使用response.xpath("")查看该url页面的匹配结果。个人不喜欢这种方式，终端操作，不好看。

2、使用firefox插件WebDriver Element Locator，安装之后，当在页面选中元素右击，可以看到该元素的xpath，然并卵，大多时候不是我们想要的方式

3、使用firefox插件firebug，firexpath，在firebug页面会出现一个firepath的框，输入xpath可以测试匹配是否成功，个人比较喜欢这种方式

5、数据库操作

直接上数据库操作的代码

import logging

from cnvd.items import CnvdItem

import MySQLdb

import MySQLdb.cursors

class CnvdPipeline(object):

    def __init__(self):

        self.conn = MySQLdb.connect(user='root', passwd ='', db='cnvddb', host='localhost', charset='utf8')

        self.cursor = self.conn.cursor()

        self.cursor.execute("truncate table cnvd")

        self.conn.commit()

    def process_item(self, item, spider):

        self.cursor.execute("insert into cnvd(cnvd_id, name, time, description) values(%s, %s, %s, %s)",

                           (item['cnvd_id'], item['name'], item['time'], item['description']))

        self.conn.commit()

        logging.debug(item['name'])

        logging.debug(item['cnvd_id'])

        logging.debug(item['time'])

        return item

总结：

曾经使用urllib2写过一个爬虫爬cnnvd上的漏洞库，爬了一天发现网站漏洞页面不能访问来，用手机4G可以访问，猜测是把公司的ip加入黑名单来，本来想用scracpy再实现一个，奈何页面打不开，不好调试。于是选择来cnvd这个漏洞库，不过测试也仅仅是用了一页，没有全爬，担心再被拉黑。各位测试的时候最好也注意一下。。。

附件是完整的代码，仅仅是一个小demo，后来要做的还有数据库查重，反反爬，漏洞其他信息的爬取等等，但是作为一个demo，够用了

完整代码

Scrapy爬虫入门实例的更多相关文章

Scrapy爬虫入门系列3 将抓取到的数据存入数据库与验证数据有效性
抓取到的item 会被发送到Item Pipeline进行处理 Item Pipeline常用于 cleansing HTML data validating scraped data (checki ...
Python Scrapy 爬虫框架实例（一）
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
Python Scrapy 爬虫框架实例
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
10个python爬虫入门实例
昨天和伙伴萌一块学习,写了几个简单的入门实例涉及主要知识点: web是如何交互的 requests库的get.post函数的应用 response对象的相关函数,属性 python文件的打开,保存 ...
Scrapy 爬虫入门 +实战
爬虫,其实很早就有涉及到这个点,但是一直没有深入,今天来搞爬虫.选择了,scrapy这个框架 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tut ...
scrapy爬虫框架实例二
本实例主要通过抓取慕课网的课程信息来展示scrapy框架抓取数据的过程. 1.抓取网站情况介绍抓取网站:http://www.imooc.com/course/list 抓取内容:要抓取的内容是全部 ...
Scrapy爬虫入门Request和Response（请求和响应）
开发环境:Python 3.6.0 版本 (当前最新)Scrapy 1.3.2 版本 (当前最新) 请求和响应 Scrapy的Request和Response对象用于爬网网站. 通常,Request对 ...
Python 爬虫入门实例（爬取小米应用商店的top应用apk）
一,爬虫是什么? 爬虫就是获取网络上各种资源,数据的一种工具.具体的可以自行百度. 二,如何写简单爬虫 1,获取网页内容可以通过 Python(3.x) 自带的 urllib,来实现网页内容的下载. ...
scrapy爬虫框架实例一，爬取自己博客
本篇就是利用scrapy框架来抓取本人的博客,博客地址:http://www.cnblogs.com/shaosks scrapy框架是个比较简单易用基于python的爬虫框架,相关文档:http:/ ...

随机推荐

LeetCode题解之Counting Bits
1.题目描述 2.问题分析利用bitset. 3 代码 vector<int> countBits(int num) { vector<int> v; ; i <= n ...
重学C语言---03数据和C
1.数据的必要性.数据使我们生活中不可缺少的东西,程序也是如次,离不开数据.将文字.图片和单词等输入到算计,将其展现出来或者做一系列操作等. 2.实例程序. /*rhodium.c--用金属铑衡量体重 ...
redie config 详解
# redis 配置文件示例 # 当你需要为某个配置项指定内存大小的时候,必须要带上单位,# 通常的格式就是 1k 5gb 4m 等酱紫:## 1k => 1000 bytes# 1kb =&g ...
python3: 迭代器与生成器(1)
1. 手动遍历迭代器你想遍历一个可迭代对象中的所有元素,但是却不想使用for循环. >>> items = [1, 2, 3] >>> # Get the ite ...
[python]通过uiautomator实现返回当前程序包名
# -*- coding: utf-8 -*- from uiautomator import device as d def getCurrentPackageName(): info = d.in ...
SASS对css的管理
一.SASS简介 SASS是一种CSS的开发工具,提供了许多便利的写法,大大节省了设计者的时间,使得CSS的开发,变得简单和可维护. 本文总结了SASS的主要用法.我的目标是,有了这篇文章,日常的一般 ...
BZOJ3673/3674:可持久化并查集
Description n个集合 m个操作操作: 1 a b 合并a,b所在集合 2 k 回到第k次操作之后的状态(查询算作操作) 3 a b 询问a,b是否属于同一集合,是则输出1否则输出0 0& ...
Spring之Method Injection
对于Spring的多数用户而言,主要的Bean存在形式都是单例,当一个单例需要结合另一个单例协作或者一个非单例与另一个非单例协作时,典型的做法是通过属性的形式注入,但是当两个Bean的声明周期不同时候 ...
lambda函数详解
lambda函数的作用就是可以编写内嵌的无名函数,而不必写成独立的函数: 结构:[]为开始,(参数){函数体} 例如: 1. auto lambdaFun1 = [](int a) {std::cou ...
docker构建Java环境
FROM java:7 COPY . /usr/src/javaapp WORKDIR /usr/src/javaapp RUN javac HelloWorld.java CMD ["ja ...

Scrapy爬虫入门实例

Scrapy爬虫入门实例的更多相关文章

随机推荐

热门专题