windows下使用python的scrapy爬虫框架，爬取个人博客文章内容信息

scrapy作为流行的python爬虫框架，简单易用，这里简单介绍如何使用该爬虫框架爬取个人博客信息。关于python的安装和scrapy的安装配置请读者自行查阅相关资料，或者也可以关注我后续的内容。

本文使用的python版本为2.7.9 scrapy版本为0.14.3

1.假设我们爬虫的名字为vpoetblog

在命令行下切换到桌面目录，输入startproject scrapy vpoetblog 如下图所示:

命令执行成功后会在桌面生成一个名为vpoetblog的文件夹

该文件夹的目录为:

│  scrapy.cfg

│

└─vpoetblog

    │  items.py

    │  pipelines.py

    │  settings.py

    │  __init__.py

    │

    └─spiders

            __init__.py

这里我们要新建一些文件，最终的目录结构如下:

│  scrapy.cfg

│  data.txt   //用于保存抓取到的数据

└─doubanmoive

    │  items.py  //用于定义抓取的item

    │  pipelines.py  //用于将抓取的数据进行保存

    │  settings.py

    │  __init__.py

    │

    └─spiders

	   blog_spider.py  //主爬虫函数 用于定义抓取规则等

            __init__.py

items.py内容如下:

# -*- coding: cp936 -*-
from scrapy.item import Item, Field
class VpoetblogItem(Item):
# define the fields for your item here like:
# name = Field()
article_name = Field() #文章名字
public_time = Field() #发表时间
read_num = Field() #阅读数量

pipelines.py内容如下:

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
from scrapy.exceptions import DropItem
from scrapy.conf import settings
from scrapy import log
class Pipeline(object):
def __init__(self):
print 'abc'
def process_item(self, item, spider):
#Remove invalid data
#valid = True
#for data in item:
#if not data:
#valid = False
#raise DropItem("Missing %s of blogpost from %s" %(data, item['url']))
#print 'crawl no data.....\n'
#if valid:
#Insert data into txt
input = open('data.txt', 'a')
input.write('article_name:'+item['article_name'][0]+' ');
input.write('public_time:'+item['public_time'][0]+' ');
input.write('read_num:'+item['read_num'][0]+' ');
input.close()
return item

settings.py内容如下:

# Scrapy settings for vpoetblog project
#
# For simplicity, this file contains only the most important settings by
# default. All the other settings are documented here:
#
# http://doc.scrapy.org/topics/settings.html
#
BOT_NAME = 'vpoetblog'
BOT_VERSION = '1.0'
SPIDER_MODULES = ['vpoetblog.spiders']
NEWSPIDER_MODULE = 'vpoetblog.spiders'
ITEM_PIPELINES={
'vpoetblog.pipelines.Pipeline':300
}
DOWNLOAD_DELAY = 2
RANDOMIZE_DOWNLOAD_DELAY = True
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'
COOKIES_ENABLED = True

blog_spider.py内容如下:

# -*- coding: utf-8 -*-
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider,Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from vpoetblog.items import VpoetblogItem
class MoiveSpider(CrawlSpider):
name="vpoetblog"
allowed_domains=["blog.csdn.net"]
start_urls=["http://blog.csdn.net/u013018721/article/list/1"]
rules=[
Rule(SgmlLinkExtractor(allow=(r'http://blog.csdn.net/u013018721/article/list/\d+'))),
Rule(SgmlLinkExtractor(allow=(r'http://blog.csdn.net/u013018721/article/details/\d+')),callback="parse_item"),
]
def parse_item(self,response):
sel=HtmlXPathSelector(response)
item=VpoetblogItem()
item['article_name']=sel.select('//*[@class="link_title"]/a/text()').extract()
item['public_time']=sel.select('//*[@class="link_postdate"]/text()').extract()
item['read_num']=sel.select('//*[@class="link_view"]/text()').extract()
return item

运行命令如下:

运行截图如下:

windows下使用python的scrapy爬虫框架，爬取个人博客文章内容信息的更多相关文章

手把手教大家如何用scrapy爬虫框架爬取王者荣耀官网英雄资料
之前被两个关系很好的朋友拉入了王者荣耀的大坑,奈何技术太差,就想着做一个英雄的随查手册,这样就可以边打边查了.菜归菜,至少得说明咱打王者的态度是没得说的,对吧?大神不喜勿喷!!!感谢!!废话不多说,开 ...
Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
scrapy爬虫框架爬取招聘网站
目录结构 BossFace.py文件中代码: # -*- coding: utf-8 -*-import scrapyfrom ..items import BossfaceItemimport js ...
python 爬虫爬取序列博客文章列表
python中写个爬虫真是太简单了 import urllib.request from pyquery import PyQuery as PQ # 根据URL获取内容并解码为UTF-8 def g ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
【python】Scrapy爬虫框架入门
说明: 本文主要学习Scrapy框架入门,介绍如何使用Scrapy框架爬取页面信息. 项目案例:爬取腾讯招聘页面 https://hr.tencent.com/position.php?&st ...
【网络爬虫】【python】网络爬虫（五）：scrapy爬虫初探——爬取网页及选择器
在上一篇文章的末尾,我们创建了一个scrapy框架的爬虫项目test,现在来运行下一个简单的爬虫,看看scrapy爬取的过程是怎样的. 一.爬虫类编写(spider.py) from scrapy.s ...
【Python】【爬虫】爬取酷狗TOP500
好啦好啦,那我们来拉开我们的爬虫之旅吧~~~ 这一只小爬虫是爬取酷狗TOP500的,使用的爬取手法简单粗暴,目的是帮大家初步窥探爬虫长啥样,后期会慢慢变得健壮起来的. 环境配置在此之前需要下载一个谷 ...
Webmagic 爬虫框架爬取马蜂窝、携程旅游、汽车之家游记信息
WebMagic学习遇到的问题 Log4j错误解决:在src目录下添加配置文件 log4j.properties log4j.rootLogger=INFO, stdout, file log4j ...

随机推荐

利用Qt开发跨平台APP（二）（iOS，使用Qt5.9，很详细，有截图）
本文将手把手教你如何使用Qt编译出iOS应用程序. Qt是一个优秀的跨平台开发工具.我们利用Qt可以很方便地将一次编写的应用,多次编译到不同平台上,如Windows.Linux.MAC.Android ...
B - Network---UVA 315（无向图求割点）
A Telephone Line Company (TLC) is establishing a new telephone cable network. They are connectin ...
sql server中带有output的DML
OUTPUT是SQL SERVER2005的新特性.可以从数据修改语句中返回输出.可以看作是"返回结果的DML".INSERT,DELETE,UPDATE均支持OUTPUT子句.在 ...
AngularJS SQL
服务端代码以下列出了列出了几种服务端代码类型: 使用 PHP 和 MySQL.返回 JSON. 使用 PHP 和 MS Access.返回 JSON. 使用 ASP.NET, VB, 及 MS Ac ...
java基础语法数组
数组是相同数据类型元素的集合数组本身是引用数据类型,即对象.但是数组可以存储基本数据类型,也可以存储引用数据类型. 在java中如果想要保存一组基本类型的数据,使用数组:如果想保存一组对象或者其 ...
3.1 Templates -- Handlerbars Basics(Handlerbars基础知识)
一.简介 Ember.js使用Handlerbars模板库来强化应用程序的用户界面.它就像普通的HTML,但也给你嵌入表达式去改变现实的内容. Ember使用Handlerbars并且用许多新特性去扩 ...
Educational Codeforces Round 47
A. Game Shopping 签. #include <bits/stdc++.h> using namespace std; #define N 1010 int n, m, c[N ...
python 中读取yaml
YAML 是专门用来写配置文件的语言,非常简洁和强大,远比 JSON 格式方便. YAML在python语言中有PyYAML安装包. YAML 语言(发音 /ˈjæməl/ )的设计目标,就是方便人类 ...
聊一聊PV和并发、以及计算web服务器的数量的方法(转)
转自:http://www.chinaz.com/web/2016/0817/567752.shtml 最近和几个朋友,聊到并发和服务器的压力问题.很多朋友,不知道该怎么去计算并发?部署多少台服务器才 ...
BNUOJ 26474 Bread Sorting
/*给出n个原始顺序的数,再给出要排成目标状态顺序,每次从第一个数列中选择三个,把这三个数中最右边的数放在最左边,然后其他两个数右移一个单位,为你从原始状态能不能排序成目标状态. 本人YY的结论,从 ...

windows下使用python的scrapy爬虫框架，爬取个人博客文章内容信息

windows下使用python的scrapy爬虫框架，爬取个人博客文章内容信息的更多相关文章

随机推荐

热门专题