Scrapy爬虫实例教程（二）---数据存入MySQL

本文将详细描述使用scrapy爬去左岸读书所有文章并存入本地MySql数据库中，文中所有操作都是建立在scrapy已经配置完毕，并且系统中已经安装了Mysql数据库（有权限操作数据库）。

为了避免读者混淆，这里也使用tutorial作为scrapy project名称（工程的名字可以有读者自己定制）。

1. 建立tutorial工程

 scrapy startproject tutorial

上述命令运行完毕后会得到tutorial（或者自定义名称）的目录，使用tree命令可以查看tutorial的目录结构，如下图所示

2. 解析左岸文章结构

左岸读书为读者提供了一些优美文章，喜欢的读者可以自行订阅（在这里提博主打广告啦[不用谢^_^]）

　站中所有文章都以列表的形式列出，每篇文章链接都给出了文章摘要和相应的信息（如作者，发布时间，分类信息，阅读量等信息）在列表底端给出了下一个列表的链接，具体如下图所示

点击相应的文章题目可以链接到具体的文章内容页面，读者可以自己实验试下，这里不再赘述。

3. 建立mysql数据库

建立mysql数据库 crawed

 create database crawed;

 use crawed;

在数据库中建立zreading数据表，这里我们要抓取文章标题，作者，文章发表日期，文章类别，文章标签，阅读量及文章内容，建立如下数据表

 CREATE TABLE `zreading` (

   `title` varchar(100) NOT NULL,

   `author` varchar(50) NOT NULL,

   `pub_date` varchar(30) DEFAULT NULL,

   `types` varchar(50) DEFAULT NULL,

   `tags` varchar(50) DEFAULT NULL,

   `view_counts` varchar(20) DEFAULT '',

   `content` text

 ) ENGINE=InnoDB DEFAULT CHARSET=utf8;

4. 在items.py中编写需要抓取的内容

items.py是爬虫根据用户兴趣定义爬去内容的文件，用户可以根据自己的需求，定义相应的class，爬虫在解析网页时根据解析规则生成item类对象

这里根据我们步骤3中的数据类别建立如下类：

 class TutorialItem(scrapy.Item):

     # define the fields for your item here like:

     # name = scrapy.Field()

     title = scrapy.Field()

     author = scrapy.Field()

     pub_date = scrapy.Field()

     types = scrapy.Field()

     tags = scrapy.Field()

     view_count = scrapy.Field()

     content = scrapy.Field()

5. 编辑pipelines.py文件

pipelines.py是设置抓取内容存储方式的文件，例如可以存储到mysql或是json文件中，读者可以根据自己实际需求选择相应的方式，本例中选择存储到mysql中。

 from twisted.enterprise import adbapi

 import MySQLdb

 import MySQLdb.cursors

 from scrapy.crawler import Settings as settings

 class TutorialPipeline(object):

     def __init__(self):

         dbargs = dict(

             host = 'your host' ,

             db = 'crawed',

             user = 'user_name', #replace with you user name

             passwd = 'user_password', # replace with you password

             charset = 'utf8',

             cursorclass = MySQLdb.cursors.DictCursor,

             use_unicode = True,

             )

         self.dbpool = adbapi.ConnectionPool('MySQLdb',**dbargs)

     '''

     The default pipeline invoke function

     '''

         def process_item(self, item,spider):

             res = self.dbpool.runInteraction(self.insert_into_table,item)

                 return item

         def insert_into_table(self,conn,item):

                 conn.execute('insert into zreading(title,author,pub_date,types,tags,view_counts,content) values(%s,%s,%s,%s,%s,%s,%s)', (item['title'],item['author'],item['pub_date'],item['types'],item['tags'],item['view_count'],item['content']))

6. 在settings.py中设置pipeline

当使用pipeline保存抓取内容时，需要设置相应的pipeline类，以便让系统知道根据什么方式进行存储，在settings.py中加入一下代码

 ITEM_PIPELINES = {

     'tutorial.pipelines.TutorialPipeline': 300,

 }

7. 解析网页，抓取需要内容

经过以上6步，所有的配置的工作已经结束，接下来，我们的重点就是如何从网页中解析出我们所需要的内容，在解析过程中需要借助一些开发插件，比如firefox的firebug，chrome的开发者工具，本例中使用chrome的开发工具。

在这一步我们需要编写网页解析的具体逻辑-如何处理网页，得到我们所需的内容。在spiders目录下，新建zreading.py文件，然后定义zreadingCrawl爬虫（继承scrapy的BaseSpider即可）

 class zreadingCrawl(BaseSpider):

     name = "zreading" # the name of spider

     allowed_domain = ['zreading.cn'] # allowed domain for spiders

     start_urls = [

     'http://www.zreading.cn'  #the start url / the entrance of spider

     ]

具体的解析过程如下：

a. 首先解析左岸的文章列表，使用chrome的开发者工具，在文章标题处右击，点击检查，然后复制为xpath路径。在解析网页是就可以根据这个路径定位到你所需的内容，这里我们只是想获得文章的连接，所有我们只需要提取文章题目链接的

href属性值即可，在文章目录页中，有两种我们需要的链接，一种是文章内容的链接，另一种则是文章列表的下一页，对于文章内容链接我们可以直接请求响应的URL，然后解析内容即可；而对于目录链接则可以从头解析（也即请求目录页然后进一步解析）。

由上述可知，这是一个不断循环的过程，直至没有下一页为止。

b. 在解析的过程中，对于每次的解析内容，都需要进行处理，如在提取标题时，得到的内容前后包括很多空格，而且为了避免在数据库出现乱码，所有数据都编码成utf8。这里我们需要编写

c. 具体代码如下（在zreadingCrawl中添加如下函数）：

 def parse(self,response):

         if response.url.endswith('html'):    

             item = self.parsePaperContent(response)

         else:

             # get all the page links in list Page

             sel = Selector(response)

             links = sel.xpath('//*[@id="content"]/article/header/h2/a/@href').extract()

             for link in links:

                 yield Request(link,callback=self.parse)

             # get the next page to visitr

             next_pages = sel.xpath('//*[@id="content"]/div/a[@class="next"]/@href').extract()

             if len(next_pages) != 0:

                 yield Request(next_pages[0],callback=self.parse)

             # record the list page

         yield item

 def parsePaperContent(self,response):

         print "In parsse paper content function......"

         # get the page number  '5412.html'

         #  page_id = response.url.split('/')[-1].split('.')[0] ----- OK

         r  =re.match(r'\d+',response.url.split('/')[-1])

         page_id = r.group()

         # instantie the item

         zding = TutorialItem()

         sel = Selector(response)

         #add tilte

         title = sel.xpath("//div[@id='content']/article/header/h2/text()").extract()[0]

         s_title = title.encode("utf-8")

         zding['title'] = s_title.lstrip().rstrip()

         #add pub_date

         pub_date = sel.xpath('//*[@id="'+page_id+'"]/div[2]/span[1]/text()').extract()[0]

         s_pub_date = pub_date.encode("utf8")

         zding['pub_date'] = s_pub_date.lstrip().rstrip()

         #add author

         author = sel.xpath('//*[@id="'+page_id+'"]/div[2]/span[2]/a/text()').extract()[0]

         s_author = author.encode("utf8")

         zding['author'] = s_author.lstrip().rstrip()

         #add tags including type and paper tags

         tags = sel.xpath('//*[@id="'+page_id+'"]/div[2]/a/text()').extract()

         tags = [s.encode('utf8') for s in tags]

         zding['types'] = tags[0]

         zding['tags'] = "+".join(tags[1:])

         #add view count

         views = sel.xpath('//*[@id="'+page_id+'"]/div[2]/span[3]/text()').extract()[0]

         r = re.search(r'\d+',views)

         view_count = int(r.group())

         zding['view_count'] = view_count

         #add content

         content = sel.xpath('//*[@id="'+page_id+'"]/div[3]/p/text()').extract()

         zding['content'] = "\n".join(content)

         #return the item

         return zding

8. 在命令行下运行

 scrapy crawl zreading

在屏幕中会闪解析过的网页和解析得到的item，等运行完毕后查看数据库中的zreading表的内容，这里因为文章较长，不再单独贴图。

*****声明：本帖纯粹是个人兴趣爱好，绝无其他任何恶意。本人很喜欢看左岸的文章，恰逢学习scrapy，就以此为例。在此声明，本帖只是技术解析，绝无转载。*****

Scrapy爬虫实例教程（二）---数据存入MySQL的更多相关文章

Scrapy 爬虫实例教程（一）---简介及资源列表
Scrapy(官网 http://scrapy.org/)是一款功能强大的,用户可定制的网络爬虫软件包.其官方描述称:" Scrapy is a fast high-level screen ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影
前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大家讲解一个完整爬虫的流程. 工具和环境语言:python 2 ...
scrapy爬虫学习系列二：scrapy简单爬虫样例学习
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
Silverlight实例教程 - Validation数据验证开篇
Silverlight 4 Validation验证实例系列 Silverlight实例教程 - Validation数据验证开篇 Silverlight实例教程 - Validation数据验证基础 ...
简单scrapy爬虫实例
简单scrapy爬虫实例流程分析抓取内容:网站课程页面:https://edu.hellobi.com 数据:课程名.课程链接及学习人数观察页面url变化规律以及页面源代码帮助我们获取所有数据 ...
Silverlight实例教程 - Validation数据验证DataAnnotation机制和调试技巧（转载）
Silverlight 4 Validation验证实例系列 Silverlight实例教程 - Validation数据验证开篇 Silverlight实例教程 - Validation数据验证基础 ...
Silverlight实例教程 - Validation数据验证基础属性和事件（转载）
Silverlight 4 Validation验证实例系列 Silverlight实例教程 - Validation数据验证开篇 Silverlight实例教程 - Validation数据验证基础 ...
scrapy爬虫实例(1)
爬虫实例对象阳光问政平台目标 : 主题,时间,内容爬取思路预先设置好items import scrapy class SuperspiderItem(scrapy.Item): title ...

随机推荐

SMD晶振发展和智能手机的普及总是惊人的相似!
其实触屏手机在2002年前后就已经出现了,但那个时候的触屏手机不算是现在的这种智能手机,有人说最早发行触屏手机的是诺基亚,也有人说是苹果还有人认为摩托罗拉.总之众说纷纭,小编那里还太小也并不是很了解, ...
Azure IoT Hub和Event Hub相关的技术系列-索引篇
Azure IoT Hub和Event Hub相关的技术系列,最近已经整理了不少了,统一做一个索引链接,置顶. Azure IoT 技术研究系列1-入门篇 Azure IoT 技术研究系列2-设备注册 ...
window.opener的用法
window.opener 主要用来打开窗体的父窗体,可以通过这种方式设置父窗体的值或者调用js方法. 例如: 1,window.opener.test(); ---调用父窗体中的test()方法 2 ...
简单物联网：外网访问内网路由器下树莓派Flask服务器
最近做一个小东西,大概过程就是想在教室,宿舍控制实验室的一些设备. 已经在树莓上搭了一个轻量的flask服务器,在实验室的路由器下,任何设备都是可以访问的:但是有一些限制条件,比如我想在宿舍控制我种花 ...
Visual Studio Code 使用心得
Visual Studio Code 使用心得最好用的跨平台编辑器,没有之一! 修改编辑器的显示语言起因:vsCode又升级了(1.13.0),重启之后发现熟悉的中文菜单没有了,而且设置文件 se ...
浅谈Windows下SVN在Android Studio中的配置、基本使用及解除关联
看到网上很多关于svn环境配置和关联Android-Studio的很多博文,发现很零散,想集大家所长整理一下: 在AndroidStudio中开发版本控制中,除了Git就是SVN,和Eclipse不同 ...
DOUAudioStreamer 中kqueue的应用
DOUAudioStreamer是一个基于Core Audio的流式音频播放器,其中的DOUAudioEventLoop通过kqueue来控制音频的各种状态. kqueue简介(详情请看官方manua ...
使用类似于中介者模式实现不同VC之间的跳转
在2013年的时候,我们就已经实现了类似于http地址进行页面跳转, 那个时候,主要是用继承ViewController和给 UIViewController和UINavigationControll ...
ASP.NET MVC5（三）：表单和HTML辅助方法
表单的使用 Action和Method特性 Action特性用以告知浏览器信息发往何处,因此,Action特性后面需要包含一个Url地址.这里的Url地址可以是相对的,也可以是绝对的.如下Form标签 ...
homebrew & brew cask使用技巧及Mac软件安装
homebrew 安装 /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/m ...

Scrapy爬虫实例教程（二）---数据存入MySQL

Scrapy爬虫实例教程（二）---数据存入MySQL的更多相关文章

随机推荐

热门专题