scrapy 数据存储mysql

#spider.py
from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from Cwpjt.items import CwpjtItem

class FulongSpider(CrawlSpider):

    name = 'fulong'

    allowed_domains = ['sina.com.cn']

    start_urls = ['http://sina.com.cn/']

    'http://news.sina.com.cn/c/2017-05-09/doc-ifyeycte9324112.shtml'

    rules = (

        Rule(LinkExtractor(allow=('.*?/[0-9]{4}.[0-9]{2}.[0-9]{2}.doc-.*?shtml'),allow_domains=('sina.com.cn')),

             callback='parse_item', follow=True),

    )

    def parse_item(self, response):

        i = CwpjtItem()

        i['name']=response.xpath('/html/head/title/text()').extract()

        i['kws'] = response.xpath('/html/head/meta[@name="keywords"]/@content').extract()

        #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()

        #i['name'] = response.xpath('//div[@id="name"]').extract()

        #i['description'] = response.xpath('//div[@id="description"]').extract()

        return i

pipeline

import pymysql

from pymysql import connections

class CwpjtPipeline(object):

    def __init__(self):

        self.conn = pymysql.connect(host='127.0.0.1',user='root',passwd='',db ='mydb')

        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):

        name = item['name'][0]

        kws = item['kws'][0]

        sql ="insert into hehe(title,kws) VALUES(%s,%s)"

        self.cursor.execute(sql,(name,kws,))

        self.conn.commit()

        return item

    def close_spider(self,spider):

        self.conn.close()

item

import scrapy

class CwpjtItem(scrapy.Item):

    # define the fields for your item here like:

    name = scrapy.Field()

    kws = scrapy.Field()

scrapy 数据存储mysql的更多相关文章

python3之scrapy数据存储问题（MySQL）
这次我用的是python3.6,scrapy在python2.7,3.5的使用方法都不同所以要特别注意, 列如在python3.5的开发环境下scrapy 的主爬虫文件可以使用 from urlli ...
python3下scrapy爬虫(第十卷:scrapy数据存储进mysql）
上一卷中我将爬取的数据文件直接写入文本文件中,现在我将数据存储到mysql中,我依然用的是pymysql,这个很麻烦建表需要在外面建这次代码只需要改变pipyline就行来现在看下结果: 对比发 ...
解析数据存储MySQL
为了适应不同项目对不同感兴趣属性的解析存储,数据存储结构采用纵向的属性列表方式,即一个url页面多个属性存储多条记录方式,并且按照text,html, data,num几大典型类型分别对应存储. 创建 ...
python3下scrapy爬虫(第十二卷:解决scrapy数据存储大量数据时阻塞问题）
之前我们使用scrapy爬取数据,用的存储方式是直接引入PYMYSQL,或者MYSQLDB,案例中数据量并不大,这种数据存储方式属于同步过程,也就是上一条语句执行完才能执行下一条语句,当数据量变大时, ...
python3下scrapy爬虫(第十一卷:scrapy数据存储进mongodb）
说起python爬虫数据存储就不得不说到mongodb,现在我们来试一下scrapy操作mongodb 首先开启mongodb mongod --dbpath=D:\mongodb\db 开启服务后就 ...
python3下scrapy爬虫(第九卷:scrapy数据存储进JSON文件）
将爬取数据存储在JSON文件里并不难,只需修改pipelines文件直接看代码: 来看下结果: 中文字符恶心的很之后我会在后卷中做出修改
scrapy数据存储在mysql数据库的两种方式
方法一:同步操作 1.pipelines.py文件(处理数据的python文件) import pymysql class LvyouPipeline(object): def __init__(se ...
scrapy 异步存储mysql
1.在setting中设置MySQL连接信息 HOST='101.201.70.139'MYSQL_DBNAME='anttest'MYSQL_PASSWORD='Myjr678!@#'MYSQL_U ...
Python数据存储 — MySQL数据库操作
本地安装MySQL 调试环境python3.6,调试python操作mysql数据库,首先要在本地或服务器安装mysql数据库. 安装参考:https://mp.csdn.net/postedit/8 ...

随机推荐

Python机器学习介绍（Python Machine Learning 中文版）
Python机器学习机器学习,如今最令人振奋的计算机领域之一.看看那些大公司,Google.Facebook.Apple.Amazon早已展开了一场关于机器学习的军备竞赛.从手机上的语音助手.垃圾邮 ...
I/HwPointEventFilter: do not support AFT because of no config
I/HwPointEventFilter: do not support AFT because of no config 这是华为对系统做了修改,默认不打印日志,要改配置在拨号界面输入:以下进入工 ...
【BZOJ3884】上帝与集合的正确用法（欧拉定理，数论）
[BZOJ3884]上帝与集合的正确用法(欧拉定理,数论) 题面 BZOJ 题解我们有欧拉定理: 当\(b \perp p\)时 \[a^b≡a^{b\%\varphi(p)}\pmod p \] ...
【noip模拟】修长城
Time Limit: 1000ms Memory Limit: 256MB Description 大家都知道,长城在自然条件下会被侵蚀,因此,我们需要修复.现在是21世纪,修复长城的事情当然 ...
intellij idea快捷键字典
最近在重装系统,在安装python IDE时候依然安装了sublime Text3和intellij Idea(冏,别问为什么没安装pycharm,0-0 逃).首先是已然将之前一直使用的sublim ...
springboot+springmvc+mybatis项目整合
介绍: 上篇给大家介绍了ssm多模块项目的搭建,在搭建过程中spring整合springmvc和mybatis时会有很多的东西需要我们进行配置,这样不仅浪费了时间,也比较容易出错,由于这样问题的产生, ...
js---BOW---页面打开方式，跳转方式 2017-03-24
BOM ( browse object model) 一.js页面的三种打开方式 1. window.open 格式: window.open("第一部分", "第二部 ...
CMake 条件判断
CMake简介 CMake 是做什么的? CMake是一套类似于automake的跨平台辅助项目编译的工具. 我觉得语法更加简单易用. CMake的工作流程 CMake处理顶级目录的CMakeList ...
IntelliJ IDEA 源值1.5已过时，将在未来所有版本中删除
1. 修改Maven的Settings.xml文件添加如下内容 <profile> <id>jdk-1.8</id> <activation> < ...
bat脚本：Java一键编译(Javac java)
bat脚本:Java一键编译(Javac java) D: 是指D盘 javat是要编译的.java文件所在的文件夹也就是D:\javat bat代码: :start COLOR 0A cls ...

scrapy 数据存储mysql

scrapy 数据存储mysql的更多相关文章

随机推荐

热门专题