一、scrapy 实验爬中国人寿新闻，保存为xml

如需转发，请注明出处：小婷儿的python https://www.cnblogs.com/xxtalhr/p/10517297.html

链接：https://pan.baidu.com/s/1HeIbBuAWjk8uNRl7ZIXh-A
提取码：z3hh

1.1 代码结构

scrapy框架具体内容，请参考

1、scrapy（一）scrapy 安装问题 https://www.cnblogs.com/xxtalhr/p/9170437.html

2、Scrapy 框架（二）数据的持久化 https://www.cnblogs.com/xxtalhr/p/9164186.html

3、scrapy (三）各部分意义及框架示意图详解 https://www.cnblogs.com/xxtalhr/p/9170343.html

4、scrapy （四）基本配置 https://www.cnblogs.com/xxtalhr/p/9169484.html

5、scrapy shell https://www.cnblogs.com/xxtalhr/p/9158651.html

1.2 书写 spiders

 # -*- coding: utf-8 -*-

 import scrapy

 import json

 class RrSpider(scrapy.Spider):

     name = 'rr'

     allowed_domains = ['www.chinalife.com.cn']

     start_urls = ['https://www.chinalife.com.cn/chinalife/xwzx/gsxw/7934bcc5-%d.html' % (i) for i in range(1, 12)]

     def parse(self, response):

         news = response.xpath('//div[@class="easysite-article-content"]/ul/li')

         print('========================================', len(news))

         items = []

         fp = open('./xml-4.xml', 'a', encoding='utf-8')#打开文件，不用手动创建

         for new in news:

             new_date = new.xpath('./span/text()').extract()[0]

             new_title = new.xpath('.//div/span/a/@title').extract_first()

             new_info = new.xpath('.//div/a/span/text()').extract_first()

             new_link = 'https://www.chinalife.com.cn/' + new.xpath('.//div/span/a/@href').extract_first()

             item = {}

             item['date'] = new_date

             item['title'] = new_title

             item['info'] = new_info

             item['link'] = new_link

             fp.write(json.dumps(item))#写入文件

             items.append(item)

             print('+++++++++++++++++++++++++++++++', new_date, new_info, new_link, new_title,)

         fp.close()

         return items

二、修改 setting中 USER_AGENT 和 ROBOTSTXT_OBEY

三、终端执行命令

scrapy crawl rr -o renshou.xml

# ('json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle')

欢迎关注小婷儿的博客：

　　csdn：https://blog.csdn.net/u010986753

　　博客园：http://www.cnblogs.com/xxtalhr/

　　有问题请在博客下留言或加作者微信：tinghai87605025 或 QQ ：87605025

　　python QQ交流群：py_data 483766429

　　OCP培训说明连接：https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA

　　OCM培训说明连接：https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA

　　小婷儿的python正在成长中，其中还有很多不足之处，随着学习和工作的深入，会对以往的博客内容逐步改进和完善哒。

重要的事多做几遍。。。。。。

scrapy实验1 爬取中国人寿官网新闻，保存为xml的更多相关文章

爬虫之爬取斗鱼官网LOL部分主播的状态
一个爬虫小程序爬取主播的排名及观看人数 import re import requests import request class Spider(): url = 'https://www.dou ...
实战爬取Plati官网游戏实时最低价格-Python
需要修改url中的id_r="这个",这个id需要从Battlefield V (plati.ru)中获取,其实也是这个链接中的#s24235. 配合了e-mail推送,其实这个e ...
Scrapy实战篇（一）之爬取链家网成交房源数据（上）
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...
Python Scrapy 爬取煎蛋网妹子图实例（一）
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例爬取煎蛋网妹子图,遗憾的是上周煎蛋网还有妹子图了,但是这周妹子图变成了随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...
Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息下面是我们要爬取的二级页面小说的简介信息: 下面 ...
使用 Scrapy 爬取去哪儿网景区信息
Scrapy 是一个使用 Python 语言开发,为了爬取网站数据,提取结构性数据而编写的应用框架,它用途广泛,比如:数据挖掘.监测和自动化测试.安装使用终端命令 pip install Scrapy ...
爬取西刺网的免费IP
在写爬虫时,经常需要切换IP,所以很有必要自已在数据维护库中维护一个IP池,这样,就可以在需用的时候随机切换IP,我的方法是爬取西刺网的免费IP,存入数据库中,然后在scrapy 工程中加入tools ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
selenium爬取煎蛋网
selenium爬取煎蛋网直接上代码 from selenium import webdriver from selenium.webdriver.support.ui import WebDriv ...

随机推荐

ajax提交form表单问题
form表单提交数据可以省下大量大量获取元素的代码,局部刷新时也可以用ajax提交form表单,但是要先把表单序列化,再把后台javaBean对象序列化,但是你有可能前后台都执行了系列化,但是后台还是 ...
SpringCloud初体验之Eureka
Eureka简介 SpringBoot简化了Spring工程的复杂度,之前复杂的Spring工程被拆分成了一个个小的SpringBoot工程.那么SpringBoot之间如何通讯,相互获取信息呢?这就 ...
Spring - constructor-arg和property的使用示例
一.说明 constructor-arg:通过构造函数注入. property:通过setter对应的方法注入. 二.property使用实例 1.Model代码: public cla ...
Flask 中的特殊装饰器before_request/after_request
before_request :在请求收到之前绑定一个函数做一些事情. after_request: 每一个请求之后绑定一个函数,如果请求没有异常. teardown_request: 每一个请求之后 ...
腾讯Tars环境搭建 ---- centos
1,安装git yum install git 2,下载脚本 git clone https://github.com/tangramor/Tars_Install.git 注意:会有3个脚本,cen ...
excel单元格内换行的方法
方法一:调整单元格格式换行选定单元格,选择“格式→单元格”,在弹出的对话框中单击“对齐”,选中“自动换行”,单击[确定]按钮即可. 方法二:Alt+Enter键(使用强行换行时,系统会同时选择自动换 ...
[iOS] KVC 和 KVO
开发iOS经常会看见KVO和KVC这两个概念,特地了解了一下. 我的新博客wossoneri.com link KVC Key Value Coding KVC是一种用间接方式访问类的属性的机制.比如 ...
山西WebGIS项目总结
有一段时间没写blog了,说实话,最近的心态一直在变化,看了一部日剧,回想了这一年所学所见,感觉生活目标变了. 做国土项目这段时间不是很忙,由于数据一直给不到位,时间拖得很久,所以在这期间也在继续学习 ...
Asp.Net WebApi Get请求整理（一）
Asp.Net WebApi+JQuery Ajax的Get请求整理一.总结 1.Asp.Net WebApi默认不支持Get请求,需要在Action方法上指定[HttpGet], 除非Action ...
EasyUI datagrid.getSelections 没有返回正确的选择行数
Actually i solved the problem. It was because the idField of the table i was using was incorrect. it ...

scrapy实验1 爬取中国人寿官网新闻，保存为xml

一、scrapy 实验 爬中国人寿新闻，保存为xml