【scrapy】关于爬取的内容是Unicode编码

自己练习爬取拉钩网信息的时候爬取的信息如下：

{'jobClass': [u'\u9500\u552e\u52a9\u7406'],
'jobUrl': u'https://www.lagou.com/zhaopin/xiaoshouzhuli/'}
2018-08-10 15:35:48 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lagou.com/>

中文都是经过编码的：

写这个爬虫列子的网友说使用如下方法：

通过阅读源码知道，在scrapy.exporters 的 JsonLinesItemExporter类中，对数据进行了编码。所以我们可以在spiders文件夹的同级目录下创建一个文件夹，名字随意，比如我新建了recode,在该文件夹中创建一个init.py文件，在里面写一个类继承JsonLinesItemExporter，并且设置不要任何编码，如果你是pyCharm，会在新建python package时自动生成init.py文件，在文件中添加如下代码：

from scrapy.exporters import JsonLinesItemExporter

class recodes(JsonLinesItemExporter):

    def __init__(self, file, **kwargs):

        super(recodes,self).__init__(file, ensure_ascii = None)

然后打开settings.py文件，在其中添加配置：

    FEED_EXPORTERS_BASE = {

    'json': 'First.recode.recodes',#这个位置注意是文件索引，根据你实际情况修改。

    'jsonlines' : 'scrapy.contrib.exporter.JsonLinesItemExporter'}

然鹅，我并没有成功，导出来的json仍然是编码过的

后来找了个更加简单的方式就是在setting.py里添加

FEED_EXPORT_ENCODING = 'utf-8'
这样导出的json数据就能正常显示中文啦

【scrapy】关于爬取的内容是Unicode编码的更多相关文章

简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
教程+资源,python scrapy实战爬取知乎最性感妹子的爆照合集(12G)!
一.出发点: 之前在知乎看到一位大牛(二胖)写的一篇文章:python爬取知乎最受欢迎的妹子(大概题目是这个,具体记不清了),但是这位二胖哥没有给出源码,而我也没用过python,正好顺便学一学,所以 ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...
使用scrapy框架爬取全书网书籍信息。
爬取的内容:书籍名称,作者名称,书籍简介,全书网5041页,写入mysql数据库和.txt文件 1,创建scrapy项目 scrapy startproject numberone 2,创建爬虫主程序 ...
Scrapy+selenium爬取简书全站
Scrapy+selenium爬取简书全站环境 Ubuntu 18.04 Python 3.8 Scrapy 2.1 爬取内容文字标题作者作者头像发布日期内容文章连接文章ID 思路分 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...

随机推荐

29.Mongodb可视化工具 Studio 3t
Studio 3T 链接地址:https://pan.baidu.com/s/1X-Sqk50Xm76NJIZOz0ehFw 密码:td2a 安装配置成功链接本地如图所示:
38.纯 CSS 创作阶梯文字特效
原文地址:https://segmentfault.com/a/1190000015107942 HTML code: <div class="container"> ...
springMVC源码学习地址
springmvc工作原理以及源码分析(基于spring3.1.0) 感谢作者宏愿, 在此记录下,以便学习 SpringMVC源码分析(1):分析DispatcherServlet.doDispa ...
VUE.js全局变量的定义
模块化之后,想用js全局变量,遇到点困难.搜索资料后搞定,大概2个步骤: 1.定义一个vue模块,const定义变量,并用export对外暴露. Globle.vue <script> / ...
sql server 2014登录账号
NT Service\MSSQL$MSSQLSERVER2014NT Service\MSSQLSERVER 尝试打开或创建物理文件 'E:\aaa.mdf' 时,CREATE FILE 遇到操作系统 ...
day38-常见第三方模块
1.requests模块 2.psutil模块 3.xlrd模块 4.xlwt模块 5.Paramiko模块
[AS3]as3中splice和slice的用法介绍说明
splice 删除数组一段连续的元素,返回被删除的元素数组 var arr:Array = ["a","b","c","d&quo ...
redis 学习笔记3(哨兵模式下分布式锁的实现以及全局唯一id的生成)
redis实现分布式锁和全局唯一id应该是较为常见的应用. 实现基于redis的setNX,以及incr命令.还是比较简单的! 搭建环境以及配置好sping整合,做了下测试,有兴趣的载下来看看,自己做 ...
新装kafka与zookeeper配置
zookeeper配置 dataDir=/opt/kafka_2.11-2.0.0/data/zookeeper # 尽量不要放在tmp# the port at which the clients ...
1037C_ Equalize(字符串)
modify 改变 C. Equalize time limit per test 1 second memory limit per test 256 megabytes input standar ...

【scrapy】关于爬取的内容是Unicode编码

【scrapy】关于爬取的内容是Unicode编码的更多相关文章

随机推荐

热门专题