Python爬取中文页面的时候出现的乱码问题(续)

我在上一篇博客中说明了在爬取数据的时候，把数据写入到文件的乱码问题

在这一篇里面我做一个总结：

1、首先应该看一个案例

我把数据写在.py文件中：

#coding:utf-8

s = 'hehe测试中文字符'
ss = u'hehe测试中文字符'
uu = s.decode('utf-8')

print s #输出乱码
print uu #正常
print ss #正常

这里需要对中文数据进行编码，输出正常

2、我们针对爬取回来的数据

在读取页面数据的时候已经对其编码 response.read().decode('utf-8')

在把数据写入到数据库的时候，只需要把数据库的连接指定为 utf-8 就可以

MySQLdb.Connect(host=v_host,port=int(v_port),user=v_user,passwd=v_passwd,db=v_db,charset='utf8')

3、可以直接把读取来的数据直接写入到数据库中，不会出现乱码

py文件的其他地方不需要在进行其他的编码，仅仅是在读取response里面的数据的时候进行编码一次

4、在设置Mysql编码的时候切记是：utf8，中间没有横杠

不然会报错：_mysql_exceptions.OperationalError: (2019, “Can’t initialize character set utf-8

Python爬取中文页面的时候出现的乱码问题(续)的更多相关文章

Python爬取中文页面的时候出现的乱码问题
一.读取返回的页面数据在浏览器打开的时候查看源代码,如果在头部信息中指定了UTF-8 那么再python代码中读取页面信息的时候,就需要指定读取的编码方式: response.read().deco ...
python爬取网站页面时，部分标签无指定属性而报错
在写爬取页面a标签下href属性的时候,有这样一个问题,如果a标签下没有href这个属性则会报错,如下: 百度了有师傅用正则匹配的,方法感觉都不怎么好,查了BeautifulSoup的官方文档,发现一 ...
python 爬取html页面
#coding=utf-8 import urllib.request def gethtml(url): page=urllib.request.urlopen(url) html=page.rea ...
Python爬取网址中多个页面的信息
通过上一篇博客了解到爬取数据的操作,但对于存在多个页面的网址来说,使用上一篇博客中的代码爬取下来的资料并不完整.接下来就是讲解该如何爬取之后的页面信息. 一.审查元素鼠标移至页码处右键,选择检查元素 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
Python爬取跑男的评论，看看大家都在看谁吧
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于菜J学Python,作者: J哥 Python爬取爬取腾讯视频弹幕视频讲解 http ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...

随机推荐

P5596 洛谷月赛题题解
因为a>=0,b>=0,所以y^2-x^2>=0,所以y>x,因为都是自然数设y=x+k,化简得x=b-k^2/2*k-a;可知x仅当b-k^2%2*k-a==0且b-k^2与 ...
python中判断变量的类型
python的数据类型有:数字(int).浮点(float).字符串(str),列表(list).元组(tuple).字典(dict).集合(set) 一般通过以下方法进行判断: 1.isinstan ...
mysql 导出导入sql 文件
C:\Users\Eric>mysqldump -uroot -p demo->数据库名 > C:\Users\Eric\demo.sql 导出目录地址导入 sq ...
MySQL中的索引简介
MySQL中的SQL的常见优化策略 MySQL中的索引优化 MySQL中的索引简介一. 索引的优点为什么要创建索引?这是因为,创建索引可以大大提高系统的查询性能. 第一.通过创建唯一性索引,可以保 ...
P多行溢出省略号的处理
因为-webkit-line-clamp: 2不兼容火狐或IE,采用判断浏览器的方式来启用哪个方式先判断是什么浏览器 //判断是否是谷歌浏览器 if (!stripos($_SERVER[" ...
EditPlus配置Java编译器
一.环境说明系统: windows 7 64位 editplus version: 4.3 二.设置步骤打开工具中的配置用户工具: 找到用户工具User tools,点击组名Group Name ...
vue-nuxt--切换布局文件
1.暂时没有找到服务器端渲染非服务器端切换: window.$nuxt.setLayout('blog')
Docker下载镜像出现failed to register layer: symlink....问题
在用Docker下载RabbitMQ的时候出现如下问题个人解决方案:重启Docker. 若重启还是无法解决问题,可以先关闭Docker systemctl stop docker 然后把已下载的相关 ...
Linux之RedHat7如何更换yum源
目前,我们常见的系统大概就是Windows.Linux和Mac OS了.Windows系统应该是大部分人最早开始接触的系统,毕竟Windows系统使用起来相当方便,只需要点点鼠标,外加会简单的打字,一 ...
【writeup】is_numeric函数矛盾运用
最近在BugkuCTF平台刷题,遇到‘矛盾’http://120.24.86.145:8002/get/index1.php,感觉蛮有意思的,记录下思路目标代码如下: $num=$_GET['num ...

Python爬取中文页面的时候出现的乱码问题(续)

Python爬取中文页面的时候出现的乱码问题(续)的更多相关文章

随机推荐

热门专题