python爬虫中文网页cmd打印出错问题解决

罗兵 2024-10-28 11:16:31 原文

问题描述

用python写爬虫，很多时候我们会先在cmd下先进行尝试。

运行爬虫之后，肯定的，我们想看看爬取的结果。

于是，我们print...

运气好的话，一切顺利。但这样的次数不多，更多地，我们会遇到这样的错误：

UnicodeEncodeError: 'gbk' codec can't encode character

好吧，回去检查网页的编码格式：gb2312

代码中也添加了：r.encoding = 'gb2312'

看不出哪里出了问题，应该没问题的啊！

代码如下：

import requests

from bs4 import BeautifulSoup

url = 'http://bbs.ok226.com/bbs/html/'

r = requests.get(url)

r.encoding = 'gb2312'

soup = BeautifulSoup(r.text, 'html.parser')

# 打印

print(soup.get_text(strip=True))

解决办法：

A.改变控制台编码

网上查，都说是cmd控制台的问题。默认控制台编码gbk

好吧，那就改一下控制台编码，改成gbk的超集gb18030

试试看再说。。。嗯，很好，无报错，但是有乱码，算是解决了问题！

代码如下：

import requests

from bs4 import BeautifulSoup

url = 'http://bbs.ok226.com/bbs/html/'

r = requests.get(url)

r.encoding = 'gb2312'

soup = BeautifulSoup(r.text, 'html.parser')

# 改变控制台编码

import io

import sys

sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

# 打印

print(soup.get_text(strip=True))

B.直接改字符编码

顺着这个思路，再一想，改控制台编码那还不如直接改字符编码：r.encoding = 'gb18030'

试试看再说。哎，没问题了，无报错，无乱码，完美解决！

代码如下：

import requests

from bs4 import BeautifulSoup

url = 'http://bbs.ok226.com/bbs/html/'

r = requests.get(url)

r.encoding = 'gb18030' # 注意网页编码是 gb2312

soup = BeautifulSoup(r.text, 'html.parser')

# 打印

print(soup.get_text(strip=True))

总结

从ASCII、GB2312、GBK到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。

各种编码字符数目

gb2312: 7445 -- 在windows中的代码页是CP936
gbk: 21886 -- 在windows中的代码页是CP936
gb18030: 27484 -- 在windows中的代码页是CP54936
gb13000: 等同于unicode

显然，gb18030 是 gb2312，gbk 的超集

因此，解决问题的思路就是：

如果控制台中，打印中文文本出问题，那就用它的编码的超集进行编码。

python爬虫中文网页cmd打印出错问题解决的更多相关文章

python爬虫抓网页的总结
python爬虫抓网页的总结更多 python 爬虫学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自 ...
python爬虫中文乱码解决方法
python爬虫中文乱码前几天用python来爬取全国行政区划编码的时候,遇到了中文乱码的问题,折腾了一会儿,才解决.现特记录一下,方便以后查看. 我是用python的requests和bs4库来实 ...
Python爬虫之网页图片抓取
一.引入这段时间一直在学习Python的东西,以前就听说Python爬虫多厉害,正好现在学到这里,跟着小甲鱼的Python视频写了一个爬虫程序,能实现简单的网页图片下载. 二.代码 __author ...
Python爬虫解析网页的4种方式值得收藏
用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存 ...
python爬虫前程无忧网页抓取
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
Python爬虫中文小说网点查找小说并且保存到txt(含中文乱码处理方法)
从某些网站看小说的时候经常出现垃圾广告,一气之下写个爬虫,把小说链接抓取下来保存到txt,用requests_html全部搞定,代码简单,容易上手. 中间遇到最大的问题就是编码问题,第一抓取下来的小说 ...
python爬虫之网页解析
CSS Selector 与Xpath path = ‘D:\\Postgraduate\\Python\\python_projects\\Python视频分布式爬虫Scrapy入门到精通\\第 ...
Python 爬虫去掉网页注释，去掉网页注释
在爬虫中,我们遇到了网页注释的问题,这些内容,第一,耗费内存资源,第二,在解析网页的时候,不易匹配出来信息.那么我们该如何去掉他们呢??? 我们可以去使用正则去过滤掉他们方法如下 result = ...
python爬虫中文乱码问题（request方式爬取）
https://blog.csdn.net/guoxinian/article/details/83047746 req = requests.get(url)返回的是类对象其包括的属性有: r ...

随机推荐

iOS 公司开发者账号申请
苹果开发者账号分三种. 个人账号:个人申请用于开发苹果app所使用的账号,仅限于个人使用,申请比较容易,$99. 公司账号:以公司的名义申请的开发者账号,用于公司内部的开发者共用,$99. 企业账号: ...
C语言-11-可变参数的实现方案
概述某种情况下,我们可能需要一个具有可变参数的函数,C语言提供了一种标准的实现可变参数的方法 C语言实现可变参数的方案是基于标准库的可变参数的类型可变参数可以放在一个集合中,可以使用指针类型的参 ...
《极客学院－－NSAttributedString 使用详解－4－UITextKit 简介》学习笔记（待处理）
如果要在富文本中添加图片的话,用UITextKit才能实现. 什么是UITextKit:它就是处理富文本的框架. 什么时候使用UITextKit:比如要实现图文混搭的节目. 在gitHub中 http ...
MySQL 强制操作以及order by 使用
我们以MySQL中常用的hint来进行详细的解析,如果你是经常使用Oracle的朋友可能知道,Oracle的hincvt功能种类很多,对于优化sql语句提供了很多方法. 同样,在MySQL里,也有类似 ...
Effective Java 33 Use EnumMap instead of ordinal indexing
Wrong practice: Putting sets into an array indexed by the type's ordinal /** * Added demo for the &q ...
MyCat 学习笔记第十篇.数据分片之 ER分片
1 应用场景这篇来说下mycat中自带的er关系分片,所谓er关系分片即可以理解为有关联关系表之间数据分片.类似于订单主表与订单详情表间的分片存储规则. 本文所说的er分片分为两种: a. 依据主键 ...
一次由于字符集问题引发的MySQL主从同步不一致问题追查
近期业务准备上线一个新功能,灌入数据之后突然发现主从同步停止,报错如下: Error 'Duplicate entry '66310984-2014-04-18 00:00:00--122815.sh ...
MFC获取光标相对于控件所在行
获取光标在控件上所在的行数 /*editControl为Edit Control的变量*/ CPoint point = editControl.GetCaretPos(); //获取光标相对于控件的 ...
图片延迟加载（lazyload）的实现原理
此前在浏览一些网站的时候,发现他们网站的图片都是你“鼠标”滚到哪,图片才会加载显示.当时觉得好神奇,怎么会这么“跟手”呢. 核心原理是: 1 设置一个定时器,计算每张图片是否会随着滚动条的滚动,而出现 ...
#include <NOIP2008 Junior> 双栈排序 ——using namespace wxl;
题目描述 Tom最近在研究一个有趣的排序问题.如图所示,通过2个栈S1和S2,Tom希望借助以下4种操作实现将输入序列升序排序. 操作a 如果输入序列不为空,将第一个元素压入栈S1 操作b 如果栈S1 ...