python爬网页中文乱码问题

再用python爬取网页时，用模拟浏览器登陆，得到的中文字符出现乱码，该怎么解决呢？

url = “http://newhouse.hfhouse.com/”

    req = urllib2.Request(url,headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0" })

    reqHtml = urllib2.urlopen(req).read()

    #print reqHtml

    songtasteHtmlEncoding='utf-8'

    soup = BeautifulSoup.BeautifulStoneSoup(reqHtml,fromEncoding=songtasteHtmlEncoding)

    #print soup

    re_h = re.compile('</?\w+[^>]*>')

    s = len(soup.findAll('a',{"class":"area_list"}))

    finda = soup.findAll('a',{"class":"area_list"})

    i = 0

    while(i<s):

        quyuz = re_h.sub('',str(finda[i])).strip()

        try:

            quyu = quyuz.decode('utf-8').encode('gbk')

        except:

            if quyuz[:3] == codecs.BOM_UTF8:

                quyu = quyuz[3:]

                print quyu.decode("utf-8").encode('gbk')

        #quyu = quyu.decode('utf-8').encode('gbk')

        #number = int(filter(str.isdigit, quyuz))

        #dir2 = make_dir(dir1,quyu)

        value = finda[i]['val']

        houseid = finda[i]['href']

        print houseid,value,quyu

总是报eUnicodeEncodeError: 'gbk' codec can't encode character u'\xe7' in position 0: illegal multibyte sequence，网页head里编码是utf-8该怎么办呢？

python爬网页中文乱码问题的更多相关文章

python json.dumps() 中文乱码问题
python json.dumps() 中文乱码问题 python 输出一串中文字符,在控制台上(控制台使用UTF-8编码)通过print 可以正常显示,但是写入到文件中之后,中文字符都输出成as ...
4k图片爬取+中文乱码
4k图片爬取+中文乱码此案例有三种乱码解决方法,推荐第一种 4k图片爬取其实和普通图片爬取的过程是没有本质区别的 import requests import os from lxml import ...
python cmd 窗口中文乱码解决方法（附：打印不同颜色）
python cmd 窗口中文乱码解决方法 (附:打印不同颜色) 前言在 python 开发中,有时候想通过cmd窗口来和用户交互,比如显示信息之类的,会比自己创建 GUI 来的方便,但是随之而 ...
使用notepad++学习python爬虫，print网页中文乱码问题
今天学习使用python爬虫的时候发现爬到的网页中文会乱码,一直网上搜索解决办法,一个一个试验过去,发现还是乱码,然后我就开始使用其它方法测试,用python自带的编辑器打开是正常的,发现是notep ...
node爬虫之gbk网页中文乱码解决方案
之前在用 node 做爬虫时碰到的中文乱码问题一直没有解决,今天整理下备忘.(PS:网上一些解决方案都已经不行了) 中文乱码具体是指用 node 请求 gbk 编码的网页,无法正确获取网页中的中文(需 ...
python+sublime text2中文乱码[Decode error - output not utf-8]
转自: http://blog.sina.com.cn/s/blog_765abd7b0101dtbw.html 学习,记录一下.中文编码真的挺麻烦.抽空把自己的sb3的配置写一些. 该问题让我纠结了 ...
python输出htmltestrunner中文乱码如何解决
python unittest要产生一个可看的报告,需要借助一个第三方的包下载HTMLTestRunner.py 第三方库 ,参考地址: http://tungwaiyip.info/softwar ...
python查询mysql中文乱码问题
python2.7 查询或者插入中文数据在mysql中的时候出现中文乱码 --- 可能情况: 1.mysql数据库各项没有设置编码,默认为'latin' 2.使用MySQL.connect的时候没有设 ...
解决 VS Code「Code Runner」插件运行 python 时的中文乱码问题
描述这里整理了两种 VS Code「Code Runner」插件运行 python 时乱码的解决方案.至于设置「Auto Guess Encoding」为 true 的操作这里就不多描述了. 乱码截 ...

随机推荐

网上有一种错误的做法是:因为每一个双连通分量内的点low[]值都是相同的，则dfs()时，对于一条边(u,v),只需low[u]=min(low[u],low[v])，这样就不用缩点，最后求度数的时候
Github Pages 建立过程记录
之前建立过一个測试页面. 如今在折腾CreateJS 试着把离线版的文档传到github pages上面. 第一步:创建Repository 第二步:本地初始化主要命令:git init 第三步:复 ...
php抓取网页
用php抓取页面的内容在实际的开发其中是很实用的,如作一个简单的内容採集器,提取网页中的部分内容等等.抓取到的内容在通过正則表達式做一下过滤就得到了你想要的内容.下面就是几种经常使用的用php抓取网页 ...
压缩&&解压命令汇总
下面是搜集的Linux系统下,压缩&&解压命令,以备參考使用. .tar 解包: tar xvf FileName.tar 打包:tar cvf FileName.ta ...
oc2---类
// main.m // 第一个OC类,OC中的类其实本质就是一个结构体, 所以p这个指针其实就是指向了一个结构体,创建一个对象就是创建一个结构体指针, #import <Foundation/ ...
contest hunter 6803 导弹防御塔
没什么好写的.写写这题吧拆点,把一个防御塔拆成m个,表示第i次攻击.瞎yy就好啊 #include<cstdio> #include<iostream> #include&l ...
word2vec (一) 简介与训练过程概要
摘自:http://blog.csdn.net/thriving_fcl/article/details/51404655 词的向量化与word2vec简介 word2vec最初是Tomas Miko ...
mod_wsgi 初体验
1, 安装 ./configure --with-apxs=/usr/local/apache2/bin/apxs --with-python=/usr/bin/python3 make && ...
Docker修改hosts方法
方法一: 直接进入容器中修改/etc/hosts 缺点:重启容器后,增加的内容会丢失方法二: 制作镜像的时候,直接修改. 限制: 需要是root用户,需要在容器中安装sudo 增大了镜像大小方法三 ...
c# 正则表达式regex心得
5.1. C#中的正则表达式的简介 C#中的Regex类处理正则表达式. 5.2. C#正则表达式的语法 5.3. C#中的正则表达式的特点下面总结一些C#中的正则表达式相对于其他语言中的正则表达式 ...

python爬网页中文乱码问题

python爬网页中文乱码问题的更多相关文章

随机推荐

热门专题