爬取51job职位信息之编码问题

兴趣来潮，爬了下51job，但是遇到编码问题！以下是简单的一段代码

获取整个页面数据

# -*- coding:utf-8 -*-

import requests

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

def spider(url):

    session = requests.Session()

    html = session.get(url, headers=headers)

    return html

url = 'http://www.51job.com/'

html = spider(url)

结果：

print html.encoding

>>>ISO-8859-1

html.text中的某一段

print html.text

>>>langs : {

      ts_qxjzw : 'ÇëÑ¡ÔñÖ°Î»' ,

      queren : 'È·ÈÏ' ,

      guanbi : '¹Ø±Õ' ,

      yxdd : 'ÒÑÑ¡µØµã' ,

      yxzn : 'ÒÑÑ¡Ö°ÄÜ' ,

      yxhy : 'ÒÑÑ¡ÐÐÒµ' ,

      nzdnxj : 'Äú×î¶àÄÜÑ¡Ôñ' ,

      xiang : 'Ïî' ,

      xjdq : 'Ñ¡ÔñµØÇø' ,

      xj_xg : 'Ñ¡Ôñ/ÐÞ¸Ä' ,

      zycs : 'Ö÷Òª³ÇÊÐ' ,

      sysf : 'ËùÓÐÊ¡·Ý' ,

      tspd : 'ÌØÊâÆµµÀ',

      qxjgzdd : 'ÇëÑ¡Ôñ¹¤×÷µØµã' ,

      qxjznlb : 'ÇëÑ¡ÔñÖ°ÄÜÀà±ð' ,

      qxjhylb : 'ÇëÑ¡ÔñÐÐÒµÀà±ð' ,

      gzdd : '¹¤×÷µØµã' ,

      buxian : '²»ÏÞ'

    } ,

我设置html.text.decode('ISO-8859-1')，报错！UnicodeEncodeError: 'ascii' codec can't encode characters in position 249-254: ordinal not in range(128)

翻阅了些资料，最终添加了 html.encoding = 'gbk'，搞定！

代码：

# -*- coding:utf-8 -*-

import requests

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

def spider(url):

    session = requests.Session()

    html = session.get(url, headers=headers)

    html.encoding = 'gbk'

    return html

url = 'http://www.51job.com/'

html = spider(url)

展示html中的一段

print html.text

>>>langs : {

      ts_qxjzw : '请选择职位' ,

      queren : '确认' ,

      guanbi : '关闭' ,

      yxdd : '已选地点' ,

      yxzn : '已选职能' ,

      yxhy : '已选行业' ,

      nzdnxj : '您最多能选择' ,

      xiang : '项' ,

      xjdq : '选择地区' ,

      xj_xg : '选择/修改' ,

      zycs : '主要城市' ,

      sysf : '所有省份' ,

      tspd : '特殊频道',

      qxjgzdd : '请选择工作地点' ,

      qxjznlb : '请选择职能类别' ,

      qxjhylb : '请选择行业类别' ,

      gzdd : '工作地点' ,

      buxian : '不限'

    } ,

爬取51job职位信息之编码问题的更多相关文章

【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]
目录前言 XPath的使用方法 XPath爬取数据后言 @(目录) 前言本章同样是解析网页,不过使用的解析技术为XPath. 相对于之前的BeautifulSoup,我感觉还行,也是一个比较常用 ...
node.js爬虫爬取拉勾网职位信息
简介用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京.上海.广州.深圳.杭州.西安.成都7个城市的数据,分别以前端.PHP.java.c++.python.Androi ...
基于selenium爬取拉勾网职位信息
1.selenium Selenium 本是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.而这一特性为爬虫开发提供了一个选择及方向,由于其本身依赖 ...
python爬虫（三）用request爬取拉勾网职位信息
request.Request类如果想要在请求的时候添加一个请求头(增加请求头的原因是,如果不加请求头,那么在我们爬取得时候,可能会被限制),那么就必须使用request.Request类来实现,比 ...
python爬取拉勾网职位信息-python相关职位
import requestsimport mathimport pandas as pdimport timefrom lxml import etree url = 'https://www.la ...
【实战】用request爬取拉勾网职位信息
from urllib import request import urllib import ssl import json url = 'https://www.lagou.com/jobs/po ...
Python的scrapy之爬取51job网站的职位
今天老师讲解了Python中的爬虫框架--scrapy,然后带领我们做了一个小爬虫--爬取51job网的职位信息,并且保存到数据库中用的是Python3.6 pycharm编辑器爬虫主体: im ...
爬取拉勾网招聘信息并使用xlwt存入Excel
xlwt 1.3.0 xlwt 文档 xlrd 1.1.0 python操作excel之xlrd 1.Python模块介绍 - xlwt ,什么是xlwt? Python语言中,写入Excel文件的扩 ...

随机推荐

oracle如何将am,pm时间字符串改为时间格式
问题: 解决办法: 1.param["OPT_DATE"] = DateTime.Parse(dt.Rows[0]["CREATED_ON"].ToString ...
怎样设置table中td的高度为1px
在制作edm时会遇到须要设置td的高度为1px,假设td标签中有时不管你怎么设置td的高度都没用,最小高度都是18px. 这时须要把表格中的去掉.例: 原来是这种: <tr> < ...
Appium - WebView測试(Android)
Appium - WebView測试作者: Max.Bai 时间: 2015/07 Appium - WebView測试(Android) 如今App都是混合型的.有原生的也包括WebView的,a ...
Linux lspci 命令
PCI(Peripheral Component Interconnect,外设部件互连标准),即定义连接外部设备的一个标准: 主板上有很多 PCI 接口,用来连接显卡.网卡.声卡等外部设备,而 ls ...
关于android定位的坐标系问题
按照正常的思路,我们通过GPS或者基站定位等方式获取到经纬度信息后,把它放到地图上,就能够完成定位.但实际上,我们很有可能会在实际操作中发现,我们的定位出现了较大的偏移.这是因为我国出于国家安全(或者 ...
Android性能优化的一些方案
优化Dalvik虚拟机的堆内存分配 1)首先内存方面,可以参考 Android堆内存也可自己定义大小和优化Dalvik虚拟机的堆内存分配对于Android平台来说,其托管层使用的Dalvik Jav ...
CSS-用伪元素制作小箭头（轮播图的左右切换btn）
先上学习地址:http://www.htmleaf.com/Demo/201610234136.html 作者对轮播图左右按钮的处理方法一改往常,不是简单地用btn.prev+btn.next的图片代 ...
xcode7/ios9中低版本app运行时，屏幕上下出现黑边的问题
xcode从低版本升级至 7.0或更高版本后,某些低版本app再次编译运行后,发现app在设备上运行时,会在上端和底部出现黑边的现象.这导致app的展示界面跟缩水了一样,变得十分丑陋. 对于这一问题 ...
rest_framework之解析器详解 05
解析器就是服务端写api,对于前端用户发来的数据进行解析.解析完之后拿到自己能用数据. 本质就是对请求体中的数据进行解析. django的解析器 post请求过来之后,django 的request. ...
move_uploaded_file() 函数
定义和用法 move_uploaded_file() 函数将上传的文件移动到新位置. 若成功,则返回 true,否则返回 false. 语法 move_uploaded_file(file,newlo ...

爬取51job职位信息之编码问题

爬取51job职位信息之编码问题的更多相关文章

随机推荐

热门专题