一、字符的编码和解码

　　和网页打交道，首先解决的就是web页面的编码方式，不幸的是不同网站的页面编码方式基本不相同，有的是gb2312，有的是utf-8，有的是gbk，下面是我查看我以后需要的网站源码后得出的web页面的编码方式：

di = { 'gb2312':['http://www.sina.com.cn','http://www.people.com.cn/','http://www.people.com.cn/'

                 ,'http://www.163.com/','http://www.qq.com/'],

      'gbk':['http://www.sohu.com'],

      'utf-8':['http://www.huanqiu.com/','http://www.xinhuanet.com/']

      }

　　这个python字典，我会一直手动更新的。为什么需要手动更新呢？因为我不会动态的检测web页面的编码方式，虽然说HTTP的Header中有content的编码方式，即Content-Type这一项，但是上面的网站基本上都没有在Content-Type中表明编码方式，翻墙看了一下谷歌，youtube和facebook，在Content-Type里面都表明了编码方式，一般都为utf-8。

　　知道了编码方式，就要解码了，因为BeautifulSoup先将html页面全部转码为unicode的，所以在将html页面传入BeautifulSoup中的时候，先解码,如果html的字符编码为gb2312：

response = urllib2.urlopen(url).read().decode('gb2312','ignore')

bs = BeautifulSoup(response)

　　如果你想将unicode字符编码为特定的编码方式：　　

response = urllib2.urlopen(url).read().decode('gb2312','ignore').encode('utf-8')

　　因为业务场景不一样，我只需要抓取部分网站的页面，所以我手动查看了上面几个网站的编码方式。当然有其它的方法了，见我在stackoverflow上的提问：http://stackoverflow.com/questions/28184863/how-to-decode-and-encode-web-page-with-python 。

二、解压

很多网站为了减少流量，将页面压缩。常见的压缩方式为gzip，随便百度一下就可以收到解压gzip文件的代码：

def unzip(data):

        import gzip

        import StringIO

        data = StringIO.StringIO(data)

        gz = gzip.GzipFile(fileobj=data)

        data = gz.read()

        gz.close()

        return data

其它的压缩方式暂不讨论。

三、一个很丑陋的demo

# -*- coding: utf-8 -*-

'''

Created on 2015年1月28日

@author: zhang

'''

from bs4 import BeautifulSoup

result = {}

key_word = u'李克强'

def unzip(data):

        import gzip

        import StringIO

        data = StringIO.StringIO(data)

        gz = gzip.GzipFile(fileobj=data)

        data = gz.read()

        gz.close()

        return data

def init_bs(url,encoding):

    import urllib2

    html_doc = ''

    respone = urllib2.urlopen(url)

    header = respone.info()

    if 'Content-Encoding' in header:

        if header['Content-Encoding'] == 'gzip':

            html_doc = unzip(respone.read()).decode(encoding,'ignore')

        else:

            pass

    else:

        html_doc = respone.read().decode(encoding,'ignore')

    return(BeautifulSoup(html_doc))

def get_target(soup):

    for link in soup.find_all('a'):

        text = link.get_text()

        if text.find(key_word) != -1:

            result[link.get('href')] = text

di = { 'gb2312':['http://www.sina.com.cn','http://www.people.com.cn/','http://www.people.com.cn/'

                 ,'http://www.163.com/','http://www.qq.com/'],

      'gbk':['http://www.sohu.com'],

      'utf-8':['http://www.huanqiu.com/','http://www.xinhuanet.com/']

      }

for k,v in di.iteritems():

    for url in v:

        soup = init_bs(url,'gb2312')

        get_target(soup)

for k,v in result.iteritems():

    print k,v

Python学习－使用BeautifulSoup来解析网页一：基础入门的更多相关文章

Python学习笔记之爬取网页保存到本地文件
爬虫的操作步骤: 爬虫三步走爬虫第一步:使用requests获得数据: (request库需要提前安装,通过pip方式,参考之前的博文) 1.导入requests 2.使用requests.get ...
python学习(25) BeautifulSoup介绍和实战
BeautifulSoup是python的html解析库,处理html非常方便 BeautifulSoup 安装 pip install beautifulsoup4 BeautifulSoup 配合 ...
python学习之----BeautifulSoup的find()和findAll()及四大对象
BeautifulSoup 里的find() 和findAll() 可能是你最常用的两个函数.借助它们,你可以通过标签的不同属性轻松地过滤HTML 页面,查找需要的标签组或单个标签. 这两个函数非常 ...
python学习笔记——爬虫中提取网页中的信息
1 数据类型网页中的数据类型可分为结构化数据.半结构化数据.非结构化数据三种 1.1 结构化数据常见的是MySQL,表现为二维形式的数据 1.2 半结构化数据是结构化数据的一种形式,并不符合关系 ...
python学习之BeautifulSoup模块爬图
BeautifulSoup模块爬图学习HTML文本解析标签定位网上教程多是爬mzitu,此网站反爬限制多了.随意找了个网址,解析速度有些慢.脚本流程:首页获取总页数-->拼接每页URL--> ...
使用BeautifulSoup高效解析网页,再也不用担心睡不着觉了
BeautifulSoup是一个可以从 HTML 或 XML 文件中提取数据的 Python 库那需要怎么使用呢? 首先我们要安装一下这个库 1.pip install beautifulsoup4 ...
python学习-迭代器，列表解析和列表生成式
迭代器为类序列对象提供了一个类序列的接口.Python 的迭代无缝的支持序列对象,而且还允许程序猿迭代非序列类型,包括用户定义的对象. 迭代器是一个next()方法的对象,而不是通过索引计数.当需要下 ...
Python学习笔记之参数解析
python提供了两种方法进行命令行的参数解析,分别是getopt和optparse类中的模块OptionParser,下面分别详细了解这两个模块: 1.getopt模块首先复习C语言的命令行解析: ...
Python学习---xml文件的解析[beautifulsoup4模块学习]
1.1. 安装beautifulsoup4 pip install beautifulsoup4 [更多参考]https://blog.csdn.net/sunhuaqiang1/article/de ...

随机推荐

God of War - HDU 2809（状态压缩+模拟）
题目大意:貌似是一个游戏,首先给出卢布的攻击,防御,还有血量,再给出每升一级增加的攻击防御还有血量,然后又N个敌人,杀死每个敌人都会得到一些经验,求杀死完所有敌人时剩余的最大血量. 分析:因为敌人比较 ...
[置顶] linux下让php支持mysql——寻找消失的mysql
问题最近我都在忙一个课件录制系统.这两天发现其中服务器端的一个更新数据库的php脚本运行有问题,一些本应该是系统自带函数却无法运行.于是我展开了调查... 服务器端是centos系统,其中ph ...
Magento网站迁移指南
"Magento网站迁移指南":关键词:magento 网站迁移指南上周五,为mkt同事迁移了一个从本机到godaddy的magento系统. 中间出了不少状况, 现在写个迁 ...
winform Label与DataGridView右对齐分类： WinForm 2014-05-19 20:51 446人阅读评论(0) 收藏
实现Label与DataGridView对齐有两种方法,差别不大: 定义: Label名称:lblName DataGridView名称:dgvData 第一种: lblName.Location = ...
jquery 手机图片切换例子网址
http://m.swdhy.com/page/ShowCompany.aspx?cid=388481&name=山东潍坊金城服装有限公司
Android中RelativeLayout的字符水平（垂直居中）对齐
[背景] 此处Android中显示出来的TextView中的内容,水平中间不对其. 想要实现水平居中对齐. [折腾过程] 1.搜: android RelativeLayout horizontal ...
java中的mmap实现--转
什么是mmap mmap对于c程序员很熟悉,对于java程序员有点陌生.简而言之,将文件直接映射到用户态的内存地址,这样对文件的操作不再是write/read,而是直接对内存地址的操作. 在c中提供了 ...
iOS--NSAttributedString使用介绍
iOS–NSAttributedString使用介绍原文见: http://www.itnose.net/detail/6177538.html http://***/html/topnews201 ...
ios-点击屏幕，隐藏键盘
ios-点击屏幕,隐藏键盘 - (void)getFirstRegist{ //结束键盘编辑 __weak typeof(self)weakSelf = self; UITapGestureRecog ...
FreeCodeCamp 的 Basic Algorithm Scripting 题解（1）
这是本人的原创文章,转载请注明原文链接http://www.cnblogs.com/wusuowiaaa1blog/p/5932121.html. 1.Reverse a String 翻转字符串先 ...

Python学习 － 使用BeautifulSoup来解析网页一：基础入门

一、字符的编码和解码

二、解压

三、一个很丑陋的demo

Python学习 － 使用BeautifulSoup来解析网页一：基础入门的更多相关文章

随机推荐

热门专题

Python学习－使用BeautifulSoup来解析网页一：基础入门

Python学习－使用BeautifulSoup来解析网页一：基础入门的更多相关文章