python 入门实践之网页数据抓取

这个不错。正好入门学习使用。

1、其中用到 feedparser：

技巧：使用 Universal Feed Parser 驾驭 RSS

http://www.ibm.com/developerworks/cn/xml/x-tipufp.html

请访问 feedparser.org，详细了解 Universal Feed Parser，其中还包括一些下载资料和文档。

feedparser 实际下载地址：

http://code.google.com/p/feedparser/downloads/list

2、另外，需要将文件加上 utf-8 的 bom 头，需要用到 python 写入十六进制字符：

http://linux.byexamples.com/archives/478/python-writing-binary-file/

python 写入十六进制字符

file.write("\x5F\x9D\x3E")

file.close()

3、因为要调试，文件的打开模式改成 w 方便一些。

import urllib
import sys
import re
from feedparser import _getCharacterEncoding as enc
class TagParser:
def __init__(self, value):
self.value = value
def get(self, start, end):
regx = re.compile(r'<' + start + r'.*?>.*</' + end + r'>')
return re.findall(regx, self.value)
if __name__ == "__main__":
baseurl = "http://data.book.163.com/book/section/000BAfLU/000BAfLU"
f = open("test_01.txt", "w")
f.write("\xef\xbb\xbf")
# for ndx in range(0, 56):
for ndx in range(0, 1):
url = baseurl + str(ndx) + ".html"
print "get content from " + url
src = urllib.urlopen(url)
text = src.read()
f1= open("tmp_" + str(ndx) + ".txt", "w")
f1.write(text)
f1.close()
encoding = enc(src.headers, text)[0]
tp = TagParser(text)
title = tp.get('h1 class="f26s tC"', 'h1')
article = tp.get('p class="ti2em"', 'p')
t = re.sub(r'</.+>', '\n', title[0])
t = re.sub(r'<.+>', '\n', t)
data = t
c = ""
for p in article:
pt = re.sub(r'</p>', '\n', p)
c += pt
c = re.sub(r'<.+>', '\n', c)
data += c
data = data.decode(encoding)
f.write(data.encode('utf-8', 'ignore'))
f.close()

python 入门实践之网页数据抓取的更多相关文章

Python爬虫之-动态网页数据抓取
什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新.这意 ...
爬虫---selenium动态网页数据抓取
动态网页数据抓取什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页 ...
吴裕雄--天生自然python学习笔记：WEB数据抓取与分析
Web 数据抓取技术具有非常巨大的应用需求及价值, 用 Python 在网页上收集数据,不仅抓取数据的操作简单, 而且其数据分析功能也十分强大. 通过 Python 的时lib 组件中的 urlpar ...
网页数据抓取工具，webscraper 最简单的数据抓取教程，人人都用得上
Web Scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据.例如知乎回答列表.微博热门.微博评论.淘宝.天猫.亚马逊等电商 ...
Android登录client，验证码的获取，网页数据抓取与解析，HttpWatch基本使用
大家好,我是M1ko.在互联网时代的今天,假设一个App不接入互联网.那么这个App一定不会有长时间的生命周期,因此Android网络编程是每个Android开发人员必备的技能.博主是在校大学生,自学 ...
Python笔记（十一）——数据抓取例子
上班时候想看股票行情怎么办?试试这个小例子,5分钟拉去一次股票价格,预警: #coding=utf-8 import re import urllib2 import time import thre ...
python python 入门学习之网页数据爬虫cnbeta文章保存
需求驱动学习的动力. 因为我们单位上不了外网所以读新闻是那么的痛苦,试着自己抓取网页保存下来,然后离线阅读.今天抓取的是cnbeta科技新闻,抓取地址是http://m.cnbeta.com/wap/ ...
python python 入门学习之网页数据爬虫搜狐汽车数据库
自己从事的是汽车行业,所以首先要做的第一个程序是抓取搜狐汽车的销量数据库(http://db.auto.sohu.com/cxdata/): 数据库提供了07年至今的汽车月销量,每个车型对应一个xml ...
【Android 我的博客APP】1.抓取博客首页文章列表内容——网页数据抓取
打算做个自己在博客园的博客APP,首先要能访问首页获取数据获取首页的文章列表,第一步抓取博客首页文章列表内容的功能已实现,在小米2S上的效果图如下: 思路是:通过编写的工具类访问网页,获取页面源代码, ...

随机推荐

public View getView(int position, View convertView, final ViewGroup parent)三个参数的意思
最近看到有人在问这三个参数的含义,其实帮助已经很详细的介绍了这三个参数,看来还是要好好学学英语了,不然连解释都看不懂. /** * Get a View that displays the d ...
MySql开启跟踪
使用 show variables like '%log%'; 查看general_log.log_output.general_log_file 更新为 set global general_log ...
NDK(20)JNI的5大性能缺陷及优化技巧
转自 : http://www.ibm.com/developerworks/cn/java/j-jni/index.html JNI 编程缺陷可以分为两类: 性能:代码能执行所设计的功能,但运行缓慢 ...
Form验证（转）
代码写 N 久了,总想写得别的.这不,上头说在整合两个项目,做成单一登录(Single Sign On),也有人称之为“单点登录”.查阅相关文档后,终于实现了,现在把它拿出来与大家一起分享.或许大家会 ...
HTML页面导出为Word
protected void btnExport_Click(object sender, EventArgs e) { string strFileName = DateTime.Now.ToStr ...
强势解决：windows 不能在本地计算机中起动Tomcat参考特定错误代码1
Tomcat添加系统服务:service.bat install 启动本服务的时候却提示“windows 不能在本地计算机中起动 Apache Tomcat参考特定错误代码1,若不是Microsoft ...
UVa 1400 (线段树) "Ray, Pass me the dishes!"
求一个区间的最大连续子序列,基本想法就是分治,这段子序列可能在区间的左半边,也可能在区间的右半边,也有可能是横跨区间中点,这样就是左子区间的最大后缀加上右子区间的最大前缀之和. 线段树维护三个信息:区 ...
jquery 字符串转json
这里考虑的都是服务器返回JSON形式的字符串的形式代码如下: var data=" { root: [ {name:'1',value:'0'}, {name:'6101',value:' ...
codevs 1218 疫情控制
啊好烦这道题.... 基本思路网上都有. 注意的一点是在匹配的时候,如果有军队的来源没有被匹配到,那么就先匹配这个来源.(因为不花钱). 不过数据好水.... #include<iostream ...
javascript倒计时代码
其实就是用两个时间戳相减,余数转换为日期,就是所剩的年月日时分秒,不过年份-1970 $scope.timerID = null; $scope.timerRunning = false;$scope ...

python 入门实践之网页数据抓取

python 入门实践之网页数据抓取的更多相关文章

随机推荐

热门专题