打算利用业余时间好好研究Python的web框架--web.py,深入剖析其实现原理,体会web.py精巧之美。但在研究源码的基础上至少得会用web.py。思前想后,没有好的Idea,于是打算开发一个csdn博客专栏下载器,界面不是很好看,还过得去吧。

效果图如下:

为了简单,下载以html格式保存。

下载我自己的博客专栏,目录列表

主界面html文件非常简单,如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>CSDN 博客专栏下载器</title>
<link rel="stylesheet" type="text/css" href="/static/main.css"/>
<script type="text/javascript" src="static/main.js"></script>
</head> <body>
<input type="text" class="name" name="csdnname" id="csdnid"/><br/>
<button type="button" class="btn" onclick="category()">获取专栏</button>
<div id="categorylist">
</div>
<div id="download">
</div>
<div id="status">
</div>
<div id="footer">
</div>
</body>
</html>

获取后端数据使用Ajax,没有用封装好的库,所以看起来很简洁。

function ajax(requesturl,handler){
var xmlhttp;
if (window.XMLHttpRequest){
xmlhttp=new XMLHttpRequest();
}
else{
xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.onreadystatechange=function(){
if (xmlhttp.readyState==4 && xmlhttp.status==200){
handler(xmlhttp.responseText);
}
}
xmlhttp.open("GET",requesturl,true);
xmlhttp.send();
} function category(){
var name=document.getElementById('csdnid').value;
document.getElementById('categorylist').innerHTML=""
if (name==""){
alert("用户名不可以为空");
}
else{
ajax('category'+'?name='+name,function(content){
document.getElementById('categorylist').innerHTML=content;
});
}
} function down(){
var box=document.getElementsByName('check');
var atag=new Array();
for (var i=0; i<box.length; i++) {
if(box[i].checked){
atag.push(box[i].value);
}
}
var astring=atag.join('*');
ajax('down'+'?urls='+astring,function(content){
if(content!=""){
document.getElementById('download').innerHTML=content;
}
else{
document.getElementById('download').innerHTML="正在下载";
}
});
}

ajax函数,一个参数是请求url,另一个是请求成功回调函数。在函数里创建一个XMLHttpRequest对象,发送请求给url,并调用回调函数。

category函数,主要是获取csdn用户ID,并发送给ajax请求获取专栏信息,成功后显示。

down函数,获取选中的复选框,将选中专栏url拼接后发送ajax请求。

主文件,如下

#coding=utf-8
import web
import os
import urllib2
import cookielib
import re
import threading
import thread
import sys reload(sys)
sys.setdefaultencoding('utf8') urls = (
'/','index',
'/category(.*)','category',
'/down','down' )
render = web.template.render('templates/') #所有用到的正则表达式
contentMatch={
'category':re.compile(r"<div id=\"panel_Category\"(.*?)博(.*?)>(.*?)</div>", re.I|re.DOTALL), #专栏显示
'zlalink':re.compile(r"a(\s*)href(\s*)=(\"|')(.*?)(\3)(.*?)>(.*?)</a>",re.I|re.DOTALL), #各个专栏url
'blogalink': re.compile(r"<a(\s*)name(.*?)href(\s*)=(\"|')(.*?)(\4)",re.I|re.DOTALL), #博客链接url
'lastpagenum': re.compile(r"<a(\s*)href=(.*?)\?page=(\d)\">尾页",re.I|re.DOTALL), #尾页链接
'title':re.compile(r"<title>(.*?)</title>",re.I|re.DOTALL)
} class Http:
"""
由于CSDN做了特殊处理,如果使用简单的httplib2.Http().request()会抓取不到数据,所以我们需要模拟真实用户行为,
"""
def __init__(self):
cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())
self.opener = urllib2.build_opener(cookie_support,urllib2.HTTPHandler)
#urllib2.install_opener(opener)
self.opener.addheaders = [("User-agent","Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11"),("Accept","*/*"),("Referer","http://www.google.com")] def open(self,url):
return self.opener.open(url) class index:
"""
首页
"""
def GET(self):
return render.index() class category:
"""
获取专栏信息,并显示相应的复选框
"""
def GET(self,name):
name=web.input(name=None).name
url = "http://blog.csdn.net/"+name
try:
opener=Http()
res=opener.open(url)
content = res.read()
category_match=contentMatch['category'].search(content)
if category_match:
left=category_match.group()
right=""
list_match=contentMatch['zlalink'].findall(left)
for i in range(len(list_match)):
if i%2 == 1:
right+="""
<input type="checkbox" name="check" value="%s" /> %s<br />
""" % (list_match[i][3],list_match[i][6])
submit="""<button type="button" class="btn" onclick="down()">下载专栏</button>"""
return left+right+submit
else:
return "该用户没有开通专栏"
except Exception:
return "请检查网络和用户名" class createfile(threading.Thread):
"""
下载专栏中文章的线程类
"""
def __init__(self,zlurl):
threading.Thread.__init__(self)
self.blogurl=[]
self.opener=Http()
self.zlname=""
try:
res=self.opener.open(zlurl)
content = res.read()
zlname_match=contentMatch['title'].search(content)
if zlname_match:
self.zlname="".join(zlname_match.group(1).split('-')[:-2]).decode('utf8')
if not os.path.exists(self.zlname):
os.mkdir(self.zlname)
else:
thread.exit_thread()
if content.find("尾页") < 0:
self.addblog(content)
else:
page_match=contentMatch['lastpagenum'].search(content)
page=int(page_match.group(3))
for x in range(1,page+1):
url="%s?page=%d" %(zlurl,x) #分页处理
content=self.opener.open(url).read()
self.addblog(content) except Exception,e:
print 'init:'+str(e)
thread.exit_thread() def addblog(self,content): #获取文章url
try:
blogs_match=contentMatch['blogalink'].findall(content)
if blogs_match:
for m in blogs_match:
if m[4] not in self.blogurl:
self.blogurl.append(m[4])
except Exception,e:
print "addblog:"+str(e) def write(self,content): #写入文件
try:
if content !="":
blogtitle="".join(contentMatch['title'].search(content).group(1).split('-')[:-3])
#path="%s%s%s.html" %(self.zlname.encode('utf8'),os.sep,blogtitle)
path="%s.html" % blogtitle
f = open(path.decode('utf8'),"w")
f.write(content.decode('utf8'))
f.close()
except Exception,e:
print "write:"+str(e) def run(self):
try:
print len(self.blogurl)
for blog in self.blogurl:
self.write(self.opener.open(blog).read())
except Exception,e:
print "run:"+str(e) class down:
def GET(self):
urls=web.input().urls
urllist=urls.split('*')
for url in urllist:
file=createfile(url)
file.start()
file.join()
#等待线程结束,结束后返回下载完成
return "下载完成" if __name__=='__main__':
app = web.application(urls,globals())
app.run()

使用了多线程,博主有几个专栏,将启动几个线程,主程序等待线程结束。

在这里也遇到了一个问题,本身是每个专栏一个文件夹,但处理时有点问题,拼接path后open时总是报没有这个文件或文件夹,应该是编码的问题。

留个遗憾,等待各位亲的指教。

python实战--csdn博客专栏下载器的更多相关文章

  1. Python采集CSDN博客排行榜数据

    文章目录 前言 网络爬虫 搜索引擎 爬虫应用 谨防违法 爬虫实战 网页分析 编写代码 运行效果 反爬技术 前言 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知 ...

  2. Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片

    Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片 其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...

  3. Python爬取CSDN博客文章

    0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...

  4. Python 爬取CSDN博客频道

    初次接触python,写的很简单,开发工具PyCharm,python 3.4很方便 python 部分模块安装时需要其他的附属模块之类的,可以先 pip install wheel 然后可以直接下载 ...

  5. python环境变量配置 - CSDN博客

    一.下载: 1.官网下载python3.0系列(https://www.python.org/) 2.下载后图标为: 二.安装: Window下: 1.安装路径: 默认安装路径:C:\python35 ...

  6. Python爬虫小实践:爬取任意CSDN博客所有文章的文字内容(或可改写为保存其他的元素),间接增加博客访问量

    Python并不是我的主业,当初学Python主要是为了学爬虫,以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情,因为我们可以获取一些方面的数据或者其他的东西,反正各有用处. 这两天闲 ...

  7. 在CSDN开通博客专栏后如何发布文章(图文)

    今天打开电脑登上CSDN发现自己授予了专栏勋章,有必要了解如何在专栏发布文章. 很感谢已经有前辈给出了图文教程,此文章转载自博客:http://blog.csdn.net/upi2u/article/ ...

  8. mongodb丢失数据的原因剖析 - 迎风飘来的专栏 - CSDN博客 https://blog.csdn.net/yibing548/article/details/50844310

    mongodb丢失数据的原因剖析 - 迎风飘来的专栏 - CSDN博客 https://blog.csdn.net/yibing548/article/details/50844310

  9. Docker安装elasticsearch-head监控ES步骤 - gmijie的专栏 - CSDN博客

    原文:Docker安装elasticsearch-head监控ES步骤 - gmijie的专栏 - CSDN博客 Docker安装elasticsearch-head监控ES步骤 docker拉取镜像 ...

随机推荐

  1. linux 终端上网设置

    原网址: https://www.aliyun.com/jiaocheng/215068.html 摘要:第一步,需要安装一个名为w3m的软件工具,打开终端,输入如下命令sudoapt-getinst ...

  2. js字符串转换成数字与数字转换成字符串的实现方法

    转载:点击查看地址 js字符串转换成数字 将字符串转换成数字,得用到parseInt函数.parseInt(string) : 函数从string的开始解析,返回一个整数. 举例:parseInt(' ...

  3. Hibrenate关系映射(一对一外键关联)

    一.一对一(单向):使用外部索引将其中的一个类作为parent,相对应的一个就是子类,并且参照父 类的主键ID来生成数据库表.(比如:可以将husband中设置一个wife_id对应wife中的主键i ...

  4. spring-boot集成spring-data-jpa

    参考这个就行, http://blog.csdn.net/wazz753/article/details/72472411 ps:集成过程中pom文件,我加入的内容如下,两个都需要,实体类记得加注解和 ...

  5. centos6.5上安装配置telnet服务

    https://blog.csdn.net/wx5040257/article/details/78327915

  6. SQL存储过程使用参考代码

    存储过程   use EBuy go  --常用的系统存储过程  sp_addmessage  --将新的用户定义错误消息存储在SQL Server数据库实例中  sp_helptext  --显示用 ...

  7. BZOJ2669 [cqoi2012]局部极小值 状压DP 容斥原理

    欢迎访问~原文出处——博客园-zhouzhendong 去博客园看该题解 题目传送门 - BZOJ2669 题意概括 有一个n行m列的整数矩阵,其中1到nm之间的每个整数恰好出现一次.如果一个格子比所 ...

  8. <构建之法>阅读笔记6

    第九章:项目经理 是讲项目经理的作用功能和重要性,书里面主要讲的是微软的PM(Programe Manager)和其他团队PM(Project Manager)的区别,还介绍了PM的能力要求以及人物, ...

  9. 6-1 并行程序模拟 uva210

    用到了 deque 和queue 操作说明: queue  qu:      qu.push(x); int d=qu.front(); qu.pop();        和栈一样只有push和pop ...

  10. Unity 之 如何删除Unity项目里面没用的东西??

    选中需要用到的Scene,右键选 Select Dependencies,这样会选出这个场景所有用到的文件,将这些文件导出为 .unitypackage. 用同样的办法就所有用到的几个场景的文件分别导 ...