python实战--csdn博客专栏下载器
打算利用业余时间好好研究Python的web框架--web.py,深入剖析其实现原理,体会web.py精巧之美。但在研究源码的基础上至少得会用web.py。思前想后,没有好的Idea,于是打算开发一个csdn博客专栏下载器,界面不是很好看,还过得去吧。
效果图如下:
为了简单,下载以html格式保存。
下载我自己的博客专栏,目录列表
主界面html文件非常简单,如下:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>CSDN 博客专栏下载器</title>
<link rel="stylesheet" type="text/css" href="/static/main.css"/>
<script type="text/javascript" src="static/main.js"></script>
</head> <body>
<input type="text" class="name" name="csdnname" id="csdnid"/><br/>
<button type="button" class="btn" onclick="category()">获取专栏</button>
<div id="categorylist">
</div>
<div id="download">
</div>
<div id="status">
</div>
<div id="footer">
</div>
</body>
</html>
获取后端数据使用Ajax,没有用封装好的库,所以看起来很简洁。
function ajax(requesturl,handler){
var xmlhttp;
if (window.XMLHttpRequest){
xmlhttp=new XMLHttpRequest();
}
else{
xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.onreadystatechange=function(){
if (xmlhttp.readyState==4 && xmlhttp.status==200){
handler(xmlhttp.responseText);
}
}
xmlhttp.open("GET",requesturl,true);
xmlhttp.send();
} function category(){
var name=document.getElementById('csdnid').value;
document.getElementById('categorylist').innerHTML=""
if (name==""){
alert("用户名不可以为空");
}
else{
ajax('category'+'?name='+name,function(content){
document.getElementById('categorylist').innerHTML=content;
});
}
} function down(){
var box=document.getElementsByName('check');
var atag=new Array();
for (var i=0; i<box.length; i++) {
if(box[i].checked){
atag.push(box[i].value);
}
}
var astring=atag.join('*');
ajax('down'+'?urls='+astring,function(content){
if(content!=""){
document.getElementById('download').innerHTML=content;
}
else{
document.getElementById('download').innerHTML="正在下载";
}
});
}
ajax函数,一个参数是请求url,另一个是请求成功回调函数。在函数里创建一个XMLHttpRequest对象,发送请求给url,并调用回调函数。
category函数,主要是获取csdn用户ID,并发送给ajax请求获取专栏信息,成功后显示。
down函数,获取选中的复选框,将选中专栏url拼接后发送ajax请求。
主文件,如下
#coding=utf-8
import web
import os
import urllib2
import cookielib
import re
import threading
import thread
import sys reload(sys)
sys.setdefaultencoding('utf8') urls = (
'/','index',
'/category(.*)','category',
'/down','down' )
render = web.template.render('templates/') #所有用到的正则表达式
contentMatch={
'category':re.compile(r"<div id=\"panel_Category\"(.*?)博(.*?)>(.*?)</div>", re.I|re.DOTALL), #专栏显示
'zlalink':re.compile(r"a(\s*)href(\s*)=(\"|')(.*?)(\3)(.*?)>(.*?)</a>",re.I|re.DOTALL), #各个专栏url
'blogalink': re.compile(r"<a(\s*)name(.*?)href(\s*)=(\"|')(.*?)(\4)",re.I|re.DOTALL), #博客链接url
'lastpagenum': re.compile(r"<a(\s*)href=(.*?)\?page=(\d)\">尾页",re.I|re.DOTALL), #尾页链接
'title':re.compile(r"<title>(.*?)</title>",re.I|re.DOTALL)
} class Http:
"""
由于CSDN做了特殊处理,如果使用简单的httplib2.Http().request()会抓取不到数据,所以我们需要模拟真实用户行为,
"""
def __init__(self):
cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())
self.opener = urllib2.build_opener(cookie_support,urllib2.HTTPHandler)
#urllib2.install_opener(opener)
self.opener.addheaders = [("User-agent","Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11"),("Accept","*/*"),("Referer","http://www.google.com")] def open(self,url):
return self.opener.open(url) class index:
"""
首页
"""
def GET(self):
return render.index() class category:
"""
获取专栏信息,并显示相应的复选框
"""
def GET(self,name):
name=web.input(name=None).name
url = "http://blog.csdn.net/"+name
try:
opener=Http()
res=opener.open(url)
content = res.read()
category_match=contentMatch['category'].search(content)
if category_match:
left=category_match.group()
right=""
list_match=contentMatch['zlalink'].findall(left)
for i in range(len(list_match)):
if i%2 == 1:
right+="""
<input type="checkbox" name="check" value="%s" /> %s<br />
""" % (list_match[i][3],list_match[i][6])
submit="""<button type="button" class="btn" onclick="down()">下载专栏</button>"""
return left+right+submit
else:
return "该用户没有开通专栏"
except Exception:
return "请检查网络和用户名" class createfile(threading.Thread):
"""
下载专栏中文章的线程类
"""
def __init__(self,zlurl):
threading.Thread.__init__(self)
self.blogurl=[]
self.opener=Http()
self.zlname=""
try:
res=self.opener.open(zlurl)
content = res.read()
zlname_match=contentMatch['title'].search(content)
if zlname_match:
self.zlname="".join(zlname_match.group(1).split('-')[:-2]).decode('utf8')
if not os.path.exists(self.zlname):
os.mkdir(self.zlname)
else:
thread.exit_thread()
if content.find("尾页") < 0:
self.addblog(content)
else:
page_match=contentMatch['lastpagenum'].search(content)
page=int(page_match.group(3))
for x in range(1,page+1):
url="%s?page=%d" %(zlurl,x) #分页处理
content=self.opener.open(url).read()
self.addblog(content) except Exception,e:
print 'init:'+str(e)
thread.exit_thread() def addblog(self,content): #获取文章url
try:
blogs_match=contentMatch['blogalink'].findall(content)
if blogs_match:
for m in blogs_match:
if m[4] not in self.blogurl:
self.blogurl.append(m[4])
except Exception,e:
print "addblog:"+str(e) def write(self,content): #写入文件
try:
if content !="":
blogtitle="".join(contentMatch['title'].search(content).group(1).split('-')[:-3])
#path="%s%s%s.html" %(self.zlname.encode('utf8'),os.sep,blogtitle)
path="%s.html" % blogtitle
f = open(path.decode('utf8'),"w")
f.write(content.decode('utf8'))
f.close()
except Exception,e:
print "write:"+str(e) def run(self):
try:
print len(self.blogurl)
for blog in self.blogurl:
self.write(self.opener.open(blog).read())
except Exception,e:
print "run:"+str(e) class down:
def GET(self):
urls=web.input().urls
urllist=urls.split('*')
for url in urllist:
file=createfile(url)
file.start()
file.join()
#等待线程结束,结束后返回下载完成
return "下载完成" if __name__=='__main__':
app = web.application(urls,globals())
app.run()
使用了多线程,博主有几个专栏,将启动几个线程,主程序等待线程结束。
在这里也遇到了一个问题,本身是每个专栏一个文件夹,但处理时有点问题,拼接path后open时总是报没有这个文件或文件夹,应该是编码的问题。
留个遗憾,等待各位亲的指教。
python实战--csdn博客专栏下载器的更多相关文章
- Python采集CSDN博客排行榜数据
文章目录 前言 网络爬虫 搜索引擎 爬虫应用 谨防违法 爬虫实战 网页分析 编写代码 运行效果 反爬技术 前言 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知 ...
- Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片 其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...
- Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
- Python 爬取CSDN博客频道
初次接触python,写的很简单,开发工具PyCharm,python 3.4很方便 python 部分模块安装时需要其他的附属模块之类的,可以先 pip install wheel 然后可以直接下载 ...
- python环境变量配置 - CSDN博客
一.下载: 1.官网下载python3.0系列(https://www.python.org/) 2.下载后图标为: 二.安装: Window下: 1.安装路径: 默认安装路径:C:\python35 ...
- Python爬虫小实践:爬取任意CSDN博客所有文章的文字内容(或可改写为保存其他的元素),间接增加博客访问量
Python并不是我的主业,当初学Python主要是为了学爬虫,以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情,因为我们可以获取一些方面的数据或者其他的东西,反正各有用处. 这两天闲 ...
- 在CSDN开通博客专栏后如何发布文章(图文)
今天打开电脑登上CSDN发现自己授予了专栏勋章,有必要了解如何在专栏发布文章. 很感谢已经有前辈给出了图文教程,此文章转载自博客:http://blog.csdn.net/upi2u/article/ ...
- mongodb丢失数据的原因剖析 - 迎风飘来的专栏 - CSDN博客 https://blog.csdn.net/yibing548/article/details/50844310
mongodb丢失数据的原因剖析 - 迎风飘来的专栏 - CSDN博客 https://blog.csdn.net/yibing548/article/details/50844310
- Docker安装elasticsearch-head监控ES步骤 - gmijie的专栏 - CSDN博客
原文:Docker安装elasticsearch-head监控ES步骤 - gmijie的专栏 - CSDN博客 Docker安装elasticsearch-head监控ES步骤 docker拉取镜像 ...
随机推荐
- Mac配置Java开发环境
笔者从Window上转到Mac上做开发,一切配置都要重新开始,开发环境配置介绍如下: 1. 下载JDK 从下面链接选择合适版本的安装包进行下载...笔者下载的是jdk-9.0.1 链接:http:// ...
- jvm字节占用空间分析
一个对象实例占用了多少字节,消耗了多少内存?这样的问题在c或c++里使用sizeof()方法就可以得到明确答案,在java里好像没有这样的方法(java一样可以实现),不过通过jmap工具倒是可以查看 ...
- JQuery简易轮播图
html <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <titl ...
- LICEcap方便快捷制作gif图片的工具
总是看见别人的博客里面动态的小图片,是不是有种冲动自己也想搞,但是就是不知道咋搞,这里简单介绍一款很实用的制作gif的软件. LICEcap的网址:http://www.cockos.com/lice ...
- Linux下apache支持PHP配置
https://www.cnblogs.com/qiuxiao/p/6815350.html https://www.cnblogs.com/polestar/p/6086552.html
- json文本和json对象之间的转换
在数据传输过程中,json是以文本,即字符串的形式传递的,而JS操作的是JSON对象,所以,JSON对象和JSON字符串之间的相互转换是关键.例如: //JSON字符串: var str1 = '{ ...
- [SDOI2012]拯救小云公主
题解: 是一个不错的题目 首先我们可以考虑二分答案 然后变成判定性问题 对于每个画一个圆 当其会被阻断时就是答案 阻断有四种情况 左下 上下 左右 右上 但是这样是n^2a(n)*logn的 考虑直接 ...
- laravel5 项目上线后务必将开发环境更改为生产环境
如果以开发环境上线,出错信息将全通过json暴露出来了,屏蔽方式如下: .env 文件设置如下APP_ENV=productionAPP_DEBUG=false 改完设置后把缓存清理一遍 如果更改后清 ...
- 012.Docker私有仓库多Harbor同步部署
一 Harbor主从介绍 harbor官方默认提供主从复制的方案来解决镜像同步问题,通过复制的方式,我们可以实时将测试环境harbor仓库的镜像同步到生产环境harbor,类似于如下流程: Harbo ...
- 一个垃圾的Android权限框架
一个垃圾的Android权限框架 学习和参考 简书 https://www.jianshu.com/p/2324a2bdb3d4 写在前头 今天突发奇想想要把Android申请权限的流程封装一下,为使 ...