python实战--csdn博客专栏下载器

打算利用业余时间好好研究Python的web框架--web.py,深入剖析其实现原理，体会web.py精巧之美。但在研究源码的基础上至少得会用web.py。思前想后，没有好的Idea,于是打算开发一个csdn博客专栏下载器，界面不是很好看，还过得去吧。

效果图如下：

为了简单，下载以html格式保存。

下载我自己的博客专栏，目录列表

主界面html文件非常简单，如下：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">

<head>

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

<title>CSDN 博客专栏下载器</title>

<link rel="stylesheet" type="text/css" href="/static/main.css"/>

<script type="text/javascript" src="static/main.js"></script>

</head>

<body>

<input type="text" class="name" name="csdnname" id="csdnid"/><br/>

<button type="button" class="btn" onclick="category()">获取专栏</button>

<div id="categorylist">

</div>

<div id="download">

</div>

<div id="status">

</div>

<div id="footer">

</div>

</body>

</html>

获取后端数据使用Ajax,没有用封装好的库，所以看起来很简洁。

function ajax(requesturl,handler){

	var xmlhttp;

	if (window.XMLHttpRequest){

  		xmlhttp=new XMLHttpRequest();

  	}

	else{

  		xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");

  	}

  	xmlhttp.onreadystatechange=function(){

  		if (xmlhttp.readyState==4 && xmlhttp.status==200){

    		handler(xmlhttp.responseText);

    	}

  	}

	xmlhttp.open("GET",requesturl,true);

	xmlhttp.send();

}

function category(){

	var name=document.getElementById('csdnid').value;

	document.getElementById('categorylist').innerHTML=""

	if (name==""){

		alert("用户名不可以为空");

	}

	else{

		ajax('category'+'?name='+name,function(content){

					document.getElementById('categorylist').innerHTML=content;

				   });

	}

}

function down(){

	var box=document.getElementsByName('check');

	var atag=new Array();

	for (var i=0; i<box.length; i++) {

		if(box[i].checked){

			atag.push(box[i].value);

		}

	}

	var astring=atag.join('*');

	ajax('down'+'?urls='+astring,function(content){

					if(content!=""){

						document.getElementById('download').innerHTML=content;

					}

					else{

						document.getElementById('download').innerHTML="正在下载";

					}

				   });

}

ajax函数，一个参数是请求url,另一个是请求成功回调函数。在函数里创建一个XMLHttpRequest对象，发送请求给url,并调用回调函数。

category函数，主要是获取csdn用户ID,并发送给ajax请求获取专栏信息，成功后显示。

down函数，获取选中的复选框，将选中专栏url拼接后发送ajax请求。

主文件，如下

#coding=utf-8

import web

import os

import urllib2

import cookielib

import re

import threading

import thread

import sys

reload(sys)

sys.setdefaultencoding('utf8')

urls = (

    '/','index',

    '/category(.*)','category',

    '/down','down'

       )

render = web.template.render('templates/')

#所有用到的正则表达式

contentMatch={

    'category':re.compile(r"<div id=\"panel_Category\"(.*?)博(.*?)>(.*?)</div>", re.I|re.DOTALL), #专栏显示

    'zlalink':re.compile(r"a(\s*)href(\s*)=(\"|')(.*?)(\3)(.*?)>(.*?)</a>",re.I|re.DOTALL),   #各个专栏url

    'blogalink': re.compile(r"<a(\s*)name(.*?)href(\s*)=(\"|')(.*?)(\4)",re.I|re.DOTALL),  #博客链接url

    'lastpagenum': re.compile(r"<a(\s*)href=(.*?)\?page=(\d)\">尾页",re.I|re.DOTALL),    #尾页链接

    'title':re.compile(r"<title>(.*?)</title>",re.I|re.DOTALL)

    }

class Http:

    """

       由于CSDN做了特殊处理，如果使用简单的httplib2.Http().request()会抓取不到数据，所以我们需要模拟真实用户行为，

    """

    def __init__(self):

        cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())

        self.opener = urllib2.build_opener(cookie_support,urllib2.HTTPHandler)

        #urllib2.install_opener(opener)

        self.opener.addheaders = [("User-agent","Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11"),("Accept","*/*"),("Referer","http://www.google.com")]

    def open(self,url):

        return self.opener.open(url)

class index:

    """

    首页

    """

    def GET(self):

        return render.index()

class category:

    """

    获取专栏信息，并显示相应的复选框

    """

    def GET(self,name):

        name=web.input(name=None).name

        url = "http://blog.csdn.net/"+name

        try:

            opener=Http()

            res=opener.open(url)

            content = res.read()

            category_match=contentMatch['category'].search(content)

            if category_match:

                left=category_match.group()

                right=""

                list_match=contentMatch['zlalink'].findall(left)

                for i in range(len(list_match)):

                    if i%2 == 1:

                        right+="""

                        <input type="checkbox" name="check" value="%s" /> %s<br />

                        """ % (list_match[i][3],list_match[i][6])

                submit="""<button type="button" class="btn" onclick="down()">下载专栏</button>"""

                return left+right+submit

            else:

                return "该用户没有开通专栏"

        except Exception:

            return "请检查网络和用户名"

class createfile(threading.Thread):

    """

    下载专栏中文章的线程类

    """

    def __init__(self,zlurl):

        threading.Thread.__init__(self)

        self.blogurl=[]

        self.opener=Http()

        self.zlname=""

        try:

            res=self.opener.open(zlurl)

            content = res.read()

            zlname_match=contentMatch['title'].search(content)

            if zlname_match:

                self.zlname="".join(zlname_match.group(1).split('-')[:-2]).decode('utf8')

                if not os.path.exists(self.zlname):

                    os.mkdir(self.zlname)

            else:

                thread.exit_thread()

            if content.find("尾页") < 0:

                self.addblog(content)

            else:

                page_match=contentMatch['lastpagenum'].search(content)

                page=int(page_match.group(3))

                for x in range(1,page+1):

                    url="%s?page=%d" %(zlurl,x)  #分页处理

                    content=self.opener.open(url).read()

                    self.addblog(content)

        except Exception,e:

            print 'init:'+str(e)

            thread.exit_thread()

    def addblog(self,content): #获取文章url

        try:

            blogs_match=contentMatch['blogalink'].findall(content)

            if blogs_match:

                for m in blogs_match:

                    if m[4] not in self.blogurl:

                        self.blogurl.append(m[4])

        except Exception,e:

            print "addblog:"+str(e)

    def write(self,content): #写入文件

        try:

            if content !="":

                blogtitle="".join(contentMatch['title'].search(content).group(1).split('-')[:-3])

                #path="%s%s%s.html" %(self.zlname.encode('utf8'),os.sep,blogtitle)

                path="%s.html" % blogtitle

                f = open(path.decode('utf8'),"w")

                f.write(content.decode('utf8'))

                f.close()

        except Exception,e:

            print "write:"+str(e)

    def run(self):

        try:

            print len(self.blogurl)

            for blog in self.blogurl:

                self.write(self.opener.open(blog).read())

        except Exception,e:

            print "run:"+str(e)

class down:

    def GET(self):

        urls=web.input().urls

        urllist=urls.split('*')

        for url in urllist:

            file=createfile(url)

            file.start()

            file.join()

        #等待线程结束，结束后返回下载完成

        return "下载完成"

if __name__=='__main__':

    app = web.application(urls,globals())

    app.run()

使用了多线程，博主有几个专栏，将启动几个线程，主程序等待线程结束。

在这里也遇到了一个问题，本身是每个专栏一个文件夹，但处理时有点问题，拼接path后open时总是报没有这个文件或文件夹，应该是编码的问题。

留个遗憾，等待各位亲的指教。

python实战--csdn博客专栏下载器的更多相关文章

Python采集CSDN博客排行榜数据
文章目录前言网络爬虫搜索引擎爬虫应用谨防违法爬虫实战网页分析编写代码运行效果反爬技术前言很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知 ...
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...
Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
Python 爬取CSDN博客频道
初次接触python,写的很简单,开发工具PyCharm,python 3.4很方便 python 部分模块安装时需要其他的附属模块之类的,可以先 pip install wheel 然后可以直接下载 ...
python环境变量配置 - CSDN博客
一.下载: 1.官网下载python3.0系列(https://www.python.org/) 2.下载后图标为: 二.安装: Window下: 1.安装路径: 默认安装路径:C:\python35 ...
Python爬虫小实践：爬取任意CSDN博客所有文章的文字内容（或可改写为保存其他的元素），间接增加博客访问量
Python并不是我的主业,当初学Python主要是为了学爬虫,以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情,因为我们可以获取一些方面的数据或者其他的东西,反正各有用处. 这两天闲 ...
在CSDN开通博客专栏后如何发布文章（图文）
今天打开电脑登上CSDN发现自己授予了专栏勋章,有必要了解如何在专栏发布文章. 很感谢已经有前辈给出了图文教程,此文章转载自博客:http://blog.csdn.net/upi2u/article/ ...
mongodb丢失数据的原因剖析 - 迎风飘来的专栏 - CSDN博客 https://blog.csdn.net/yibing548/article/details/50844310
mongodb丢失数据的原因剖析 - 迎风飘来的专栏 - CSDN博客 https://blog.csdn.net/yibing548/article/details/50844310
Docker安装elasticsearch-head监控ES步骤 - gmijie的专栏 - CSDN博客
原文:Docker安装elasticsearch-head监控ES步骤 - gmijie的专栏 - CSDN博客 Docker安装elasticsearch-head监控ES步骤 docker拉取镜像 ...

随机推荐

OCM_第十天课程：Section5—》数据仓库
注:本文为原著(其内容来自腾科教育培训课堂).阅读本文注意事项如下: 1:所有文章的转载请标注本文出处. 2:本文非本人不得用于商业用途.违者将承当相应法律责任. 3:该系列文章目录列表: 一:&l ...
abstract class 和 interface 区别
本文出自与:heipai:tsg666 含有 abstract 修饰符的 class 即为抽象类,abstract 类不能创建的实例对象.含有 abstract 方法的类必须定义为 abstract ...
Java集合（Collection）综述
1.集合简介数学定义:一般地,我们把研究对象统称为元素.把一些元素组成的总体叫做集合. java集合定义:集合就是一个放数据的容器,准确的说是放数据对象引用的容器. java中通用集合类存放于jav ...
Fiddler抓包11-HTTPS证书Actions无法导出问题
前言在点Actions时候出现Export Failed:The root certificate could not be located.最近有很多小伙伴在fiddler导出证书的时候,遇到无法 ...
maven的三种工程pom、jar、war
阅读数:739 maven中的三种工程: 1.pom工程:用在父级工程或聚合工程中.用来做jar包的版本控制. 2.war工程:将会打包成war,发布在服务器上的工程.如网站或服务. 3.jar工程: ...
定制库到maven库
有一些jar不支持maven,这个时候就可以使用下面的处理方式. kaptcha,它是一个流行的第三方Java库,它被用来生成 “验证码” 的图片,以阻止垃圾邮件,但它不在 Maven 的中央仓库中. ...
Python2 - 基础2 - 数据类型和模块
一.数据类型标准数据类型(5): Numbers(数字) String(字符串) List(列表) Tuple(元组) Dictionary(字典) 其中数字类型有4种: int(有符号整型) 在3 ...
python连接mysql、sqlserver、oracle、postgresql数据库的一些封装
包括python连接数据库,以及django下配置连接数据库 # -*- coding:utf-8 -*- import psycopg2 import pymysql import pymssql ...
POJ1860-Currency Exchange (正权回路)【Bellman-Ford】
<题目链接> <转载于 >>> > 题目大意: 有多种汇币,汇币之间可以交换,这需要手续费,当你用100A币交换B币时,A到B的汇率是29.75,手续费是0. ...
计蒜客无脑博士的试管们【dfs】
题目链接:https://nanti.jisuanke.com/t/31 题目大意: 无脑博士有三个容量分别是A,B,C 升的试管,A,B,C 分别是三个从 1 到20 的整数,最初,A 和 B 试管 ...

python实战--csdn博客专栏下载器

python实战--csdn博客专栏下载器的更多相关文章

随机推荐

热门专题