[Python爬虫]cnblogs博客备份工具（可扩展成并行）

并发爬虫小练习。

直接粘贴到本地，命名为.py文件即可运行，运行时的参数为你想要爬取的用户。默认是本博客。

输出是以用户名命名的目录，目录内便是博客内容。

仅供学习python的多线程编程方法，后续会重写成并行爬虫。

爬虫代码如下：

 # -*- coding:utf-8 -*-
 from multiprocessing.managers import BaseManager
 from pyquery import PyQuery
 import os, sys, urllib
 import re, random, logging, time
 import Queue, threading, multiprocessing, threadpool
 
 USER_NAME = 'kirai'
 TOTAL_PAGE_NUMBER = 0
 INT_REGEXP = re.compile('([\d]+)')
 BASE_URL = 'http://www.cnblogs.com/'+USER_NAME+'/p/?page='
 ARTICLE_REGEXP = re.compile('href=\"(http://www.cnblogs.com/'+USER_NAME+'/p/[\d]+.html)\"')
 THREAD_NUMBER = multiprocessing.cpu_count() * 2
 ARTICLE_URLS_MUTEX = threading.Lock()
 ARTICLE_URLS = []
 
 class ListWithLinkExtend(list):
     def extend(self, value):
         super(ListWithLinkExtend, self).extend(value)
         return self
 
 def get_total_page_number():
     doc = PyQuery(url=BASE_URL)
     return int(INT_REGEXP.findall(
         doc.find('.pager .Pager').text())[0].encode('ascii'))
 
 def get_page_url():
     global TOTAL_PAGE_NUMBER
     return map(lambda page: BASE_URL+str(page),
                          [i for i in range(1, TOTAL_PAGE_NUMBER+1)])
 
 def get_article_url(idx):
     url = PAGE_URLS[idx]
     doc = PyQuery(url=url)
     article_urls = ARTICLE_REGEXP.findall(str(doc.find('.PostList .postTitl2')))
     return article_urls
 
 def handle_result(request, result):
     global ARTICLE_URLS_MUTEX, ARTICLE_URLS
     try:
         ARTICLE_URLS_MUTEX.acquire()
         ARTICLE_URLS.append(result)
     finally:
         ARTICLE_URLS_MUTEX.release()
 
 def cluster_process():
     global ARTICLE_URLS
     # list : urls
     task_queue = Queue.Queue()
     # str : path
     result_queue = Queue.Queue()
     KiraiManager.register('get_task_queue', callable=lambda: task_queue)
     KiraiManager.register('get_result_queue', callable=lambda: result_queue)
     manager = KiraiManager(address=('', 6969), authkey='whosyourdaddy')
     manager.start()
     manager.shutdown()
     # article_flag, article_urls = get_article_url()
 
 # a simple way.
 def get_article(url):
     html = urllib.urlopen(url).read()
     return html, INT_REGEXP.findall(url)[0]
 
 def save_article(request, result):
     content = result[0]
     file_name = result[1]
     path = './' + USER_NAME + '/' + file_name + '.html'
     try:
         fp = file(path, 'w')
         fp.writelines(content)
     finally:
         fp.close()
 
 def thread_process():
     global ARTICLE_URLS
     os.mkdir(USER_NAME)
     thread_pool = threadpool.ThreadPool(THREAD_NUMBER)
     requests = threadpool.makeRequests(get_article, ARTICLE_URLS, save_article)
     [thread_pool.putRequest(req) for req in requests]
     thread_pool.wait()
 
 def __main__(argv):
     global ARTICLE_URLS, TOTAL_PAGE_NUMBER, USER_NAME, BASE_URL, ARTICLE_REGEXP, PAGE_URLS, TOTAL_PAGE_NUMBER
     if len(argv) == 2:
         USER_NAME = argv[1]
     BASE_URL = 'http://www.cnblogs.com/'+USER_NAME+'/p/?page='
     ARTICLE_REGEXP = re.compile('href=\"(http://www.cnblogs.com/'+USER_NAME+'/p/[\d]+.html)\"')
     TOTAL_PAGE_NUMBER = get_total_page_number()
     PAGE_URLS = get_page_url()
     thread_pool = threadpool.ThreadPool(THREAD_NUMBER)
     requests = threadpool.makeRequests(
         get_article_url,
         [i for i in range(0, TOTAL_PAGE_NUMBER)],
         handle_result)
     [thread_pool.putRequest(req) for req in requests]
     thread_pool.wait()
     ARTICLE_URLS = list(reduce(lambda a, b: ListWithLinkExtend(a).extend(ListWithLinkExtend(b)),
                                                          ARTICLE_URLS))
     thread_process()
 
 if __name__ == '__main__':
     __main__(sys.argv)

简单介绍下全局变量的意义：

USER_NAME：希望爬取的用户名，默认为kirai。

TOTAL_PAGE_NUMBER：会被更新成博客随笔的总页数。

INT_REGEXP：为了匹配数字的正则。
BASE_URL：随笔页的初始URL。

ARTICLE_REGEXP：在经过pyquery处理过后的每个随笔目录页中提取出博客文章页面的正则。

THREAD_NUMBER：线程数，默认设置是本机cpu核数的2倍。

ARTICLE_URLS_MUTEX：ARTICLE_URLS的锁，保证线程唯一占用。

ARTICLE_URLS：用于存放所有的文章url。

[Python爬虫]cnblogs博客备份工具（可扩展成并行）的更多相关文章

推荐一款自己的软件作品[豆约翰博客备份专家]，新浪博客，QQ空间，CSDN，cnblogs博客备份，导出CHM,PDF(转载)
推荐一款自己的软件作品[豆约翰博客备份专豆约翰博客备份专家是完全免费,功能强大的博客备份工具,博客电子书(PDF,CHM和TXT)生成工具,博文离线浏览工具,软件界面美观大方,支持多个主流博客网站( ...
cnblogs博客迁移到hexo
cnblogs博客备份备份地址:https://i.cnblogs.com/BlogBackup.aspx?type=1 备份文件为xml格式,打开备份文件,如下所示: <?xml versi ...
用Python编写博客导出工具
用Python编写博客导出工具罗朝辉 (http://kesalin.github.io/) CC 许可,转载请注明出处写在前面的话我在 github 上用 octopress 搭建了个人博 ...
python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客
python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客 undefined Python多线程抓取代理服务器 | Linux运维笔记 undefined java如 ...
python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...
BlogPublishTool - 博客发布工具
BlogPublishTool - 博客发布工具这是一个发布博客的工具.本博客使用本工具发布. 本工具源码已上传至github:https://github.com/ChildishChange/B ...
org-mode 写 cnblogs 博客
1. 为什么用org-mode写博客我最开始用Emacs, 是因为org-mode.这是一个专注于写,而让我忽略展示结果的一种写作方式.为什么这么说?因为所有内容的格式都是可定制的.按照自己喜欢的 ...
有哪些关于 Python 的技术博客？
Python是一种动态解释型的编程语言,它可以在Windows.UNIX.MAC等多种操作系统以及Java..NET开发平台上使用.不过包含的内容很多,加上各种标准库.拓展库,乱花渐欲迷人眼.因此如何 ...
把cnblogs变成简书 - cnblogs博客自定义皮肤css样式
吐槽博客园cnblogs作为老牌的IT技术博客类网站,为广大的开发者提供了非常不错的学习交流平台. 虽然博客内容才是重点,但是如果有赏心悦目的页面不更好吗! cnblogs可以更换博客模板,并且提供 ...

随机推荐

WPF 打开文件、文件夹
打开文件代码: OpenFileDialog openFileDialog = new OpenFileDialog(); openFileDialog.Title = &quo ...
理解Bitcode
用Xcode 7 beta 3在真机(iOS 8.3)上运行一下我们的工程,结果发现工程编译不过.看了下问题,报的是以下错误: 1 ld: ‘/Users/**/Framework/SDKs/Poly ...
解决32位plsql连接数据库的问题
解决32位plsql连接数据库的问题: 安装32位的oracle数据库client版,此地址可下载[http://www.oracle.com/technetwork/database/featu ...
What is the difference between a Clustered and Non Clustered Index?
A clustered index determines the order in which the rows of a table are stored on disk. If a table h ...
协程并发框架gevent及其用法
gevent是python的一个并发框架,采用协程实现并发目的,用起来也非常简单 gevent的docs:http://www.gevent.org/contents.html 一个最简单的例子: i ...
Fiddler- -Composer创建和发送HTTP Request
Fiddler的功能还有很多, 很多功能都没有被挖掘出来.这次我们介绍Fiddler中的一个非常有用的功能Composer,是用来创建和发送HTTP Request的.Composer的使用方法很简单 ...
jq 页面延时刷新
最常用的方法 <script language='javascript' type='text/javascript'> $(function () { setTimeout(functi ...
leetcode 257
查找二叉树中根节点到叶子节点的所有路径: 本题有两种解法:递归解法和非递归解法,递归解法请参考:http://blog.csdn.net/booirror/article/details/477331 ...
游戏制作之路：游戏引擎选择、Mac下和Windows下UnrealEngine 4体验对比、文档及其他
UnrealEngine 4和Unity3d的选择订阅了UrealEngine4(UE4)开发者.我开始做网站用的是ASP.NET和C#,之后做网站虽然换用更方便的PHP(因为做的都是小网站).我想 ...
结合WebSocket编写WebGL综合场景示例
在WebGL场景中导入多个Babylon骨骼模型,在局域网用WebSocket实现多用户交互控制. 首先是场景截图: 上图在场景中导入一个Babylon骨骼模型,使用asdw.空格.鼠标控制加速度移动 ...

[Python爬虫]cnblogs博客备份工具（可扩展成并行）

[Python爬虫]cnblogs博客备份工具（可扩展成并行）的更多相关文章

随机推荐

热门专题