「玩转Python」打造十万博文爬虫篇

前言

这里以爬取博客园文章为例，仅供学习参考，某些AD满天飞的网站太浪费爬虫的感情了。

爬取

使用 BeautifulSoup 获取博文
通过 html2text 将 Html 转 Markdown
保存 Markdown 到本地文件
下载 Markdown 中的图片到本地并替换图片地址
写入数据库

工具

使用到的第三方类库：BeautifulSoup、html2text、PooledDB

代码

获取博文：

# 获取标题和文章内容

def getHtml(blog):

    res = requests.get(blog, headers=headers)

    soup = BeautifulSoup(res.text, 'html.parser')

	# 获取博客标题

    title = soup.find('h1', class_='postTitle').text

	# 去除空格等

    title = title.strip()

	# 获取博客内容

    content = soup.find('div', class_='blogpost-body')

	# 去掉博客外层的DIV

    content = article.decode_contents(formatter="html")

    info = {"title": title, "content": content}

    return info

Html 转 Markdown：

# 这里使用开源第三方库 html2text

 md = text_maker.handle(info['content'])

保存到本地文件：



def createFile(md, title):

    print('系统默认编码：{}'.format(sys.getdefaultencoding()))

    save_file = str(title) +".md"

    # print(save_file)

    print('准备写入文件：{}'.format(save_file))

    # r+ 打开一个文件用于读写。文件指针将会放在文件的开头。

    # w+ 打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

    # a+ 打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建新文件用于读写。

    f = codecs.open(save_file, 'w+', 'utf-8')

    f.write(md)

    f.close()

    print('写入文件结束：{}'.format(f.name))

    return save_file

下载图片到本地并替换图片地址：

def replace_md_url(md_file):

    """

    把指定MD文件中引用的图片下载到本地，并替换URL

    """

    if os.path.splitext(md_file)[1] != '.md':

        print('{}不是Markdown文件，不做处理。'.format(md_file))

        return

    cnt_replace = 0

    # 日期时间为目录存储图片

    dir_ts = time.strftime('%Y%m', time.localtime())

    isExists = os.path.exists(dir_ts)

    # 判断结果

    if not isExists:

        os.makedirs(dir_ts)

    with open(md_file, 'r', encoding='utf-8') as f:  # 使用utf-8 编码打开

        post = f.read()

        matches = re.compile(img_patten).findall(post)

        if matches and len(matches) > 0:

            for match in list(chain(*matches)):

                if match and len(match) > 0:

                    array = match.split('/')

                    file_name = array[len(array) - 1]

                    file_name = dir_ts + "/" + file_name

                    img = requests.get(match, headers=headers)

                    f = open(file_name, 'ab')

                    f.write(img.content)

                    new_url = "https://blog.52itstyle.vip/{}".format(file_name)

                    # 更新MD中的URL

                    post = post.replace(match, new_url)

                    cnt_replace = cnt_replace + 1

        # 如果有内容的话，就直接覆盖写入当前的markdown文件

        if post and cnt_replace > 0:

            url = "https://blog.52itstyle.vip"

            open(md_file, 'w', encoding='utf-8').write(post)

            print('{0}的{1}个URL被替换到{2}/{3}'.format(os.path.basename(md_file), cnt_replace, url, dir_ts))

        elif cnt_replace == 0:

            print('{}中没有需要替换的URL'.format(os.path.basename(md_file)))

写入数据库：

# 写入数据库

def write_db(title, content, url):

    sql = "INSERT INTO blog (title, content,url) VALUES(%(title)s, %(content)s, %(url)s);"

    param = {"title": title, "content": content, "url": url}

    mysql.insert(sql, param)

小结

互联网时代一些开放的博客社区的确方便了很多，但是也伴随着随时消失的可能性，最好就是自己备份一份到本地；你也可以选择自己喜欢的博主，爬取下收藏。

源码：https://gitee.com/52itstyle/Python

演示：https://blog.52itstyle.top

列表：https://blog.52itstyle.top/index

详情：https://blog.52itstyle.top/49.shtml

「玩转Python」打造十万博文爬虫篇的更多相关文章

SpringBoot开发案例之打造十万博文Web篇
前言通过 Python 爬取十万博文之后,最重要的是要让互联网用户访问到,那么如何做呢? 选型从后台框架.前端模板.数据库连接池.缓存.代理服务.限流等组件多个维度选型. 后台框架 SpringB ...
「玩转Python」突破封锁继续爬取百万妹子图
前言从零学 Python 案例,自从提交第一个妹子图版本引来了不少小伙伴的兴趣.最近,很多小伙伴发来私信说,妹子图不能爬了!? 趁着周末试了一把,果然爬不动了,爬下来的都是些 0kb 的假图片,然后 ...
「玩转树莓派」树莓派 3B+ 配置无线WiFi
前言网线不方便还花钱,有自带的无线 WiFi 模块为啥不用. 网络模式这里我们先介绍两种网络模式,WPA-Personal 与 WPA-Enterprise. WPA-Personal 大多数家庭 ...
「mysql优化专题」这大概是一篇最好的mysql优化入门文章（1）
优化,一直是面试最常问的一个问题.因为从优化的角度,优化的思路,完全可以看出一个人的技术积累.那么,关于系统优化,假设这么个场景,用户反映系统太卡(其实就是高并发),那么我们怎么优化? 如果请求过多, ...
从SpringBoot构建十万博文聊聊限流特技
前言在开发十万博客系统的的过程中,前面主要分享了爬虫.缓存穿透以及文章阅读量计数等等.爬虫的目的就是解决十万+问题:缓存穿透是为了保护后端数据库查询服务:计数服务解决了接近真实阅读数以及数据库服务的 ...
从零单排之玩转Python安全编程(II)
转自:http://www.secpulse.com/archives/35893.html 都说Python大法好,作为一名合格的安全从业人员,不会几门脚本语言都不好意思说自己是从事安全行业的. 而 ...
「python」: arp脚本的两种方法
「python」: arp脚本的两种方法第一种是使用arping工具: #!/usr/bin/env python import subprocess import sys import re de ...
拇指玩」制作的「谷歌安装器」app
作者:匿名用户链接:https://www.zhihu.com/question/57468448/answer/153000587来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请 ...
「Python」socket指南
开始网络中的 Socket 和 Socket API 是用来跨网络的消息传送的,它提供了进程间通信(IPC) 的一种形式.网络可以是逻辑的.本地的电脑网络,或者是可以物理连接到外网的网络,并且可以 ...

随机推荐

HBase 学习之路（五）——HBase常用 Shell 命令
一.基本命令打开Hbase Shell: # hbase shell 1.1 获取帮助 # 获取帮助 help # 获取命令的详细信息 help 'status' 1.2 查看服务器状态 statu ...
建立自己composer私有仓库
创建仓库地址以gitee为例,主要github太慢本地建立一个项目目录,然后初始化 composer init 然后根路径下创建src/util目录修改composer.json,设置autolo ...
如何用css实线所需要的小三角
使用css实现三角符号关于使用css制作三角符号,网上有很多的例子了,在这里只是为了详细的向各位解释一下三角符号的原理下图,是一个长宽为100px,边框宽度为100px的一个元素,由此可见,在cs ...
Ural 2064：Caterpillars（思维暴力）
http://acm.timus.ru/problem.aspx?space=1&num=2064 题意:有n只虫子在爬树,每个虫子往上爬ti距离后会往下掉落ti距离,每爬一个单位距离耗费一个 ...
2.秋招复习简单整理之String、StringBuffer、StringBuilder的区别和联系
String特点: 1.String是不可变对象,一旦赋值创建就不变,这意味着对String的一切修改将产生一个新的字符串,比如String的subString,replace.toUpperCase ...
c++书籍推荐《C++编码规范》下载
百度云及其他网盘下载地址:点我编辑推荐 <C++编程规范:101条规则.准则与实践>:良好的编程规范可以改善软件质量,缩短上市时间,提升团队效率,简化维护工作.在<C++编程规范 ...
Linux 文件系统的基本结构
Linux文件系统为一个倒置的树状结构,所有文件或文件夹均包含在一个根目录/中. Linux系统严格区分大小写所以在Linux中:一个名为“A”的文件夹和一个名为“a”的文件夹是不同的两个文件夹,这点 ...
Contiki源码分析--CPU为cc253x里的uart0.c
我所使用的Contiki系统是contiki-sensinode.理解该文需要有cc2530里uart的相关知识,具体寄存器的用法不做介绍. 先放上所有代码,然后再仔细分析. #include < ...
CF39D Cubical Planet-C++
银河系中没有你找不到的东西!有一颗形状为立方体的的行星正在绕着一颗形状为二十面体的恒星运转.现在我们让这颗行星的两个在同一条体对角线上的顶点置于(0,0,0)和(1,1,1)上.有两只苍蝇住在行星上. ...
基于百度EasyDL定制化图像识别平台的海洋鱼类识别方法
[目的]鱼类识别对渔业资源的开发利用有着重要的意义.针对海底环境恶劣.拍摄环境亮度低.场景模糊的实际情况导致海底观测视频品质差,视频中的鱼类识别难的问题以及现有鱼类识别方法存在的鱼类标注数据集过少导致 ...

「玩转Python」打造十万博文爬虫篇

前言

爬取

工具

代码

小结

「玩转Python」打造十万博文爬虫篇的更多相关文章

随机推荐

热门专题