前言

第一次写博客，主要内容是爬取微信公众号的文章，将文章以PDF格式保存在本地。

爬取微信公众号文章（使用wechatsogou）

1.安装

pip install wechatsogou --upgrade

wechatsogou是一个基于搜狗微信搜索的微信公众号爬虫接口

2.使用方法

使用方法如下所示

import wechatsogou

# captcha_break_time为验证码输入错误的重试次数，默认为1

ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)

# 公众号名称

gzh_name = ''

# 将该公众号最近10篇文章信息以字典形式返回

data = ws_api.get_gzh_article_by_history(gzh_name)

data数据结构：

{

    'gzh': {

        'wechat_name': '',  # 名称

        'wechat_id': '',  # 微信id

        'introduction': '',  # 简介

        'authentication': '',  # 认证

        'headimage': ''  # 头像

    },

    'article': [

        {

            'send_id': int,  # 群发id，注意不唯一，因为同一次群发多个消息，而群发id一致

            'datetime': int,  # 群发datatime 10位时间戳

            'type': '',  # 消息类型，均是49（在手机端历史消息页有其他类型，网页端最近10条消息页只有49），表示图文

            'main': int,  # 是否是一次群发的第一次消息 1 or 0

            'title': '',  # 文章标题

            'abstract': '',  # 摘要

            'fileid': int,  #

            'content_url': '',  # 文章链接

            'source_url': '',  # 阅读原文的链接

            'cover': '',  # 封面图

            'author': '',  # 作者

            'copyright_stat': int,  # 文章类型，例如：原创啊

        },

        ...

    ]

}

这里需要得到两个信息：文章标题，文章url。

得到文章url以后，就可以根据url将html页面转换成pdf文件了。

生成PDF文件

1.安装wkhtmltopdf

下载地址:https://wkhtmltopdf.org/downloads.html

2.安装pdfkit

pip install pdfkit

3.使用方法

import pdfkit

# 根据url生成pdf

pdfkit.from_url('http://baidu.com','out.pdf')

# 根据html文件生成pdf

pdfkit.from_file('test.html','out.pdf')

# 根据html代码生成pdf

pdfkit.from_string('Hello!','out.pdf')

如果直接用上面得到的文章url去生成pdf，会出现pdf文件不显示文章图片的问题。

解决办法：

# 该方法根据文章url对html进行处理，使图片显示

content_info = ws_api.get_article_content(url)

# 得到html代码(代码不完整，需要加入head、body等标签)

html_code = content_info['content_html']

然后根据html_code构造完整的html代码，调用pdfkit.from_string()方法生成pdf文件，这时候会发现文章中的图片在pdf文件中显示出来了。

完整代码

import os

import pdfkit

import datetime

import wechatsogou

# 初始化API

ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)

def url2pdf(url, title, targetPath):

    '''

    使用pdfkit生成pdf文件

    :param url: 文章url

    :param title: 文章标题

    :param targetPath: 存储pdf文件的路径

    '''

    try:

        content_info = ws_api.get_article_content(url)

    except:

        return False

    # 处理后的html

    html = f'''

    <!DOCTYPE html>

    <html lang="en">

    <head>

        <meta charset="UTF-8">

        <title>{title}</title>

    </head>

    <body>

    <h2 style="text-align: center;font-weight: 400;">{title}</h2>

    {content_info['content_html']}

    </body>

    </html>

    '''

    try:

        pdfkit.from_string(html, targetPath + os.path.sep + f'{title}.pdf')

    except:

        # 部分文章标题含特殊字符，不能作为文件名

        filename = datetime.datetime.now().strftime('%Y%m%d%H%M%S') + '.pdf'

        pdfkit.from_string(html, targetPath + os.path.sep + filename)

if __name__ == '__main__':

    # 此处为要爬取公众号的名称

    gzh_name = ''

    targetPath = os.getcwd() + os.path.sep + gzh_name

    # 如果不存在目标文件夹就进行创建

    if not os.path.exists(targetPath):

        os.makedirs(targetPath)

    # 将该公众号最近10篇文章信息以字典形式返回

    data = ws_api.get_gzh_article_by_history(gzh_name)

    article_list = data['article']

    for article in article_list:

        url = article['content_url']

        title = article['title']

        url2pdf(url, title, targetPath)

使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)的更多相关文章

python爬取微信公众号
爬取策略 1.需要安装python selenium模块包,通过selenium中的webdriver驱动浏览器获取Cookie的方法.来达到登录的效果 pip3 install selenium c ...
Python爬取微信公众号素材库
这是我的之前写的代码,今天发布到博客园上,说不定以后需要用. 开始: #coding:utf-8 import werobot import pymongo class Gongzhonghao( ...
使用BeautifulSoup自动爬取微信公众号图片
爬取微信分享的图片,根据不同的页面自行修改,使用BeautifulSoup爬取,自行格局HTML修改要爬取图片的位置 import re import time import requests imp ...
Python 微信公众号文章爬取
一.思路我们通过网页版的微信公众平台的图文消息中的超链接获取到我们需要的接口从接口中我们可以得到对应的微信公众号和对应的所有微信公众号文章. 二.接口分析获取微信公众号的接口: https:// ...
python通过手机抓取微信公众号
使用 Fiddler 抓包分析公众号打开微信随便选择一个公众号,查看公众号的所有历史文章列表在 Fiddler 上已经能看到有请求进来了,说明公众号的文章走的都是HTTPS协议,这些请求就是微信客 ...
拒绝低效！Python教你爬虫公众号文章和链接
本文首发于公众号「Python知识圈」,如需转载,请在公众号联系作者授权. 前言上一篇文章整理了的公众号所有文章的导航链接,其实如果手动整理起来的话,是一件很费力的事情,因为公众号里添加文章的时候只 ...
Python爬取微信小程序（Charles）
Python爬取微信小程序(Charles) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90045204 一.前言最近需要获取微信小 ...
Chrome浏览器保存微信公众号文章中的图片
用chrome浏览器打开微信公众号文章中时,另存为图片时保存的是640.webp,不是图片本身,用IE则没有此问题.大部分chrome插件也无法保存图片. 经过多番尝试,找到一款插件可以批量保存微信公 ...
pc端引入微信公众号文章
最近做了一个小需求,结果坑特别多..... 需求是这样的,要给公司内部做一个微信公众号广告投票系统,整个项目就不多赘述了,有个小功能,要求是这样的: 点击某条记录后的“投票”按钮,在当前页面弹出弹窗显 ...

随机推荐

北大SQL数据库视频课程笔记
Jim Gray - Transaction processing: concepts and techniqueshttp://research.microsoft.com/~gray/ 事务概念 ...
java学习笔记（2）——函数
int a = 1; a = a++; 1,取出a的值1作为a++表达式的值(a++表达式等于1) 2,a增加1变为2 3,执行赋值运算,a++表达式的值再赋给a,a又成为了1. ---------- ...
WPF扑克牌之红桃K
原文:WPF扑克牌之红桃K 有些什么用途呢?我想,如果你有兴趣,可用来制作WPF扑克牌游戏. 没有任何技术含量,需要做的是在Blend中绘图或者使用Illustrator,CoreDraw等矢图设计软 ...
Delphi内存管理（Integer、Boolean、Record、枚举等都是在作用域内编译器自动申请内存，出了作用域自动释放；另外，字符串、Variant、动态数组、接口也是由Delphi自动管理）
一.什么是堆.栈? 程序需要的内存空间分为 heap(堆) 和 stack(栈),heap 是自由存储区, stack 是自动存储区,使用 heap 需要手动申请.手动释放, stack 是自动申请. ...
使用 matlab 数据集的生成（generate datasets）
一般手工生成的数据集(artificial datasets),通常用于实验部分最开始的演示和示意,用于对结果的一种精确计算和量化分析. 1. Swiss/Helix/Twinpeaks/Broken ...
JAVA学习第三十三课（经常使用对象API） —迭代器
数字有非常多用数组存,对象有非常多就要用集合存可是数组是固定长度的,集合是可变长度的集合的由来: 对象用来封装特有数据,对象多了须要存储,假设对象个数不确定,就须要使用集合容器来存储集合的特点: ...
031 二进制1的数量(keep it up, 看到这个问题，刚开始有点蒙)
剑指offer在标题中:http://ac.jobdu.com/problem.php?pid=1513 题目描写叙述: 输入一个整数,输出该数二进制表示中1的个数.当中负数用补码表示. 输入: 输入 ...
[Unity3D]Unity3D圣骑士模仿游戏开发传仙灵达到当局岛
大家好,我是秦培.欢迎关注我的博客.我的博客地址blog.csdn.net/qinyuanpei. 在前面的文章中.我们分别实现了一个自己定义的角色控制器<[Unity3D]Unity3D游戏开 ...
Python第一个基本教程4章词典: 当指数不工作时也
Python 2.7.5 (default, May 15 2013, 22:43:36) [MSC v.1500 32 bit (Intel)] on win32 Type "copyri ...
IOS开发之iOS深浅拷贝
这里主要侧重于集合类的深浅拷贝,主要事因为工作的时候遇到这个问题. 有不足的地方欢迎指正首先我们需要有这样的一个前提: ［array addObject:obj]; 这样obj的引用计数会增加1,如 ...

使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)

前言