一.思路

我们通过网页版的微信公众平台的图文消息中的超链接获取到我们需要的接口

从接口中我们可以得到对应的微信公众号和对应的所有微信公众号文章。

二.接口分析

获取微信公众号的接口：
https://mp.weixin.qq.com/cgi-bin/searchbiz?
参数：
action=search_biz
begin=0
count=5
query=公众号名称
token=每个账号对应的token值
lang=zh_CN
f=json
ajax=1
请求方式：
GET
所以这个接口中我们只需要得到token即可，而query则是你需要搜索的公众号，token则可以通过登录后的网页链接获取得到。

获取对应公众号的文章的接口：
https://mp.weixin.qq.com/cgi-bin/appmsg?
参数：
action=list_ex
begin=0
count=5
fakeid=MjM5NDAwMTA2MA==
type=9
query=
token=557131216
lang=zh_CN
f=json
ajax=1
请求方式：
GET
在这个接口中我们需要获取的值有上一步的token以及fakeid，而这个fakeid则在第一个接口中可以获取得到。从而我们就可以拿到微信公众号文章的数据了。

三.实现

第一步：

首先我们需要通过selenium模拟登录，然后获取到cookie和对应的token

def weChat_login(user, password):

    post = {}

    browser = webdriver.Chrome()

    browser.get('https://mp.weixin.qq.com/')

    sleep(3)

    browser.delete_all_cookies()

    sleep(2)

    # 点击切换到账号密码输入

    browser.find_element_by_xpath("//a[@class='login__type__container__select-type']").click()

    sleep(2)

    # 模拟用户点击

    input_user = browser.find_element_by_xpath("//input[@name='account']")

    input_user.send_keys(user)

    input_password = browser.find_element_by_xpath("//input[@name='password']")

    input_password.send_keys(password)

    sleep(2)

    # 点击登录

    browser.find_element_by_xpath("//a[@class='btn_login']").click()

    sleep(2)

    # 微信登录验证

    print('请扫描二维码')

    sleep(20)

    # 刷新当前网页

    browser.get('https://mp.weixin.qq.com/')

    sleep(5)

    # 获取当前网页链接

    url = browser.current_url

    # 获取当前cookie

    cookies = browser.get_cookies()

    for item in cookies:

        post[item['name']] = item['value']

    # 转换为字符串

    cookie_str = json.dumps(post)

    # 存储到本地

    with open('cookie.txt', 'w+', encoding='utf-8') as f:

        f.write(cookie_str)

    print('cookie保存到本地成功')

    # 对当前网页链接进行切片，获取到token

    paramList = url.strip().split('?')[1].split('&')

    # 定义一个字典存储数据

    paramdict = {}

    for item in paramList:

        paramdict[item.split('=')[0]] = item.split('=')[1]

    # 返回token

    return paramdict['token']

定义了一个登录方法，里面的参数为登录的账号和密码，然后定义了一个字典用来存储cookie的值。通过模拟用户输入对应的账号密码并且点击登录，然后会出现一个扫码验证，用登录的微信去扫码即可。
刷新当前网页后，获取当前cookie以及token然后返回。

第二步：

1.请求获取对应公众号接口，取到我们需要的fakeid

    url = 'https://mp.weixin.qq.com'

    headers = {

        'HOST': 'mp.weixin.qq.com',

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36 Edg/86.0.622.63'

    }

    with open('cookie.txt', 'r', encoding='utf-8') as f:

        cookie = f.read()

    cookies = json.loads(cookie)

    resp = requests.get(url=url, headers=headers, cookies=cookies)

    search_url = 'https://mp.weixin.qq.com/cgi-bin/searchbiz?'

    params = {

        'action': 'search_biz',

        'begin': '0',

        'count': '5',

        'query': '搜索的公众号名称',

        'token': token,

        'lang': 'zh_CN',

        'f': 'json',

        'ajax': '1'

    }

    search_resp = requests.get(url=search_url, cookies=cookies, headers=headers, params=params)

将我们获取到的token和cookie传进来，然后通过requests.get请求，获得返回的微信公众号的json数据

lists = search_resp.json().get('list')[0]

通过上面的代码即可获取到对应的公众号数据

fakeid = lists.get('fakeid')

通过上面的代码就可以得到对应的fakeid

2.请求获取微信公众号文章接口，取到我们需要的文章数据

    appmsg_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?'

    params_data = {

        'action': 'list_ex',

        'begin': '0',

        'count': '5',

        'fakeid': fakeid,

        'type': '9',

        'query': '',

        'token': token,

        'lang': 'zh_CN',

        'f': 'json',

        'ajax': '1'

    }

    appmsg_resp = requests.get(url=appmsg_url, cookies=cookies, headers=headers, params=params_data)

我们传入fakeid和token然后还是调用requests.get请求接口，获得返回的json数据。
我们就实现了对微信公众号文章的爬取。

四.总结

通过对微信公众号文章的爬取，需要掌握selenium和requests的用法，以及如何获取到请求接口。但是需要注意的是当我们循环获取文章时，一定要设置延迟时间，不然账号很容易被封禁，从而得不到返回的数据。

交流基地：630390733

Python 微信公众号文章爬取的更多相关文章

破解微信防盗链&微信公众号文章爬取方案
破解微信图文防盗链:https://www.cnblogs.com/xsxshmily/p/8000043.html 图片解除防盗链:https://blog.csdn.net/show_ljw/ar ...
微信公众号批量爬取java版
最近需要爬取微信公众号的文章信息.在网上找了找发现微信公众号爬取的难点在于公众号文章链接在pc端是打不开的,要用微信的自带浏览器(拿到微信客户端补充的参数,才可以在其它平台打开),这就给爬虫程序造成很 ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
Chrome浏览器保存微信公众号文章中的图片
用chrome浏览器打开微信公众号文章中时,另存为图片时保存的是640.webp,不是图片本身,用IE则没有此问题.大部分chrome插件也无法保存图片. 经过多番尝试,找到一款插件可以批量保存微信公 ...
pc端引入微信公众号文章
最近做了一个小需求,结果坑特别多..... 需求是这样的,要给公司内部做一个微信公众号广告投票系统,整个项目就不多赘述了,有个小功能,要求是这样的: 点击某条记录后的“投票”按钮,在当前页面弹出弹窗显 ...
【技巧】如何使用客户端发布BLOG+如何快速发布微信公众号文章
[技巧]如何使用客户端发布BLOG+如何快速发布微信公众号文章 1 BLOG文档结构图 2 前言部分 2.1 导读和注意事项各位技术爱好者,看完本文后,你可以掌握如下的技能,也 ...
制作的excel表格如何放到微信公众号文章中？
制作的excel表格如何放到微信公众号文章中? 我们都知道创建一个微信公众号,在公众号中发布一些文章是非常简单的,但公众号添加附件下载的功能却被限制,如今可以使用小程序“微附件”进行在公众号中添加附件 ...
iframe引入微信公众号文章
微信在文章页面设置了响应头""frame-ancestors 'self'"阻止了外部页面将其嵌套的行为,文章的图片也设置了防盗链的功能,这就导致了直接在iframe中引 ...
Python微信公众号开发
最近老大叫我学习开发微信,试着玩了下.网上查了下文档.有点过时. 简单步骤: 1)申请服务器并完成环境配置去腾讯云购买云服务器.当然你也可以购买其他产品,比如阿里云.因为我是学生,有优惠110一年. ...

随机推荐

iOS 百度地图使用详解
最近仿照美团做了款应用,刚好用到百度地图,高德地图之前用的比较多,只是这个项目的后台服务器是另外一个公司做的,他们用的就是百度地图,现在网上用百度地图的还不算太多,博文也是断断续续的,主要是中间跳跃有 ...
【bzoj2588/P2633】count on a tree —— LCA + 主席树
(以下是luogu题面) 题目描述给定一棵N个节点的树,每个点有一个权值,对于M个询问(u,v,k),你需要回答u xor lastans和v这两个节点间第K小的点权.其中lastans是上一个询问 ...
Matlab 画图1
plot函数 plot最简单的是plot(x,y),其中,x,y是一组数据如果要画出\(y=x^2\)的图像在Command Window中输入 x =[1 2 3]; y =[4 5 6]; p ...
dubbo ChannelHandler
记得我们在做服务暴露的bind和服务调用的connect都有一个ExchangeHandler的实例作为入参: 这个handler最终会利用装饰者模式被封装若干层,Dubbo中提供了大量的Handle ...
【论文解读】【半监督学习】【Google教你水论文】A Simple Semi-Supervised Learning Framework for Object Detection
题记:最近在做LLL(Life Long Learning),接触到了SSL(Semi-Supervised Learning)正好读到了谷歌今年的论文,也是比较有点开创性的,浅显易懂,对比实验丰富, ...
harbor私有仓库部署
Harbor 简介 Harbor是构建企业级私有docker镜像的仓库的开源解决方案,它是Docker Registry的更高级封装,它除了提供友好的Web UI界面,角色和用户权限管理,用户 ...
关闭Win10窗口拖动到桌面边缘自动缩放功能
在Python中使用moviepy进行音视频剪辑混音合成时输出文件无声音问题
专栏:Python基础教程目录专栏:使用PyQt开发图形界面Python应用专栏:PyQt入门学习老猿Python博文目录老猿学5G博文目录在使用moviepy进行音视频剪辑时发现输出成功但 ...
Python使用property函数定义的属性名与其他实例变量重名会怎么样？
首先如果定义的属性名与该属性对应的操作方法操作的实例对象同名就会触发无穷的递归调用,相关部分请参考<Python案例详解:使用property函数定义与实例变量同名的属性会怎样?> 但如果 ...
PyQt（Python+Qt）学习随笔：QTreeView树形视图的headerHiden属性
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址 QTreeView树形视图的headerHiden属性用于控制视图中是否隐藏标题,为True隐藏,否 ...

Python 微信公众号文章爬取