【微信插件】批量下载公众号的历史文章-HQY 一个和谐有爱的空间

10

2025
06
15:35:53

【微信插件】批量下载公众号的历史文章

前言

目前写了两篇关于公众号采集的文章，一个是基于hook实时监听公众号的实时推送：更新一下公众号采集监控的程序；还有一个是基于http接口的公众号历史数据采集：【微信插件】公众号历史文章采集。

现在http接口的访问次数非常有限，甚至有的账号直接封死了这条路，例如我的微信号访问http接口会出现未知错误，请稍后再试，已经很多天都是这样了。

所以这里提供远程调用我服务器的接口来抓公众号历史的方式(按量付费)，服务器部署的采集程序是我的一个付费项目，有兴趣的可以看文档：https://wqup3673wn.apifox.cn。

交流群

建了个交流群方便大家反馈和看热闹，看看哪些倒霉鬼被制裁了。后台回复机器人群获取群二维码(很多人进群不用插件也不发言，然后突然就出来发广告)，所以限制只能加好友发送机器人群让机器人自动邀请你进群。

插件下载地址

使用方法和下载地址都放github了

github地址：https://github.com/kanadeblisst00/pywxrobot2.0

已有插件

待更新插件

检测好友状态（拉黑，删除等）
群聊关键词监控
群成员监控（进群，退群等）
进群提示语

下载历史插件

使用方法和之前的历史插件一样，只需要填写你需要下载的公众号的随便哪篇文章(用于提取账号标识，一般是以gh_开头的id)，然后设置一下翻页到什么时间结束，想下载全部历史的话设置成2000-01-01就可以。

采集偏移这个不需要填，这个是用于断点续采的，程序会自动填。在填写下列表页数据保存路径，下载接口是用于将文章下载为mhtml和pdf的服务，具体看下面的下载文章介绍。如果你只需要标题链接和时间，可以不填。Token则是用于验证的，获取方法可以看上面的apifox文档。

接着保存点运行插件就会开始下载公众号历史文章里，如果你还配置了下载接口，就可以看到mhtml和pdf文件正在生成。

下载文章为pdf

监听日常和采集历史的接口都只能拿到文章的链接，有的不懂代码的不知道怎么使用文章链接下载成html或者pdf格式，所以顺便写了一个下载文章的服务。

原理比较简单，就是使用playwright打开链接，然后划到文章底部(为了加载所有图片)，接着保存成mhtml和pdf即可，这样可以保存网页里的图片和样式，保存后的pdf基本和网页看到的一模一样。另外，为了更方便的和插件对接，还用fastapi写了个服务，这样当插件监听到公众号推送就将链接传给这个服务开始下载文章。采集历史的时候也可以在配置里填写该服务的接口。

这个服务的代码已经开源：https://github.com/kanadeblisst00/download_biz_article

可能有的人还想要其他格式，例如文档格式docx，因为涉及文件格式转换并且我也没有这个需求就不去实现了，有兴趣和能力的可以实现一下然后pr。

我下载了我公众号的所有历史文章，已经上传到了网盘，有兴趣的可以自行下载，下载地址看上面的github。