今天终于把之前文章中提到的信息聚合站做好了,大致效果见下。
Image
Image
说是“终于”,但其实过程还算是比较轻松的,gpt-5.5 做规划,deepseek-v4-flash 承担具体的代码执行工作,非常顺畅,当然也可能是我的任务本来就不算特别难。土区的 chatgpt plus 套餐 + opencode-go 套餐,一个月的开销基本控制在人民币 150 元吧。
这个网站上我收集的信息分三类,一是新闻媒体或杂志的报道,二是社交媒体上关注的大V动态,三是论坛特定板块的帖子。
如何稳定地抓到信息源?媒体和杂志直接用开源 Miniflux 订阅 RSS 源,然后用我在我在用的阅读工具(穷鬼版)中介绍过的 Bypass Paywall Clean 插件打开即可阅读;而那些 bot detection 比较严格的社交网站,只能本地通过 puppeteer 或者 playwright 模拟人工操作来规避。
但是那么多信息我不可能一个个看过来,所以我的初衷是让 AI 帮我做中文摘要,这样我能很快地找到我感兴趣的内容。不过因为我的信息源实在是太多了,每个报道或者帖子都做摘要的话,我发现即使是量大管饱的 opencode-go 套餐下的 deepseek-v4-flash,竟然也打不住。
我感到欣慰的同时,决定改变策略,反正我也不可能每篇都看,而且很多报道看个标题就知道有没有价值,所以我现在的做法,是在每篇文章或帖子旁加一个“做摘要”的按钮,按需生成。
整个项目最大的坑就在这里,获取信息源不难,难的是如何稳定地用脚本做摘要,经过一段时间的折腾,我发现最省心的办法还是前面说的在本地通过 playwright 运行浏览器,让网站认为确实是真人在操作。
在这一点上,其实今年年初的时候,我还试过另一套方案,可以和大家再分享下。
那套工作流是 miniflux + windmill(开源脚本调度平台)+ tampermonkey,miniflux 依然负责信息源,windmill 负责后台的 AI 摘要,而 tampermonkey 油猴插件则负责浏览器前端的操作。
简单来说,我在 miniflux 界面里看到感兴趣的文章后,在浏览器里打开链接,点击在文章页面的右下角油猴按钮,后台的人工智能就会启动,自动收集页面上的文字,挑选出有用的部分进行翻译和总结,最后发回到我自己 DIY 的信息源,我只要刷新 miniflux,就可以看到人工智能制作的摘要。
这套工作流为什么我没有沿用呢?因为一来感觉不够优雅,不管是手机还是电脑上要手动打开浏览器界面,而且浏览器里还要再装油猴插件,有点重,二来没有进一步推进的空间。现在的这个信息聚合站如果之后再优化一阵的话,感觉有商业化的潜力,所以想试试看,不过不会很容易,可能还是会有不小的合规风险。
有了这个聚合站,那之后不管是投资参考还是公众号选题,都会高效不少。感兴趣的朋友,也欢迎在评论区留言聊聊。