公众号文章

给大模型加上硬约束，AI工作流才能稳定进入真实生产

一条公众号链接自动入库，真正起作用的是背后的规则、流程和校验，不只是模型能力。

2026-05-01约 7 分钟

<section style="margin: 18px 0 24px 0; padding: 14px 16px; background: #fff8ef; border-left: 4px solid #f29b52; color: #5f5146; font-size: 15px; line-height: 1.8;"> 好的信息源越来越封闭。公众号和 X，是最典型的两个地方。你想把里面有用的东西稳定采进自己的知识库，很难。Hermes 能把这条链路先跑起来，不过它也不是每次都稳，还是会出问题。 </section>

公众号和 X 这些优秀的信息平台，都很封闭。你想把里面有用的东西稳定采进自己的知识库，不是点一下收藏就能解决的。后来开始用 Hermes 才发现，它刚好能解决这个问题。它能在后台跑脚本，能专门做采集、整理、入库。还能通过飞书 CLI 和官方 Skills 去驱动飞书，让公众号文章或者 X 上的贴文进到飞书多维表格里。这一下，原来最头疼的采集工作，看似能解决了。不过，能跑起来，不代表每次都跑得顺。有时链接识别对了，字段却写错了；有时流程启动了，后面的入库又断了；还有时候大模型说已经完成了，打开表格一看，里面还是空的。你会先怀疑模型，是不是它没听懂，是不是它判断力不够？时间长了你发现，真正需要大模型判断的部分其实很少。按照约定，它只要看一眼，这条消息里是不是只有一条链接？还有没有“入库”这个触发词？要分析的东西很少。麻烦的地方，都在模型外面。

1 三层条件

采集流程要想真正跑起来，至少有三层东西要到位。第一层是入口判断。飞书里来了一条消息，系统要先确认它是不是一条公众号链接。如果一条消息里混了多条链接，或者文字里夹着别的指令，就不能直接往下走。这里需要模型，但它做的是很小的局部判断，不是让它临场设计整套流程。第二层是内容抓取。公众号原文并不是你后台大模型直接读取内容的，这一步要靠预置的脚本。脚本能不能拿到正文，失败以后怎么返回错误，返回的内容长什么样，这些都不是模型自己能凭感觉解决的。模型再强，也不能替代一个真正能工作的抓取程序。第三层是飞书入库。多维表格不是喊一句“写进去”，就会自己多一条记录。要调用飞书 CLI，要知道写哪张表、哪几个字段、状态怎么标、来源怎么留。字段名一变，权限一断，命令参数一错，整个流程都会卡住。所以这个任务说简单也简单，说复杂也复杂。简单的是模型不需要理解整篇文章，不需要给文章打分，不需要写总结。复杂的是它必须被放进一套已经搭好的管道里。入口、脚本、表格、错误处理，每一步都要有边界。这也是我后来意识到的关键：固定流程里，大模型最好不要承担太多自由发挥。

2 约束价值

很多人比较 AI，习惯先问哪个模型更强。 Gemini、Claude 确实强，复杂推理、长上下文、多轮协作，它们会稳很多。Deepseek、Kimi 在某些长任务里显得吃力。不吹不黑，客观讲，这是公认的认知。但固定流程和开放任务不是一类东西。开放任务考验模型的综合能力。你把一堆材料交给它，让它自己判断问题、拆解任务、选择路径、组织答案，强模型当然更有优势。比如写代码、开发网站、整理你的知识库……，简单说，不是一句话、两句话说得清楚的任务，都属于这种。固定流程考验的是另一件事：你有没有把任务拆到足够清楚，有没有不折不扣的执行到位，让模型只在该判断的地方判断，这些都是偏向于指令遵循的能力，按部就班，基本不会出错。开篇我们说的那个入库流程。消息从哪里来，先检查什么，检查通过以后调哪个脚本，脚本返回以后写到哪张表，失败时停在哪一步，这些东西一旦提前写清楚，模型就不再需要猜。它只是在一个节点上做判断，然后把结果交给下一步。这时候，能力差距会被流程吸收掉一部分。不是说模型能力不重要。模型当然重要，尤其是开放问题、复杂写作、长链路推理。可一旦任务变成固定流程，真正决定稳定性的，就会从“模型能不能临场发挥”转向“外部约束有没有写清楚”。这套东西就是最近特别火的概念，叫做 harness。对创作者和个人工作流来说，更重要的是理解它背后的朴素事实：给模型一套明确的轨道，模型就不用每次重新发明路线。

3 写进系统

写作其实也是同一件事。你只说一句“帮我写一篇公众号文章”，模型大概率能给你一篇完整稿。标题有，开头有，案例有，结尾也有。你读完会觉得，讲得都对，但啥也没说，而且你大概率能看到满篇的破折号、引号、无序列表，完整不等于有价值，顺滑也不等于像人写的。它不知道你讨厌报告腔，不知道你不喜欢一串排比，不知道 intro 要用引用格式，也不知道正文不能靠空行制造节奏。判断要不要交代来源？逐字稿和文章有什么区别？发布前还要检查标题、摘要、标签和交付物，等等。作为内容工作者，这些东西当然都在你脑子里，但如果只存在脑子里，你每次写稿都要重新解释。解释得细一点，结果就好一点；解释欠缺一点，稿子又是不痛不痒的平均写法。它没有人味，会把文章写得很完整，很安全，但任何人都可以署名，并不是你的东西。所以真正要沉淀的，不是一条更长的 prompt。 prompt 解决一次生成，reference 才开始解决长期复用。哪些开头能用，哪些句式要警惕，什么叫自然段行文，什么情况下必须重写，三轮校验分别检查什么，这些都应该写进 reference。 schema 负责把控输出，workflow 负责确认步骤，review 负责把关质量。 SKILL.md 文件更像入口。它告诉模型什么时候触发这个 skill，默认要读哪些 reference，要走什么工作流。真正的灵魂不在入口里，而在那些细碎的规则和失败记录里。每一次你指出“这里太像 AI”，下一次就应该变成一条更具体的审校规则；每一次流程跑偏，下一次就应该变成一条更清楚的边界。这件事听起来很简单，但你真的要做，很难。

4 你的真正资产

模型会变。今天一个模型强，明天另一个模型更强，再过一阵还会有新的模型冒出来。如果你的能力只关注一套模型，模型一变，优势就很容易被抹平。只有一套属于自己的工作流可以留下来。你怎么判断选题，怎么拆任务，怎么调用工具，怎么审稿，怎么决定一条视频需要什么画面，怎么在发布前检查标题、摘要和标签，这些东西沉淀下来以后，就不会跟着模型版本一起消失。不管你用千问、kimi，还是claude、gemini，都不重要，它们会变成你自己的生产系统。对个人创作者来说，这个判断尤其重要。我们以前很容易把 AI 使用能力理解成 prompt 能力，好像谁能写出一个厉害提示词，谁就掌握了 AI。现在我更愿意把它理解成系统建设能力，prompt 只是入口，规则是轨道，reference 是记忆，schema 是边界，校验是质量闸门。这套系统一开始一定很粗糙。几条规则，几个脚本，几份审校清单，几个还不稳定的流程。但它会慢慢长出来，一个流程跑通了，就留下来；一个表达被指出不对，就写进审校；一个字段忘了填，就补进 schema；一次发布出问题，就变成下一次发布前的检查项。这才是 AI 工作流真正进入生产的方式，它应该是逐渐迭代的。模型提供能力，约束决定能力怎么被使用。能把约束写清楚的人，才是在把 AI 从一次性对话，变成自己的长期生产系统。你觉得呢？

公众号尾图