公众号配图别再抽卡了,我用 Codex 搭了一条流水线
我用林知夏游记做了一次实操:先在 Obsidian 整理正文和素材,再让 Codex 拆镜头、写提示词,最后交给 image2.0 批量出图。
你怎么给文章配图?如果是打开生图网页,写一句提示词,等模型吐四张图,再一张张挑?还这么原始不如换个思路,AI工作流早就可以一键生成了。
事情是这样的。
我前几天做了一篇虚拟小姐姐林知夏的五一游记公众号文章。
没看过的,可以去看看:
https://mp.weixin.qq.com/s/vRP3VjNOxmB4E_mBiqyRcw

她五一从杭州飞去成都,见一个老朋友,去宽窄巷子吹风,在小巷茶馆坐到太阳偏西,晚上去玉林吃串串。
当然,林知夏并不存在。
她的人设、行程、照片、朋友圈、攻略图,都是我用 Obsidian、Codex 和 image2.0 做出来的。
你如果习惯用别的,什么Antigravity、Claude code、trae、Open code……也没问题,都可以照着这个思路做。
先叠个甲,有人觉得图片一眼假,很正常,本来就是 AI 生成的。

今天不讨论哪个模型生成的人更真实,你们一定能做出更优质的文章,更真实的小姐姐,更符合自己账号调性的画面。
今天讲的是文章配图,怎么从抽卡,变成一套可以复用的工作流。
如果你是内容工作者,可以收藏这篇文章。
一定用得上。
别忙着打开即梦
AI生图,原来最重要的是提示词。
文章里写成都旅行,你能想到:一个女生在宽窄巷子,电影感,真实摄影。
模型一次给你出四张,不满意,再改几个词。还是不满意,再出图,再换。

一通操作猛如虎,最后运气好,可能挑得出一张能看的。
这就是抽卡,最大的问题,是没有积累。
你这次觉得不错的提示词,下次可能找不到。你这次调出来的人物形象,下次可能对不上。你这次踩过的坑,下次可能还会再踩一遍。
一篇文章需要的可不只是一张封面,可能有头图尾图、人物图、场景图、信息图、转场图等等。图反正是为正文内容服务的。
所以这件事必须要从文章开始。
我的方法是,先在 Obsidian 里建一个项目笔记,把文章正文、人物设定、参考图、场景列表、输出目录全部放进去。
当然不需要自己做,或者说,至少这篇笔记的初稿不用自己做,你可以给你的大模型这条指令:

很快,你的设计笔记的初稿就出来了。

初稿不可能一遍就满意,可能有很多问题,继续与codex沟通几轮,特别让它注意每张图片应该对应正文的什么位置,要解决什么问题,画面中必须有什么、没有什么、是文生图还是图生图等等。
等你的生图笔记的初稿写完,配图这件事就开始变得像工作流。你不再是在问模型:给我一张好看的图吧,你是在给它派活儿。
这也是 Codex 这类 IDE 或者 CLI 工具比网页聊天更适合干这件事的地方。
网页聊天适合临时小任务,而 Codex 适合进你的 Obsidian 笔记库,读上下文,改笔记,生成提示词物料,最后按文件路径去执行。
这才叫工作流。
人物和场景先定清楚
如果你的人物图不止一张,一致性就是最先需要解决的问题。
说人话,小姐姐前面是长发,后面别变短发;前面米白外套,后面别突然变羽绒服;前面像28岁内容运营,后面别变成影楼写真模特。

所以,我们先定人物形象,先出标准照,后面凡是出现人物,都是图生图。
我先让 Codex 根据林知夏的人设,整理一份人物形象说明。这里不要写顶级美女、氛围感女神这种废话。模型看到这些词,很容易往网红脸、广告脸、精修脸去靠拢,不是我们想要的。
我让它写的是可执行信息。

年龄、发型、发色、穿搭、拍摄风格,全都写清楚。还需要真实手机摄影,自然光,生活化构图,不要棚拍,不要商业广告感。
然后先生成一张标准图。
如果条件允许,再补三视图或者几张不同角度的参考图。

后面的规则就简单了。 凡是林知夏本人要出镜的图片,让 Codex 在提示词里明确引用标准照;而如果是纯场景、物品、攻略卡、菜单、小票这类图,再用文生图。 这样上下文就会省很多。 你不用每一张都啰嗦地重复她是什么气质、什么脸、什么衣服。人物出镜时引用参考图,非人物图就专心写场景和信息。把所有图都当成文生图来写,每一张都重新描述一遍小姐姐,模型累,你也累。 还有几个小细节也要提前写进笔记里:一天内衣服不要换、发型不要一会儿卷发一会儿直发、五一成都,不要搞成冬装、旅行照片不要过度精修、如果是生活化公众号配图,就别让它变成商业广告大片。 这些都属于生产约束。

约束写得越清楚,后面越省事。
主角解决完,下一步是场景。
思路也不难,你考虑这些:
这篇文章到底需要几张图?每张图大概放在哪?每张图要帮正文表达什么?
比如你写的是游记,可能是出发、路上、抵达、景点、吃饭、收尾等等。
别的内容也适用。
你写小红书心情贴,也可以拆成开场情绪图、生活细节图、聊天截图、收尾图。
你写一篇产品体验,也可以拆成产品界面图、使用场景图、前后对比图、结果展示图。
你写 PPT 提纲,也可以拆成封面图、流程图、案例图、结论图。
你写知识管理文章,也可以拆成资料入口、整理过程、输出结果、工具界面。
我这次让 Codex 做的事,就是按正文拆出这些画面位置。
我给它的要求大概是这样:

第一轮出来的结果,我并不满意。
它会犯一个很典型的问题:图太多。
几乎每一段都想配图。
这就不对了。
公众号配图不是做相册,图太密会打断阅读。
所以我让 Codex 第二轮收敛:

这轮就好多了。
然后我继续让它补两列。
一列叫生成方式,标明文生图还是图生图。
一列叫负面要求,专门写不要什么。
比如不要广告感,不要过度磨皮,不要国际航班,不要把串串做成高级火锅店,不要让人物换衣服。
到这里,提示词还没开始写。
但工作已经完成了一半。
因为你已经知道这篇文章需要哪些图,每张图为什么存在,以及它该怎么生成。
这比直接让模型写 20 条 prompt 靠谱得多。
终于可以写提示词了
前面做完,才进入提示词。
生图的提示词分两种:文生图、图生图。
文生图就是纯场景了,只要主角、配角不出现,都用文生图就行,比如行李箱、机场大厅、飞机云层、攻略卡、菜单小票、食物桌面,甚至是没有人物的封面也算。这类图的重点是场景真实、信息合理、画面能放进文章。


提示词要写清楚具体物件、时间、地点、拍摄方式、画面用途。
比如行李箱图,只写:女生出发前收拾行李,肯定不够。
它要有出发前夜的感觉,要有行李箱、充电宝、耳机、手机航班信息,要有一点凌乱,但不能乱到像灾难现场。读者一看就知道,这个人明天要出门。


图生图适合人物出镜的图,比如机场自拍、宽窄巷子半身照、茶馆侧影、朋友合照。
这类图的重点是让模型遵照参考图。
我会让 Codex 在提示词里明确写:
参考林知夏标准照,保持同一人物、同一发型、同一穿搭、同一年龄感,只改变场景和动作。
然后再补当前场景。

比如茶馆图,参考标准照,林知夏坐在成都小巷茶馆,桌上有盖碗茶,下午自然光,朋友在旁边看手机,真实手机摄影,不要棚拍,不要商业广告感。
如果是合照,还要特别说明谁是主角,谁是朋友。
否则两个人很容易互相污染。

这就是图生图提示词和文生图提示词最大的差别。
文生图是在从零造画面,图生图是在保留参考图的基础上换场景。
你不能用同一套话术。
我会把这些提示词全部写回 Obsidian 的提示词物料包里,而不是散在聊天记录里。
对了,上面忘了说,不是我自己写,还是让codex来写,所以,你也完全可以做到。

好了,我们的全部提示词就被大模型写好了,当然你可以仔细检查一下有没有问题,小问题你随手就改了,如果是大问题,或者多处都有问题,还是交给codex,它来帮你改。
执行的时候,就很简单了。
我只需要发给 Codex 下面的提示词:

敲下回车,就可以坐着喝茶去了,大模型会帮你忙活,image 2.0是现在最火的出图大模型,真实感已经非常领先了,等它出图的时候你还可以去看看我做过的 image 2.0 评测。
(插入视频)
工作流的意义就在这里:把判断写进笔记里,让 AI 按这套判断执行。 没过一会儿,你指定的文件夹下面已经排出了密密麻麻的图片,场景基本合理,人物一致性也不错。怎么样?有没有一点点成就感?

不能绝对相信大模型,你得仔细检查,人物图,看人有没有变形,手指这些容易出错的有没有出问题。
信息图,看文字和信息有没有胡说。场景图,看它是不是符合正文。吃的东西,看它是不是像那顿饭,明明都说了玉林串串,别搞成夫妻肺片了。
不行就重跑。
由于你每一张图都有编号,很简单,你就告诉它:
图片我看了,第几张、第几张、第几张……我不满意,你遵循提示词重新生成这几张。
都不用你仔细说,只要前面的提示词你下了功夫,大模型不过就是照做而已,它就是生产过程里的一道工序。
这才是效率提高的地方。
你要怎么用?
刚才说了,这套流程适合很多种内容,只要有文案配图的需求,你就可以抄作业。
小红书心情贴,让 Codex 先拆情绪节点,再拆生活细节图;产品体验文章,让 Codex 先拆使用流程,再拆界面图、场景图、结果图;PPT 提纲,可以让 Codex 先拆章节,再拆封面图、流程图、案例图、结论图;课程笔记,可以让 Codex 先拆知识点,再拆概念图、示意图、例子图。
视频脚本也可以这么干。
先把文案拆成镜头,再决定哪些镜头文生图,哪些镜头图生图,哪些镜头交给视频模型。
内容工作者用 AI,不要一直停在只要单次的结果。
你应该开始搭自己的生产系统,这套东西,不知道你有没有兴趣,如果有人需要,我可以把它提炼成一套skills,以后你只需要部署到你的电脑上,只要你的文案内容写好了,让它配图也就是一句话的事。
Codex + Obsidian 是一张工作台,可以让你下一次更快。只需要让大模型把这篇文章拆成镜头,把镜头变成任务,把任务变成提示词,把提示词变成可以复用的物料。
你有了这套东西,下一篇文章就不用从零开始了。
这感觉就很爽。

