船长的角落 Captain Nook
返回内容目录
图像与视频

AI VLOG视频生成全流程教案

summary: 这是一份教程附件,按实际生产顺序汇总 AI VLOG 从逐字稿、视频脚本、分镜、生图提示词、视频提示词,到 ComfyUI/Codex 批量生成的完整操作材料。

2026-06-15飞书同步约 130 分钟
来自视频:6步用AI做情绪vlog!Claude+Codex+LTX2.3保姆级教程

文档插图

AI VLOG视频生成全流程教案

使用说明

这是视频教程的配套手册,用来复现一条 AI 旅行 VLOG 的完整生成流程。

按顺序使用:

  1. 先看“总控笔记”,确认项目目标、人物、成片结构和文件分工。
  2. 复制“逐字稿”,作为后续分镜和提示词的文本输入。
  3. 参考“视频脚本”,把逐字稿拆成可执行镜头。
  4. 使用“横屏分镜执行表”,确定每个镜头的场景、任务、时长和旁白对应关系。
  5. 使用“生图提示词”,生成每个镜头的 16:9 首帧图。
  6. 使用“视频生成准备”,确认输入图片、生成版本数、风险等级、命名规则和筛选标准。
  7. 使用“LTX 视频提示词指南”,统一视频提示词写法。
  8. 使用“视频生成提示词”,逐镜头生成视频。
  9. 按“ComfyUI 与 Codex 连接实操”生成批量任务、写入工作流,并提交到 ComfyUI。
  10. 按“素材筛选与剪辑规则”筛出可用片段,进入剪辑。

总控笔记

林知夏游记VLOG|项目总控笔记

1. 项目基本信息

文档插图

项目名称:林知夏游记VLOG

项目类型:AI生成视频教程 / 横屏旅行心情日记VLOG

目标成片:约1分钟,横屏16:9

主角设定:林知夏,一个带有生活感、细腻情绪和轻旅行气质的女性主角。

闺蜜设定:阿乔,林知夏在成都要见的好朋友,关系亲近、自然、松弛。

核心故事:林知夏从自己所在的城市出发,乘飞机前往成都,去见一位很久没见的闺蜜阿乔。整支视频不是传统攻略型旅行片,而是更接近“心情日记”:轻叙事、重氛围、重情绪、重生活瞬间。

当前阶段:已决定本轮全部使用单首帧图生视频,准备基于 ComfyUI API 工作流批量生成候选视频素材。

2. 项目定位

这个项目的重点不是单纯制作一条VLOG,而是形成一套“如何用AI生成旅行VLOG”的教程型项目。最终产出应同时服务两个目标:一是能生成一条完整、自然、有情绪的1分钟横屏短片;二是把制作过程拆解成可复用的方法,包括人物设定、故事结构、分镜拆解、画面提示词、首帧生成、图生视频、剪辑节奏和成片复盘。

整体风格:温柔、真实、低饱和暖色、轻电影感、生活感、心情日记感,带一点久别重逢的情绪。

3. 总控笔记用途

这份笔记作为整个项目的中枢文件,用于记录项目阶段、核心共识、文件结构和下一步任务。

后续每次推进时,可以先回到这里确认当前阶段、已有文件和下一步产出,避免脚本、提示词、分镜和视频素材管理分散。

4. 当前故事方向

林知夏原本总觉得,见一个很久没见的人要等一个刚刚好的时候:不太忙、状态好、攻略也做完整。后来她发现,等着等着,很多人就真的很久没见了。

这次去成都,只是因为阿乔说了一句“来嘛,带你吃串串”,她就订了票。她独自出发,去机场,登机,飞往成都。路上她突然意识到,这几年很多关系都被放进聊天框里,只是偶尔点个赞。

抵达成都后,她在人群里一眼认出阿乔。两人没有夸张剧情,只是自然靠近、笑起来,好像中间隔着的时间也没那么长。之后她们在成都街头慢慢走,坐茶馆,吃串串,夜里回到酒店翻照片。照片不一定好看,但每一张都记得当时在笑什么。

情绪关键词:出发、等待、靠近、重逢、松弛、烟火气、朋友、今天见。

5. 当前成片结构

成片目标约60秒,但视频素材采用冗余生成策略,不按刚好60秒准备。

当前分镜池共25个候选镜头。最终剪辑预计选用16到20个镜头,多数镜头使用2到4秒,少数情绪镜头使用5秒左右。

整体节奏暂定:

0-10秒:出发前。行李、攻略、登机牌、聊天消息,建立“去成都见阿乔”的动机。

10-25秒:路上与飞行。出发、车窗、机场、飞机、手机空镜,承接关系被放在聊天框里的内心旁白。

25-35秒:抵达与重逢。成都初印象、人群中认出阿乔、两人靠近或轻抱。

35-48秒:成都漫游与茶馆。街道、树影、小馆门口、照片感、茶馆慢下来。

48-60秒:串串与夜晚收束。串串店、锅里热气、朋友对坐、饭后夜路、酒店翻照片、手机合照结尾。

6. 当前文件结构

林知夏游记VLOG/
├─ 00_总控笔记.md
├─ 01_VLOG旁白逐字稿.md
├─ 02_视频脚本.md
├─ 03_横屏分镜执行表.md
├─ 04_生图提示词.md
├─ 05_视频生成准备.md
├─ 06_视频生成提示词.md
├─ 07_ComfyUI视频生成执行表.md
├─ LTX视频提示词写法参考.md
├─ AI Art Prompts Examples & Prompt Guide.md
├─ generate_vlog_images.mjs
├─ video_ltx2_3_i2v API.json
├─ video_ltx2_3_i2v.json
├─ video_ltx2_3_flf2v swz.json
├─ video_wan2_2_14B_i2v.json
├─ 人物与插图/
│  ├─ 001linzhixia.png
│  ├─ 002aqiao.png
│  └─ 其它历史图文素材
└─ 生成图片/
   ├─ 总览_contact_sheet.jpg
   ├─ 镜头01_首帧.png
   ├─ ...
   └─ 镜头25_首帧.png

7. 核心笔记说明

01_VLOG旁白逐字稿.md:最终旁白文本,后续用于生成语音旁白。

02_视频脚本.md:视频脚本策略,包括横屏16:9、首尾帧思路、镜头池和节奏设计。

03_横屏分镜执行表.md:25个候选镜头的自然语言分镜表,是视频生成和剪辑的主依据。

04_生图提示词.md:给 ChatGPT image 2.0 使用的首帧/尾帧生图提示词,包含全局要求和各镜头提示词。

05_视频生成准备.md:图生视频阶段执行表,包含每个镜头的图片文件、生成方式、版本数量、风险等级、命名规范和筛选标准。

06_视频生成提示词.md:给 LTX 2.3 使用的视频生成提示词,只包含全局视频要求和25条逐镜头视频提示词。

07_ComfyUI视频生成执行表.md:把首帧图片、视频提示词和 ComfyUI API 工作流连接起来,作为批量生成视频的执行依据。

LTX视频提示词写法参考.md:整合 LTX 官方提示词指南和本项目分析,用作后续撰写视频提示词的参考。

AI Art Prompts Examples & Prompt Guide.md:LTX 官方提示词指南剪藏原文。

8. 已完成事项

  • 创建项目文件夹并确认所有物料放在该路径下。
  • 创建总控笔记。
  • 读取并规范命名旁白逐字稿。
  • 确认人物原型图和历史图文素材。
  • 建立视频脚本笔记。
  • 建立横屏分镜执行表。
  • 建立生图提示词笔记。
  • 生成25个候选镜头所需的首帧/尾帧图片,共33张,全部为1536x864横屏16:9;本轮视频生成只使用首帧。
  • 建立视频生成准备笔记。
  • 读取并整理 LTX 官方提示词指南。
  • 建立 LTX 视频提示词写法参考。
  • 建立 LTX 2.3 视频生成提示词笔记。
  • 导出并检查 LTX 2.3 i2v API 工作流。
  • 根据测试结论,确认本轮全部使用单首帧图生视频,不使用首尾帧方式。
  • 更新视频生成准备和 ComfyUI 视频生成执行表。

9. 下一步任务

当前最优先任务:按 05_视频生成准备.md06_视频生成提示词.md 开始图生视频。

建议执行顺序:

  1. 创建 生成视频/ 文件夹。
  2. 基于 video_ltx2_3_i2v API.json 生成结构化批量任务清单 comfyui_ltx_batch_plan.json
  3. 编写批量提交脚本,逐条替换图片、提示词、seed和输出前缀,并提交到 ComfyUI 队列。
  4. 先测试镜头06,确认 API 工作流、输出路径、分辨率、时长和画面运动稳定。
  5. 测试通过后,按低风险、中风险、高风险顺序生成候选视频。
  6. 生成完成后新建 08_视频素材筛选表.md,记录每个版本的可用情况和可截取时间段。
  7. 进入粗剪阶段,按旁白音频和可用视频片段确定最终镜头顺序与时长。

10. 暂存问题

  • 旁白音频尚未生成。
  • 本轮视频生成已决定全部使用 LTX 2.3 单首帧 i2v;首尾帧方式暂时不使用。
  • 需要先确认 ComfyUI API 队列可用,以及 生成图片/ 中图片是否能被 ComfyUI 正确读取。
  • 需要在视频素材筛选后决定最终是否保留25个候选镜头中的全部叙事节点。
  • 后续还需要整理字幕、音乐音效、剪辑节奏和教程复盘。

11. 版本记录

2026-05-18:创建项目总控笔记初版。

2026-05-18:更新总控笔记,记录横屏16:9方向、首尾帧图片已生成、项目进入图生视频准备阶段。

2026-05-18:新增 LTX 视频提示词参考与 06_视频生成提示词.md,项目具备按逐镜头提示词测试 LTX 2.3 的条件。

2026-05-18:检查 LTX 2.3 i2v API 工作流,并根据测试结论将本轮策略调整为全部使用单首帧图生视频。


逐字稿

以前我总觉得,见一个很久没见的人,要等一个刚刚好的时候。

不太忙,状态好一点,最好还能顺便把攻略做完整。

后来发现,等着等着,很多人就真的很久没见了。

这次去成都,就因为阿乔那句:来嘛,带你吃串串。

我就订了票。

不是“有空聚”,不是“下次约”。

是有人把你放进她的城市里,给你留了一个位置。

飞机起飞以后,我反而不兴奋了。

只是突然想到,这几年我们好像都很擅长把关系放在聊天框里。

互相偶尔点个赞,仅此而已。

阿乔还是那样。

站在人群里,一眼就能认出来。

抱一下,好像中间隔着的时间也没那么长。

我本来以为,五一的游人会让我很烦。

后来发现,好像并没有。

只要不急着完成什么,人多一点也没关系。

照片歪一点,头发乱一点,路走慢一点,都没关系。

下午坐在茶馆里,时间一下就慢了。

不是每一分钟都要有用。

晚上那顿串串吃得很随便。

脚酸,手机快没电,妆也差不多没了。

但朋友坐在对面,锅里一直有热气。

这就已经很够了。

晚上翻照片,发现它们都不算特别好看。

但每一张,我都记得当时在笑什么。

只是把一句说了很久的“下次见”,改成了今天见。

仅此而已。


视频脚本

林知夏游记VLOG|视频脚本笔记

1. 本阶段目标

本笔记用于进入正式视频脚本阶段,把已有插图和旁白逐字稿整理成可执行的1分钟VLOG视频方案。

这一阶段的重点不是重新发明故事,而是基于现有物料进行“图像资产反推脚本”:先判断每张图能承担的镜头功能,再把旁白逐字稿拆分到不同画面中,形成后续可以继续扩展为视频生成提示词、剪辑表和音频方案的脚本底稿。

2. 当前已知约束

  • 成片类型:AI生成旅行VLOG / 心情日记式短片。
  • 成片时长:约1分钟。
  • 成片画幅:横屏16:9。目标是更接近心情日记电影感,而不是竖屏短视频信息流。
  • 叙事视角:不限定为纯第一人称,可以穿插第一人称心情旁白和第三人称观察镜头。
  • 镜头时长:考虑当前生图/生视频模型稳定性,单个生成片段原则上不超过10秒;最终剪辑不应把每条素材都用满10秒。
  • 生成工具:本地模型以 LTX 2.3、Wan 2.2 为主,也可能使用 Seedance 2.0 线上模型。
  • 素材基础:已有林知夏与阿乔人物原型图,也有机场、旅途、成都街道、茶馆、串串、夜晚、照片回看等场景图。
  • 旁白基础:已有完整逐字稿,可作为主旁白,后续可直接用于生成语音。
  • 生成策略:正式生产时需要考虑废片率,不能按“每个镜头一次生成、全部可用”的理想情况设计。

3. 脚本设计原则

3.1 不把旁白等同于画面说明

这条VLOG的旁白更像林知夏的内心独白,画面不需要逐字解释旁白内容。比如旁白说“不是每一分钟都要有用”,画面可以是她和阿乔坐在茶馆里发呆、慢慢喝茶,而不是做出某种明确剧情动作。

3.2 第一人称与第三人称交替

第一人称适合承载心情,例如“我就订了票”“我反而不兴奋了”。第三人称镜头适合呈现她被镜头观察到的状态,例如她在车窗边、机场、街道、茶馆里。这样可以避免整条视频都像自拍口播,也更适合AI视频生成。

3.3 单个生成片段控制在10秒以内,但最终剪辑要更短

当前脚本不再按“10个镜头刚好填满60秒”来设计。单个AI生成片段可以按5到8秒生产,必要时不超过10秒;最终剪辑时,多数镜头只取2到5秒可用部分。这样既能保留心情日记的慢节奏,又能避免整片变成十个长镜头平均铺满,导致节奏松散。

3.4 场景数量至少15个以上

为了给AI生视频留出废片和筛选空间,脚本阶段应设计15个以上的场景/镜头单元。实际可生成20到30条视频素材,最终剪进片子的可能只有12到18条。也就是说,脚本不是只写“刚好够用”的镜头,而是写“足够筛选”的镜头池。

3.5 横屏16:9优先,而不是迁就原竖图

最终成片是横屏16:9,所以所有素材都要按横屏重新评估。竖图不是不能用,但不能直接等比例塞进横屏画面。可用方式包括:横向扩图、重构背景、局部裁切、做物件特写、作为照片/手机相册元素嵌入横屏画面,或用竖图生成新的横屏首帧。

3.6 优先使用已有图片,但允许为横屏生产补帧

已有图片已经覆盖主要叙事节点,所以脚本仍然优先服务这些图。但进入横屏视频阶段后,应允许对部分竖图进行二次处理:生成16:9首帧、补尾帧、扩展背景,或把同一场景拆成多个可生成镜头。

4. 现有图片素材初步判断

4.1 人物原型

  • 人物与插图/001linzhixia.png:林知夏人物原型图,可用于确认外貌、发型、穿搭、气质,也可作为后续人物一致性提示词参考。

文档插图

  • 人物与插图/002aqiao.png:阿乔人物原型图,可用于确认闺蜜形象和双人镜头中的人物关系。

文档插图

4.2 可用场景图

  • 人物与插图/01.png:成都串串/情绪标题感画面,适合做开场氛围或标题页。
  • 人物与插图/04.png:行李箱/出发前整理,适合对应“我就订了票”和出发准备。
  • 人物与插图/05.png:一日路线/攻略感图片,适合表现原本想把攻略做完整,或作为教程中说明素材规划。
  • 人物与插图/07.png:林知夏在车窗旁,适合旅途路上/去机场/抵达城市的过渡。
  • 人物与插图/10-2.png:登机牌和咖啡,适合明确“订票、出发、去成都”的信息。
  • 人物与插图/13.png:机场双人/出行合影感,适合重逢或旅途节点,但需确认画面人物关系是否更适合机场段。
  • 人物与插图/14.png:林知夏和阿乔合照,适合对应“站在人群里,一眼就能认出来”。
  • 人物与插图/16.png:两人在成都街道/巷口同行,适合进入成都后的松弛段落。
  • 人物与插图/18.png:林知夏街头单人,适合城市漫游和人物状态展示。
  • 人物与插图/19.png:多图拼贴,适合“照片歪一点,头发乱一点”的照片回看段落。
  • 人物与插图/20.png:街边小馆门口两人,适合吃饭前或城市烟火气段落。
  • 人物与插图/21.png:茶馆/室内坐着,适合“下午坐在茶馆里,时间一下就慢了”。
  • 人物与插图/23.png:夜晚街道两人同行,适合夜游、饭后散步或情绪转入夜晚。
  • 人物与插图/24.png:玉林串串店外,适合引出晚上串串。
  • 人物与插图/25.png:串串菜品和菜单,适合表现“锅里一直有热气”。
  • 人物与插图/26.png:串串/朋友聚餐拼贴,适合强化晚餐氛围。
  • 人物与插图/27.png:酒店/夜晚整理照片,适合结尾“晚上翻照片”。

4.3 图片是否充足

从内容覆盖看,图片是充足的。它们已经覆盖“出发前、机场/旅途、抵达/见朋友、成都街道、茶馆、串串、夜晚回看”这些关键节点。

但从横屏16:9成片看,图片不是全部可以直接使用。当前素材中有多张竖构图,直接用于横屏会出现两侧空白、人物过大、背景信息不足或画面重心偏移的问题。它们仍然可用,但更适合作为“参考图/首帧素材/局部特写素材”,而不是全部原图直接拉成横屏视频。

目前主要缺口有两个:一是“飞机起飞/云层/机舱外景”的直接素材较少;二是“手机聊天框/阿乔发来消息”的情绪钩子素材缺失。前者可以用登机牌、车窗、机场等待替代,后者如果要强化叙事,建议补一张横屏手机聊天画面或把聊天信息做成后期字幕。

4.4 竖图在横屏项目中的可用性判断

竖图并不等于不可用,但需要分级处理:

  • A类:可直接或轻度处理用于横屏。横向空间足够、主体不太满、背景可扩展的图片,可以做16:9扩图后作为首帧。
  • B类:适合裁切成局部特写。登机牌、咖啡、行李箱、菜单、锅底、照片拼贴等物件类竖图,可以在横屏里做局部推进、扫过或叠化。
  • C类:适合作为参考,不建议直接生成。人物占比太大、边缘缺失、竖屏构图强的图片,建议用它们重新生成16:9首帧,而不是硬扩。
  • D类:适合做“屏幕内素材”。比如照片拼贴或路线图,可以放进横屏画面里的手机、相册、桌面、手账页中,成为画面的一部分。

4.5 针对 LTX 2.3、Wan 2.2、Seedance 2.0 的素材策略

LTX 2.3 和 Wan 2.2 本地模型更适合从稳定、构图明确、人物动作简单的首帧出发。复杂双人互动、拥抱、吃饭、走路等动作容易出废片,所以不应只准备刚好够剪的镜头。Seedance 2.0 如果可用,可以承担更复杂的运镜、人物互动和电影感过渡,但也要保留备选素材。

具体策略:

  • 人物近景、静态情绪、车窗、茶馆、酒店翻照片:优先本地模型生成。
  • 双人同行、街头走动、重逢、夜晚街道:可用本地模型多生成几版,也可优先考虑 Seedance 2.0。
  • 食物、菜单、登机牌、行李箱、城市空镜:适合本地模型批量生成,作为节奏补位素材。
  • 需要强连贯动作的镜头不要承担关键叙事,关键情绪尽量用可控的静态/慢动作镜头表达。

5. 旁白拆分思路

逐字稿可以拆成6个情绪段落:

A. 为什么出发

“以前我总觉得,见一个很久没见的人,要等一个刚刚好的时候。不太忙,状态好一点,最好还能顺便把攻略做完整。后来发现,等着等着,很多人就真的很久没见了。这次去成都,就因为阿乔那句:来嘛,带你吃串串。我就订了票。”

功能:建立动机。画面应是出发前整理、攻略、登机牌。

文档插图

B. 关系被放在聊天框里

“不是‘有空聚’,不是‘下次约’。是有人把你放进她的城市里,给你留了一个位置。飞机起飞以后,我反而不兴奋了。只是突然想到,这几年我们好像都很擅长把关系放在聊天框里。互相偶尔点个赞,仅此而已。”

功能:把旅行从“去玩”转成“去见一个人”。画面适合旅途、窗边、机场等待。

文档插图

C. 见到阿乔

“阿乔还是那样。站在人群里,一眼就能认出来。抱一下,好像中间隔着的时间也没那么长。”

功能:完成重逢。画面需要双人合照或机场/人群中的相遇。

文档插图

D. 进入成都后的松弛

“我本来以为,五一的游人会让我很烦。后来发现,好像并没有。只要不急着完成什么,人多一点也没关系。照片歪一点,头发乱一点,路走慢一点,都没关系。”

功能:从重逢进入城市漫游。画面适合街道、两人同行、照片拼贴。

文档插图

E. 茶馆和串串

“下午坐在茶馆里,时间一下就慢了。不是每一分钟都要有用。晚上那顿串串吃得很随便。脚酸,手机快没电,妆也差不多没了。但朋友坐在对面,锅里一直有热气。这就已经很够了。”

功能:最生活化、最成都的一段。画面适合茶馆、小馆、串串、夜晚街景。

文档插图

F. 夜晚收束

“晚上翻照片,发现它们都不算特别好看。但每一张,我都记得当时在笑什么。只是把一句说了很久的‘下次见’,改成了今天见。仅此而已。”

功能:结尾回看和情绪落点。画面适合酒店里翻照片、手机、夜晚灯光、安静表情。

文档插图

6. 横屏视频生成策略

6.1 不建议全部只做首帧生视频

本项目不能简单理解为“每张图作为首帧,生成一条视频”。原因是:横屏16:9需要更稳定的画面构图,而现有图片中有不少竖构图;同时,心情日记式VLOG需要节奏变化,如果所有镜头都是从首帧向前轻微运动,成片会显得机械。

建议采用三种生成方式混合:

  • 首帧生视频:适合行李、登机牌、车窗、街头单人、茶馆、酒店翻照片等情绪稳定镜头。
  • 首尾帧生视频:适合出发到机场、从街头走进小馆、两人并肩走、夜晚走入街巷等需要方向感的镜头。
  • 纯文生视频/补充空镜:适合飞机云层、城市街景、夜晚灯光、锅里热气、手部翻照片等不强依赖人物一致性的镜头。

6.2 什么时候需要首尾帧

以下镜头建议考虑首尾帧,而不是只用首帧:

  • 人物从静止到走动,尤其是双人同行。
  • 从一个空间进入另一个空间,比如街道到串串店门口。
  • 需要明确运动方向的镜头,比如行李箱被拉走、车窗外风景移动、两人向镜头走来。
  • 需要情绪落点的镜头,比如林知夏从看手机照片到轻微笑。

首尾帧的好处是能约束动作终点,减少模型自由发挥导致的人物变形、方向混乱或构图漂移。

6.3 什么时候只需要首帧

以下镜头只用首帧即可:

  • 物件特写:登机牌、咖啡、菜单、锅底、行李箱。
  • 人物静态情绪:车窗旁、茶馆里、酒店床边。
  • 氛围镜头:夜晚街景、店招、桌面、照片拼贴。

这类镜头的目标不是复杂动作,而是轻微推拉、呼吸感、光影变化和环境氛围。

6.4 生成冗余原则

最终片长约60秒,但生成素材不能只按60秒准备。建议按至少2.5倍到3倍冗余准备:目标剪入60秒,实际生成150到180秒素材。

执行上可以设计18到22个候选场景,每个场景生成1到3条版本。最终剪辑只选其中12到18条进入成片。这样可以应对废片、人物不稳、动作失败、画面不连贯和节奏不合适的问题。

7. 修订版分镜脚本:15个以上候选场景

注:以下是横屏16:9修订版。它不是要求最终全部剪进去,而是作为视频生成镜头池。最终成片约60秒,从中筛选12到18条可用素材。

镜头预计成片使用 {align="right"}生成长度 {align="right"}视角参考图片画面内容对应旁白生成策略
013秒 {align="right"}5秒 {align="right"}第三人称氛围04.png横屏卧室/床边行李箱,衣物和机票感物件散在床上。以前我总觉得,见一个很久没见的人,要等一个刚刚好的时候。竖图转横屏首帧,轻推镜头。
023秒 {align="right"}5秒 {align="right"}第一人称物件05.png桌面上的成都一日路线、手写计划、手机屏幕边缘。不太忙,状态好一点,最好还能顺便把攻略做完整。物件特写,首帧即可。
033秒 {align="right"}5秒 {align="right"}第一人称物件10 2.png登机牌和咖啡,横屏桌面构图,信息点明确。后来发现,等着等着,很多人就真的很久没见了。竖图局部裁切或横向重构。
044秒 {align="right"}6秒 {align="right"}第一人称信息建议补图:聊天框阿乔发来“来嘛,带你吃串串”的消息,林知夏手指停在屏幕上。这次去成都,就因为阿乔那句:来嘛,带你吃串串。我就订了票。建议新做16:9首帧;也可后期字幕替代。
053秒 {align="right"}5秒 {align="right"}第三人称旅途07.png林知夏坐在车窗边,窗外光线移动,人物安静。不是“有空聚”,不是“下次约”。竖图扩成横屏首帧,慢推。
063秒 {align="right"}5秒 {align="right"}第三人称旅途10 2.png 或补机场空镜机场候机/登机牌被拿起,旅途真正开始。是有人把你放进她的城市里,给你留了一个位置。首尾帧可选,表现拿起/放下。
073秒 {align="right"}5秒 {align="right"}空镜建议补图:飞机窗外飞机舷窗外云层,画面安静,轻微震动。飞机起飞以后,我反而不兴奋了。可纯文生视频或补横屏图。
084秒 {align="right"}6秒 {align="right"}第三人称观察07.png车窗/机舱感侧脸,林知夏看向窗外。只是突然想到,这几年我们好像都很擅长把关系放在聊天框里。首帧生视频,动作极轻。
093秒 {align="right"}5秒 {align="right"}转场空镜可补手机/城市空镜手机黑屏反光或城市路牌掠过。互相偶尔点个赞,仅此而已。空镜补位,降低人物生成压力。
104秒 {align="right"}6秒 {align="right"}第三人称重逢14.png 、 13.png人群中看到阿乔,两人靠近、笑起来。阿乔还是那样。站在人群里,一眼就能认出来。双人互动建议多生成版本,可用Seedance。
113秒 {align="right"}5秒 {align="right"}第三人称情绪14.png两人合照式近景,像刚刚见面后的自然记录。抱一下,好像中间隔着的时间也没那么长。不强求拥抱动作,可用微笑近景替代。
124秒 {align="right"}6秒 {align="right"}第三人称城市16.png两人走在成都树影街道里,步子很慢。我本来以为,五一的游人会让我很烦。双人走路建议首尾帧。
133秒 {align="right"}5秒 {align="right"}第三人称城市18.png林知夏在街头停下,回头或轻微看向镜头。后来发现,好像并没有。首帧生视频,人物动作小。
144秒 {align="right"}6秒 {align="right"}第三人称城市20.png两人在街边小馆门口停留,城市烟火气。只要不急着完成什么,人多一点也没关系。横屏扩图,轻微横移。
153秒 {align="right"}5秒 {align="right"}第一人称回忆19.png手机相册/照片拼贴缓慢移动,不完美但真实。照片歪一点,头发乱一点,路走慢一点,都没关系。可作为后期图层动画,不一定生视频。
164秒 {align="right"}6秒 {align="right"}第三人称静态21.png下午茶馆,林知夏坐着,光线慢下来。下午坐在茶馆里,时间一下就慢了。首帧生视频,慢推,适合本地模型。
173秒 {align="right"}5秒 {align="right"}第三人称静态21.png 或补茶杯特写茶杯、桌面、窗边光影,人物可不出现。不是每一分钟都要有用。空镜补位,节奏放慢。
183秒 {align="right"}5秒 {align="right"}第三人称夜晚24.png玉林串串店外夜景,两人走近店门。晚上那顿串串吃得很随便。首尾帧建议,表现走近。
193秒 {align="right"}5秒 {align="right"}第一人称食物25.png串串锅、菜单、筷子和热气。脚酸,手机快没电,妆也差不多没了。物件/食物镜头,适合本地模型。
204秒 {align="right"}6秒 {align="right"}第三人称聚餐26.png两个朋友对坐吃串串,锅里有热气。但朋友坐在对面,锅里一直有热气。这就已经很够了。双人+食物复杂,建议多生成版本。
213秒 {align="right"}5秒 {align="right"}第三人称夜晚23.png夜晚街道,两人饭后慢慢走。晚上翻照片,发现它们都不算特别好看。可作为结尾前转场,也可弃用。
225秒 {align="right"}7秒 {align="right"}第一人称收束27.png酒店房间里,林知夏翻照片,灯光很暖。但每一张,我都记得当时在笑什么。只是把一句说了很久的“下次见”,改成了今天见。仅此而已。可考虑首尾帧:看照片到轻微笑。

候选镜头共22个,预计成片使用约72秒。如果最终目标严格控制在60秒,可以剪掉若干空镜或把多个3秒镜头压缩到2秒。正式剪辑时,建议先按旁白音频定节奏,再从镜头池中挑选最稳的画面填入,而不是机械按表格总时长执行。

8. 节奏设计修订

原先10镜头版本的问题是过于理想化:它假设每条视频都能生成成功,而且每条都能完整使用。实际AI视频流程中,这个假设不成立。修订后应按以下节奏设计:

  • 开场10秒:用3到4个短镜头快速建立“要出发”和“去见朋友”的动机。
  • 旅途10到15秒:用车窗、登机牌、飞机/机场空镜承接关系反思,不做复杂动作。
  • 重逢8到10秒:用2到3个双人镜头表达认出、靠近、笑,不强求完整拥抱。
  • 成都漫游12到15秒:用街道、店门、照片拼贴和茶馆建立松弛感。
  • 串串与夜晚12到15秒:用店外、食物、朋友对坐和酒店翻照片完成情绪落点。

这种节奏不是平均分配,而是“短镜头建立流动,长一点的镜头承接情绪”。画面使用上,人物复杂动作尽量短,静态情绪镜头可以稍长,食物和物件镜头作为节奏缓冲。

9. 需要补充或重做的素材方案

如果完全不补图,也可以进入生成阶段,但横屏电影感会受限制。更稳妥的方案是补少量关键横屏素材:

  • 必补优先级高:聊天框横屏画面,用于“来嘛,带你吃串串”和“关系放在聊天框里”。
  • 必补优先级中:飞机舷窗/云层横屏空镜,用于飞行段明确空间。
  • 可选补充:茶杯/桌面空镜、成都街道路牌、夜晚酒店手机相册特写。
  • 可选重做:把竖构图人物图转成16:9横屏首帧,尤其是行李、车窗、街头、茶馆、酒店这几类关键镜头。

具体解决方案:先不要大规模重做所有图片,而是做“横屏首帧包”。把现有竖图分成可扩图、可裁切、需重生三类,优先为关键叙事镜头生成16:9首帧。这样既保留已有图文内容的人物和场景资产,又能适配横屏视频模型。

10. 下一步建议

下一步可以在本笔记基础上继续推进三个文件:

  1. 03_横屏分镜执行表.md:把22个候选镜头拆成首帧/首尾帧/文生视频、模型选择、生成次数和预计入片时长。
  2. 04_横屏首帧制作清单.md:列出哪些竖图可扩图、哪些要裁切、哪些需要重生16:9首帧。
  3. 05_AI视频提示词.md:为 LTX 2.3、Wan 2.2、Seedance 2.0 分别写提示词策略。

11. 版本记录

2026-05-18:创建视频脚本笔记初版,加入脚本原则、素材判断、旁白拆分和10镜头初版分镜。

2026-05-18:根据横屏16:9、模型限制、竖图可用性、首尾帧需求和生成冗余要求,修订为22个候选镜头的视频生成镜头池。


横屏分镜执行表

林知夏游记VLOG|横屏分镜执行表

1. 文件用途

本文件是“林知夏游记VLOG”的分镜执行表,用于把视频脚本阶段确认的故事节奏,进一步拆成可以执行的视频生成镜头清单。

本阶段暂时不写具体生图提示词,也不写模型参数。当前只明确每个镜头要生成什么场景、画面要表达什么、是否需要首帧或首尾帧、预计生成长度和最终入片时长。

后续完成本表后,再进入“每个镜头首尾帧生图提示词”阶段。

2. 总体执行原则

2.1 画幅与风格

成片统一按横屏16:9设计。整体风格是心情日记式旅行VLOG,画面要有轻电影感、生活感和真实感,不做过度广告片式的精致,也不做强剧情短片式表演。

2.2 图片物料使用方式

当前已有图片物料不作为需要修补后直接投入视频生成的最终素材,而是作为前期参考。正式进入首尾帧制作时,更倾向于基于人物原型图重新生成横屏16:9画面。

人物一致性主要参考:

  • 林知夏人物原型图:人物与插图/001linzhixia.png
  • 阿乔人物原型图:人物与插图/002aqiao.png

已有场景图只作为场景氛围、服装关系、地点情绪和构图参考,不作为必须沿用的画面。

2.3 默认视频模型

本阶段暂时默认使用 LTX 2.3 进行视频生成规划。Wan 2.2 和 Seedance 2.0 暂不作为主方案写入执行表,后续如某些双人动作或复杂运镜在 LTX 2.3 中不稳定,再单独标记替代模型。

2.4 生成冗余

最终成片约60秒,但本表设计的是候选镜头池,不是最终剪辑时间线。建议生成22个左右候选镜头,每个镜头生成5到7秒,最终只截取其中2到5秒使用。

实际生产时,每个关键镜头至少生成2版;双人互动、走路、吃饭、重逢等高风险镜头建议生成3版以上。最终剪辑时,从约150秒左右的生成素材中筛选出约60秒成片。

2.5 首帧与首尾帧原则

静态情绪镜头、物件特写和氛围空镜,可以只做首帧。涉及人物移动、两人走动、空间进入、动作落点和情绪落点的镜头,优先考虑首尾帧。

首尾帧不是为了做复杂剧情,而是为了约束动作方向和画面终点,减少模型生成时人物变形、构图漂移和动作失控。

3. 分镜执行表

镜头编号段落预计入片 {align="right"}建议生成 {align="right"}生成方式默认模型场景自然语言描述画面任务对应旁白
01出发前3秒 {align="right"}5秒 {align="right"}首帧LTX 2.3横屏卧室清晨,床边打开的行李箱里放着浅色衣服、洗漱包和一两件旅行小物。林知夏没有正面出现,或者只出现一只手在整理行李。用安静的生活细节开场,建立“她要出发了”的状态。以前我总觉得,见一个很久没见的人,要等一个刚刚好的时候。
02出发前3秒 {align="right"}5秒 {align="right"}首帧LTX 2.3桌面上摊着成都一日路线、便签、手机和一杯没喝完的咖啡,画面像是她曾经认真做过攻略。表现她原本想等一个完美时间,也想把攻略做完整。不太忙,状态好一点,最好还能顺便把攻略做完整。
03出发前3秒 {align="right"}5秒 {align="right"}首帧LTX 2.3横屏近景,桌面上放着去成都的登机牌和咖啡杯,背景有轻微虚化的行李箱或窗光。从“想很久”转向“真的订票出发”,让旅程有明确起点。后来发现,等着等着,很多人就真的很久没见了。
04消息触发4秒 {align="right"}6秒 {align="right"}首帧LTX 2.3横屏桌面或沙发边,手机屏幕亮着,阿乔发来一句轻松的消息:“来嘛,带你吃串串。”林知夏的手停在手机旁,像是刚刚被这句话打动。明确这次旅行不是攻略驱动,而是被朋友的一句话推动。这次去成都,就因为阿乔那句:来嘛,带你吃串串。我就订了票。
05出发路上3秒 {align="right"}5秒 {align="right"}首尾帧LTX 2.3林知夏拉着行李箱走出家门或走过小区楼下,清晨光线柔和,动作简单,不需要快速行走。给出真正离开的动作,让前面的决定落到现实。不是“有空聚”,不是“下次约”。
06出发路上3秒 {align="right"}5秒 {align="right"}首帧LTX 2.3横屏车内,林知夏坐在车窗边,窗外城市光影流动,她安静地看着窗外。表现路上的安静感,把情绪从出发兴奋转向内心独白。是有人把你放进她的城市里,给你留了一个位置。
07机场3秒 {align="right"}5秒 {align="right"}首尾帧LTX 2.3机场候机区,林知夏低头拿起登机牌,旁边是咖啡和随身包,背景有模糊的旅客。明确她进入旅途节点,但动作保持简单可控。飞机起飞以后,我反而不兴奋了。
08飞行3秒 {align="right"}5秒 {align="right"}首帧LTX 2.3飞机舷窗外的云层和光线,画面安静、轻微震动,没有人物。用空镜承接“起飞以后”的心理变化,降低人物生成风险。飞机起飞以后,我反而不兴奋了。
09飞行内心4秒 {align="right"}6秒 {align="right"}首帧LTX 2.3机舱或车窗边的林知夏侧脸,她看向窗外,脸上没有明显兴奋,只是平静和一点出神。表现她在路上突然想到关系的疏远和距离。只是突然想到,这几年我们好像都很擅长把关系放在聊天框里。
10关系空镜3秒 {align="right"}5秒 {align="right"}首帧LTX 2.3手机屏幕熄灭后映出一点窗光,旁边是耳机或登机牌,画面安静,有一点空落落的感觉。用非人物镜头表达“聊天框里的关系”,避免直白演绎。互相偶尔点个赞,仅此而已。
11抵达3秒 {align="right"}5秒 {align="right"}首帧LTX 2.3成都机场或车窗外的成都街道初印象,画面横向开阔,有湿润的城市光线和树影。从旅途转入目的地,提示她已经抵达阿乔所在的城市。阿乔还是那样。
12重逢前4秒 {align="right"}6秒 {align="right"}首尾帧LTX 2.3人群中,林知夏拖着行李或背着包停下脚步,远处阿乔站在约定地点,两人还没有完全靠近。表现“一眼认出来”的瞬间,动作不要复杂。站在人群里,一眼就能认出来。
13重逢4秒 {align="right"}6秒 {align="right"}首尾帧LTX 2.3林知夏和阿乔靠近后笑起来,可以是轻轻抱一下,也可以只是自然靠近、相视而笑。背景是机场到达区或成都街头。完成朋友重逢的情绪节点,但不强求大幅拥抱动作。抱一下,好像中间隔着的时间也没那么长。
14进入城市3秒 {align="right"}5秒 {align="right"}首尾帧LTX 2.3两人并肩走在成都街道,路边有树影、店铺和慢慢经过的人群,她们步子不快。让关系从“见到”进入“同行”,转入成都日常。我本来以为,五一的游人会让我很烦。
15城市松弛3秒 {align="right"}5秒 {align="right"}首帧LTX 2.3林知夏独自站在成都街头,回头看向镜头或看向路边,神情放松,背景有街边小店和树。用人物单人镜头表现她对城市和人群的放松。后来发现,好像并没有。
16街边停留4秒 {align="right"}6秒 {align="right"}首帧LTX 2.3林知夏和阿乔在街边小馆门口停下,像是在商量要不要进去,周围有成都街头的烟火气。表现“不急着完成什么”的旅行方式。只要不急着完成什么,人多一点也没关系。
17照片感3秒 {align="right"}5秒 {align="right"}首帧或后期图层LTX 2.3横屏画面中出现手机相册或几张旅行照片,照片有一点歪,发丝和表情都不完美,但很真实。承接逐字稿中“不完美也没关系”的心情。照片歪一点,头发乱一点,路走慢一点,都没关系。
18茶馆4秒 {align="right"}6秒 {align="right"}首帧LTX 2.3下午茶馆里,林知夏坐在靠窗的位置,桌上有茶杯,光线慢慢落下来,动作很少。让画面真正慢下来,是全片的情绪缓冲点。下午坐在茶馆里,时间一下就慢了。
19茶馆空镜3秒 {align="right"}5秒 {align="right"}首帧LTX 2.3茶杯、木桌、窗边光影、轻微飘动的热气或窗外树影,人物可以不出现。用空镜表达“不是每一分钟都要有用”,给剪辑留呼吸。不是每一分钟都要有用。
20夜晚店外3秒 {align="right"}5秒 {align="right"}首尾帧LTX 2.3夜晚的成都街边串串店外,店招亮着,林知夏和阿乔从画面一侧慢慢走近。从白天茶馆转入夜晚串串,把成都烟火气推出来。晚上那顿串串吃得很随便。
21串串细节3秒 {align="right"}5秒 {align="right"}首帧LTX 2.3桌上的串串锅、菜单、筷子和热气,画面尽量不出现复杂人物动作。用食物和热气表现累了一天后的随意和真实。脚酸,手机快没电,妆也差不多没了。
22朋友对坐4秒 {align="right"}6秒 {align="right"}首帧LTX 2.3林知夏和阿乔坐在小桌两边,锅里有热气,两人没有夸张动作,只是自然聊天或笑一下。表现“朋友坐在对面”这个全片最踏实的关系落点。但朋友坐在对面,锅里一直有热气。这就已经很够了。
23饭后夜路3秒 {align="right"}5秒 {align="right"}首尾帧LTX 2.3饭后夜晚,两人走在成都街道上,店铺灯光从身后退去,步子很慢。从热闹饭局转入夜晚收束,为回看照片做过渡。晚上翻照片,发现它们都不算特别好看。
24酒店翻照片5秒 {align="right"}7秒 {align="right"}首尾帧LTX 2.3夜晚酒店房间里,林知夏坐在床边或桌边翻看手机照片,暖色灯光照在脸上,她慢慢露出很轻的笑。完成全片情绪落点:照片不完美,但记得当时在笑什么。但每一张,我都记得当时在笑什么。
25结尾定格4秒 {align="right"}6秒 {align="right"}首帧LTX 2.3横屏安静结尾,手机相册停在林知夏和阿乔的一张合照上,旁边可以有酒店台灯、散开的票据或小物。把“下次见”落到“今天见”,适合叠最后一句字幕。只是把一句说了很久的“下次见”,改成了今天见。仅此而已。

4. 镜头数量与时长判断

本表共设计25个候选镜头。它们不是全部原封不动进入最终成片,而是作为生成素材池使用。

如果最终成片控制在60秒左右,建议实际入片镜头约16到20个。多数镜头使用2到4秒,少数情绪镜头使用5秒左右。这样能兼顾心情日记的慢节奏和VLOG的流动感。

按当前表格估算,全部候选镜头的预计入片时长约82秒。剪辑时可优先删减或压缩以下镜头:关系空镜、抵达空镜、照片感、茶馆空镜、饭后夜路。它们都是重要的节奏备选,但不是每一条都必须进最终版。

5. 首帧/首尾帧执行判断

建议只做首帧的镜头:01、02、03、04、06、08、09、10、11、15、16、18、19、21、22、25。

建议做首尾帧的镜头:05、07、12、13、14、20、23、24。

可根据后期方式决定的镜头:17。这个镜头可以生视频,也可以直接用静态照片/相册图层做后期运动。

首尾帧优先服务动作方向,不追求复杂动作。例如“两人走近”“拉行李离开”“从看照片到微笑”,都只需要轻微动作,不要让模型承担复杂表演。

6. 高风险镜头

以下镜头更容易在 LTX 2.3 中出现人物变形、动作不自然或关系错位,需要多生成版本:

  • 镜头12:人群中认出阿乔。
  • 镜头13:林知夏和阿乔靠近或轻抱。
  • 镜头14:两人并肩走在成都街道。
  • 镜头20:两人走近串串店。
  • 镜头22:两人对坐吃串串。
  • 镜头23:饭后夜路双人同行。
  • 镜头24:林知夏翻照片并露出轻微笑。

这些镜头的动作要写得克制。不要要求奔跑、夸张拥抱、复杂肢体互动、大幅转身或长距离行走。能用情绪和剪辑表达的部分,不强迫模型一次性完成。

7. 后续待做

下一步建议进入“首尾帧生图提示词”阶段。该阶段需要为每个镜头分别写首帧画面描述;需要首尾帧的镜头,还要额外写尾帧画面描述。

提示词阶段要重点解决三件事:人物一致性、横屏16:9构图、镜头动作可控性。


生图提示词

林知夏游记VLOG|生图提示词

一、全局要求

画幅:横屏16:9,电影感构图,适合后续生成横屏VLOG视频。

风格:心情日记式旅行VLOG,真实、自然、温柔、轻电影感、生活感。画面像旅行途中被随手记录下来的片段,但构图和光线具有电影质感。

色彩:低饱和暖色调,自然肤色,柔和高光,轻微胶片感。白天画面偏清透、温暖、干净;夜晚画面偏暖黄、橙色灯光、城市烟火气。避免过度艳丽、过度锐化、过度商业广告感。

光线:自然光优先。清晨和下午使用柔和窗光、侧光、散射光;夜晚使用店铺灯光、台灯、街灯和室内暖光。画面允许有轻微光晕和浅景深。

镜头语言:横屏电影构图,35mm或50mm纪实摄影感,浅景深,背景自然虚化,主体留有呼吸空间。避免夸张广角畸变,避免过度摆拍,避免强烈网红写真感。

人物原型图:凡是画面中出现林知夏,必须以 人物与插图/001linzhixia.png 作为人物图像参考,保持同一个人的脸型、五官、发型、气质和穿搭方向。凡是画面中出现阿乔,必须以 人物与插图/002aqiao.png 作为人物图像参考,保持同一个人的脸型、五官、发型、气质和穿搭方向。不要只根据名字自行想象人物,不要生成与参考图不一致的新角色。

林知夏人物要求:年轻女性,清爽自然,长发,气质温柔细腻,有生活感和轻旅行感。穿搭以浅色上衣、浅外套、牛仔裤、舒适日常鞋为主,整体干净、松弛、不夸张。全片中林知夏保持同一人物身份、同一旅行穿搭逻辑、同一发型气质。

阿乔人物要求:年轻女性,亲切自然,气质更外向松弛,穿搭日常、有成都本地朋友的熟悉感。与林知夏同框时,两人关系自然亲密,像很久没见但一见面就熟悉的闺蜜。全片中阿乔保持同一人物身份、同一发型气质、同一朋友关系。

剧情连续性:林知夏从自己的城市出发,独自去机场,乘飞机到成都,见到闺蜜阿乔。两人在成都街头慢慢闲逛,下午坐茶馆,晚上吃串串,夜里林知夏回到酒店翻看照片。所有画面都服务于“去成都见很久没见的朋友”的心情日记,不要加入无关人物关系、无关旅行目的、无关城市或夸张剧情。

场景要求:城市旅行真实感,成都街道、机场、茶馆、串串店、酒店房间都要自然可信。场景中可以有少量路人和环境细节,但不要让路人抢主体。路人不要与主角产生强互动。

文字要求:除镜头04手机聊天内容和必要的票据、店招、菜单氛围外,画面中不要出现大段文字。若出现中文文字,保持自然、清晰、少量,不要生成乱码。

画质要求:高清、真实摄影质感、自然细节、人物五官稳定、手部自然、服装和发丝自然。避免AI感、塑料皮肤、面部扭曲、手指错误、肢体变形、人物身份混乱、过度磨皮、过度HDR。

二、各分镜首帧/尾帧提示词

镜头01|首帧

横屏16:9,出发城市的清晨卧室,柔和窗光洒在床边。床边打开一个浅色行李箱,里面放着浅色衣服、洗漱包、小化妆包、耳机、充电器和一两件旅行小物。画面只出现林知夏的一只手正在整理衣服,不出现完整正脸,手部自然。整体安静、温柔、生活化,明确是去成都见朋友前的出发准备。低饱和暖色调,轻微胶片感,浅景深,真实摄影质感。

镜头02|首帧

横屏16:9,出发前的桌面近景。桌上摊着一张成都一日路线手账、几张便签、手机、笔和一杯没喝完的咖啡,旁边有柔和窗光。画面像林知夏曾经认真规划过这趟去成都见阿乔的旅行,但又保留一点随手摆放的真实感。低饱和暖色调,生活感,浅景深,真实摄影质感,不要出现大段乱码文字。

镜头03|首帧

横屏16:9,出发前的桌面近景,一张去成都的登机牌放在咖啡杯旁,背景虚化处能看到行李箱、浅色外套和窗边光线。画面干净、安静,有“终于决定出发去成都”的感觉。登机牌上的文字只需少量自然票据信息,不要乱码,不要过度清晰抢画面。低饱和暖色调,轻电影感,浅景深,真实摄影质感。

镜头04|首帧

横屏16:9,室内沙发边或桌面,手机屏幕亮着,聊天界面里阿乔发来一句清晰中文消息:“来嘛,带你吃串串。”林知夏的手停在手机旁,像是刚刚被这句话打动并决定订票。画面不出现完整人物正脸,只表现手、手机、桌面和周围生活物件。柔和室内光,低饱和暖色调,真实摄影质感,聊天界面干净自然,不要多余乱码。

镜头05|首帧

横屏16:9,出发城市的清晨住宅楼下或公寓门口。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,穿浅色外套、牛仔裤、舒适鞋,手扶行李箱,刚从门口走出。她的姿态自然,不看镜头,像准备去机场。环境干净、真实,有清晨柔和光线。低饱和暖色调,轻电影感,真实摄影质感。

镜头05|尾帧

横屏16:9,出发城市的住宅楼下或公寓外。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,拉着行李箱走到画面稍远处,背影或侧后方为主,清晨光线照在她和行李箱上。她的步伐慢而稳定,不夸张,画面保留安静的出发感。低饱和暖色调,轻电影感,真实摄影质感,人物和行李箱比例自然。

镜头06|首帧

横屏16:9,去机场路上的车内靠窗座位。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,穿浅色外套和牛仔裤,坐在车窗边安静看向窗外。窗外是出发城市去机场路上的光影,轻微虚化。她的表情平静,不兴奋,带一点出神。自然车窗光,低饱和暖色调,浅景深,真实摄影质感。

镜头07|首帧

横屏16:9,机场候机区桌面或座位旁。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,坐在候机区,低头看着桌上的登机牌和咖啡,旁边放着随身包。背景有模糊旅客、机场座椅和登机口氛围。她的动作简单,情绪安静。自然室内光,低饱和色彩,真实摄影质感,人物五官稳定。

镜头07|尾帧

横屏16:9,机场候机区。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,她的手拿起去成都的登机牌,咖啡和随身包仍在旁边,背景旅客虚化。画面重点是“准备登机”的动作,不要复杂肢体。自然光,浅景深,真实摄影质感,登机牌文字少量自然,不要乱码。

镜头08|首帧

横屏16:9,飞机舷窗外的云层和柔和日光。画面安静、干净,有轻微飞行旅途感,舷窗边缘形成自然框景。没有人物,不出现其他无关物件。低饱和浅蓝与暖白色调,轻电影感,真实摄影质感,云层自然,不要过度梦幻。

镜头09|首帧

横屏16:9,飞往成都的机舱靠窗座位。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,坐在窗边,侧脸看向窗外。窗外有柔和云层光,机舱背景轻微虚化。她的表情平静、出神,不明显微笑,像在想起这些年和阿乔只停留在聊天框里的关系。低饱和暖色调,浅景深,真实摄影质感,人物面部自然稳定。

镜头10|首帧

横屏16:9,飞机小桌板或安静桌面,手机屏幕熄灭,黑屏上反射一点窗光。旁边放着耳机、去成都的登机牌和咖啡杯边缘。画面有一点空落落的感觉,用物件表达关系被留在聊天框里。不要出现人物正脸,不要出现无关聊天内容。低饱和色彩,柔和光线,浅景深,真实摄影质感。

镜头11|首帧

横屏16:9,抵达成都后的第一眼城市印象。画面可以是车窗外的成都街道、树影、湿润路面、街边店铺、模糊路牌和柔和天光,也可以是成都机场外到达区的开阔空间。画面不要出现主角正脸,重点是“林知夏到成都了”的空气感。低饱和暖色调,轻电影感,真实城市摄影质感。

镜头12|首帧

横屏16:9,成都机场到达区或成都街边约定地点,人群自然虚化。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,拖着行李或背着包停下脚步,站在画面一侧,看向远处。远处的阿乔必须使用人物原型图 人物与插图/002aqiao.png 作为图像参考,站在人群中,尚未靠近。两人之间有空间距离,画面表达“一眼认出来”的瞬间。真实摄影质感,人物比例自然,背景路人不抢主体。

镜头12|尾帧

横屏16:9,成都机场到达区或成都街边约定地点。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,阿乔必须使用人物原型图 人物与插图/002aqiao.png 作为图像参考。林知夏和阿乔距离更近,林知夏停在画面中部,阿乔站在前方不远处,两人已经看见彼此,表情自然变亮。不要夸张奔跑,不要大幅动作。背景路人自然虚化。低饱和暖色调,轻电影感,人物一致性稳定。

镜头13|首帧

横屏16:9,林知夏和阿乔在成都机场到达区或成都街头刚刚靠近。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,阿乔必须使用人物原型图 人物与插图/002aqiao.png 作为图像参考。两人面对彼此,脸上出现自然笑意,动作克制,像久别重逢时刚要轻轻抱一下。背景自然虚化,低饱和暖色调,真实摄影质感。

镜头13|尾帧

横屏16:9,林知夏和阿乔在成都机场到达区或成都街头自然靠在一起或轻轻拥抱,也可以是肩膀靠近、相视而笑。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,阿乔必须使用人物原型图 人物与插图/002aqiao.png 作为图像参考。动作轻、真实,不要夸张拥抱,不要摆拍。背景人群自然虚化。温柔光线,轻电影感,人物五官和肢体自然稳定。

镜头14|首帧

横屏16:9,成都街道白天,树影、街边小店、慢慢经过的行人和城市生活细节。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,阿乔必须使用人物原型图 人物与插图/002aqiao.png 作为图像参考。两人并肩走在画面中,刚进入成都街道,步子很慢。画面有旅行VLOG的真实跟拍感,低饱和暖色调,轻电影感。

镜头14|尾帧

横屏16:9,成都街道白天,林知夏和阿乔继续并肩走到街道更深处,背影或侧后方为主,路边树影和店铺延伸开来。林知夏和阿乔必须分别使用各自人物原型图作为图像参考。两人步伐自然,不要复杂动作。画面保留成都街头的松弛感和烟火气。真实摄影质感,低饱和色彩,人物比例稳定。

镜头15|首帧

横屏16:9,成都街头白天。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,独自站在街边树影下,身后有街边小店、行人和成都城市生活细节。她轻轻回头看向镜头或看向路边,神情放松,不刻意摆拍。浅色外套、牛仔裤,清爽自然。低饱和暖色调,浅景深,真实摄影质感。

镜头16|首帧

横屏16:9,成都街边小馆门口。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,阿乔必须使用人物原型图 人物与插图/002aqiao.png 作为图像参考。两人站在店门外,像是在商量要不要进去。门口有木质招牌、街边桌椅、路边植物和城市烟火气。两人神情自然放松,动作简单。低饱和暖色调,轻电影感,真实街头摄影质感。

镜头17|首帧

横屏16:9,手机相册或桌面上散落的几张旅行照片,照片里隐约能看到林知夏和阿乔的成都街头合照、茶馆片段、串串店片段和成都街景。林知夏和阿乔在照片中必须保持各自人物原型图的外貌与气质。照片有一点歪,发丝和表情不完美,但很真实。画面温柔、生活化,低饱和暖色调,浅景深,真实摄影质感。照片内容不要出现怪异面孔或乱码。

镜头18|首帧

横屏16:9,下午成都茶馆靠窗位置。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,坐在桌边,桌上有茶杯和简单小物。窗边光线柔和,室内木质桌椅和茶馆氛围自然。她安静坐着,神情松弛,动作很少,像终于不再赶时间。低饱和暖色调,轻微胶片感,浅景深,真实摄影质感。

镜头19|首帧

横屏16:9,成都茶馆空镜,木桌上的茶杯、杯中浅色茶水、窗边光影、桌面纹理和一点热气。窗外树影柔和虚化,人物不出现。画面表达下午时间慢下来、什么都不用赶。低饱和暖色调,静谧生活感,真实摄影质感。

镜头20|首帧

横屏16:9,夜晚成都街边串串店外,店招亮着暖黄色灯光,街边有烟火气和少量路人。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,阿乔必须使用人物原型图 人物与插图/002aqiao.png 作为图像参考。两人在画面一侧,刚准备走近店门。动作自然,步伐慢。夜晚暖色灯光,低饱和色彩,真实街头摄影质感。

镜头20|尾帧

横屏16:9,夜晚成都街边串串店门口。林知夏和阿乔必须分别使用各自人物原型图作为图像参考。两人已经走到串串店门口附近,店招和门口灯光更近,画面有温暖热闹的烟火气。两人背影或侧身为主,不需要看镜头。动作简单自然,不要复杂互动。夜晚暖色调,真实摄影质感,人物比例稳定。

镜头21|首帧

横屏16:9,成都串串店桌面近景,锅里有热气,桌上有串串、菜单、筷子、蘸碟、纸巾和饮料。画面尽量不出现完整人物,只出现手部或局部衣袖也可以。整体随意、真实、生活化,像朋友吃饭途中随手记录的画面,不要广告美食大片感。夜晚室内暖光,低饱和色彩,真实摄影质感。

镜头22|首帧

横屏16:9,成都串串小店室内。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,阿乔必须使用人物原型图 人物与插图/002aqiao.png 作为图像参考。两人面对面坐在小桌两边,中间是冒着热气的锅。两人自然聊天或轻轻笑一下,动作克制,不要夸张吃东西。店内暖黄色灯光,背景有模糊食客和墙面菜单氛围。真实摄影质感,温暖烟火气,人物五官稳定。

镜头23|首帧

横屏16:9,饭后夜晚的成都街道,串串店灯光在身后。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,阿乔必须使用人物原型图 人物与插图/002aqiao.png 作为图像参考。两人并肩从店门附近走出来,街道有暖色店招、路灯、少量行人和夜晚湿润感。动作自然缓慢。真实街头摄影质感,低饱和暖色调。

镜头23|尾帧

横屏16:9,饭后夜晚的成都街道。林知夏和阿乔必须分别使用各自人物原型图作为图像参考。两人走到街道更远处,背影或侧后方为主,店铺灯光逐渐退到身后。两人步子慢,像吃完饭后随便散步。画面安静收束,温暖夜色,真实摄影质感,人物比例自然。

镜头24|首帧

横屏16:9,夜晚酒店房间,暖色台灯亮着。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,坐在床边或桌边,低头翻看手机照片。旁边有散开的票据、小包、外套、耳机或旅行小物。她表情安静,略带疲惫但放松,像一天结束后回看和阿乔的照片。低饱和暖色调,浅景深,真实摄影质感。

镜头24|尾帧

横屏16:9,夜晚酒店房间,暖色台灯亮着。林知夏必须使用人物原型图 人物与插图/001linzhixia.png 作为图像参考,仍坐在暖色灯光里,看着手机照片,脸上露出很轻的笑。画面安静、温柔、克制,像一天结束后的私人时刻。五官稳定,自然肤色,轻电影感,真实摄影质感。

镜头25|首帧

横屏16:9,夜晚酒店房间的安静结尾画面。手机相册停在林知夏和阿乔的一张自然合照上,合照中的林知夏和阿乔必须分别保持各自人物原型图的外貌和气质。手机旁边有台灯、散开的登机牌、耳机和小物。画面不需要完整真人出现在房间里,只让手机照片和旅行物件成为情绪落点。暖色灯光,低饱和色彩,浅景深,真实摄影质感,照片里人物自然稳定。


视频生成准备

林知夏游记VLOG|视频生成准备

1. 当前阶段

项目已完成横屏首帧图片生成,准备进入 LTX 2.3 图生视频阶段。

当前视频生成阶段的核心目标是:以 生成图片 文件夹中的横屏16:9图片为输入,全部使用单首帧图生视频方式生成候选视频素材,再从中筛选稳定、自然、可剪辑的片段,最终剪成约1分钟的心情日记式旅行VLOG。

2. 输入素材目录

首帧图片目录:生成图片/

图片规格:全部为 1536x864,比例为16:9。

图片数量:33张。

当前使用策略:所有镜头都只使用 镜头xx_首帧.png 作为图生视频输入。已有尾帧图片暂时保留为参考素材,不进入本轮视频生成流程。

总览图:生成图片/总览_contact_sheet.jpg

3. 默认生成策略

默认视频模型:LTX 2.3。

默认生成方式:全部使用 i2v 单首帧图生视频。

默认生成长度:单条视频建议生成5秒。

默认成片使用:多数镜头最终只取2到4秒,少数情绪镜头可取5秒左右。

生成冗余:最终成片约60秒,建议实际生成150秒以上的视频素材,给废片、动作失败和节奏筛选留余量。

版本数量:低风险镜头先生成1到2版;高风险镜头生成3版以上。

生成优先级:先生成低风险镜头验证整体风格和模型稳定性,再集中处理高风险人物镜头和双人镜头。

4. 为什么本轮不使用首尾帧

经过测试,首尾帧方式对提示词、动作逻辑和首尾画面匹配要求极高,出片稳定性不足。对于本项目这种心情日记式VLOG,画面重点是轻微运动、情绪和氛围,不需要强制从首帧过渡到尾帧。

本轮统一改用单首帧图生视频,以降低废片率,提升人物稳定性和批量执行稳定性。原先生成的尾帧图片暂时不删除,可作为后续参考或备选素材。

5. 输出命名规范

视频输出建议放入新文件夹:生成视频/

单条视频文件命名:shot_镜头编号_v版本号.mp4

示例:

  • shot_01_v01.mp4
  • shot_05_v01.mp4
  • shot_05_v02.mp4
  • shot_13_v03.mp4

当前阶段默认只写 LTX 2.3,不强制加入模型后缀。

6. 分镜生成执行表

镜头生成方式输入图片建议生成 {align="right"}预计入片 {align="right"}风险生成目标
01i2v首帧生成图片/镜头01 首帧.png1 2版 {align="right"}3秒 {align="right"}行李整理,安静开场,画面轻微运动即可。
02i2v首帧生成图片/镜头02 首帧.png1 2版 {align="right"}3秒 {align="right"}桌面路线和咖啡,轻微推近,突出攻略感。
03i2v首帧生成图片/镜头03 首帧.png1 2版 {align="right"}3秒 {align="right"}登机牌和咖啡,表现决定出发。
04i2v首帧生成图片/镜头04 首帧.png1 2版 {align="right"}4秒 {align="right"}手机聊天消息保持清晰,避免文字变形。
05i2v首帧生成图片/镜头05 首帧.png2 3版 {align="right"}3秒 {align="right"}林知夏拉行李离开,动作慢,人物不变形。
06i2v首帧生成图片/镜头06 首帧.png1 2版 {align="right"}3秒 {align="right"}车窗边安静侧脸,窗外轻微流动。
07i2v首帧生成图片/镜头07 首帧.png2版 {align="right"}3秒 {align="right"}机场候机,拿起登机牌,手部自然。
08i2v首帧生成图片/镜头08 首帧.png1 2版 {align="right"}3秒 {align="right"}飞机舷窗云层,轻微震动或缓慢漂移。
09i2v首帧生成图片/镜头09 首帧.png1 2版 {align="right"}4秒 {align="right"}机舱侧脸安静出神,动作极轻。
10i2v首帧生成图片/镜头10 首帧.png1 2版 {align="right"}3秒 {align="right"}手机黑屏和旅途物件,保持安静空落感。
11i2v首帧生成图片/镜头11 首帧.png1 2版 {align="right"}3秒 {align="right"}成都抵达空镜,城市光影轻微变化。
12i2v首帧生成图片/镜头12 首帧.png3版 {align="right"}4秒 {align="right"}人群中认出阿乔,人物身份稳定,动作克制。
13i2v首帧生成图片/镜头13 首帧.png3 4版 {align="right"}4秒 {align="right"}两人靠近或轻抱,避免肢体错位和脸部变形。
14i2v首帧生成图片/镜头14 首帧.png3版 {align="right"}3秒 {align="right"}两人并肩走街道,步伐慢,人物比例稳定。
15i2v首帧生成图片/镜头15 首帧.png1 2版 {align="right"}3秒 {align="right"}林知夏街头松弛回头,动作轻微。
16i2v首帧生成图片/镜头16 首帧.png2版 {align="right"}4秒 {align="right"}两人在小馆门口停留,人物保持自然。
17i2v首帧/后期生成图片/镜头17 首帧.png1版或后期处理 {align="right"}3秒 {align="right"}手机相册/照片感,可不生视频,后期轻微缩放即可。
18i2v首帧生成图片/镜头18 首帧.png1 2版 {align="right"}4秒 {align="right"}茶馆里林知夏静坐,光线轻微变化。
19i2v首帧生成图片/镜头19 首帧.png1版 {align="right"}3秒 {align="right"}茶馆空镜,茶杯热气和窗光。
20i2v首帧生成图片/镜头20 首帧.png3版 {align="right"}3秒 {align="right"}两人走近串串店,夜晚灯光稳定。
21i2v首帧生成图片/镜头21 首帧.png1 2版 {align="right"}3秒 {align="right"}串串锅和热气,食物镜头,不要复杂人物。
22i2v首帧生成图片/镜头22 首帧.png3版 {align="right"}4秒 {align="right"}两人对坐吃串串,动作克制,脸和手自然。
23i2v首帧生成图片/镜头23 首帧.png3版 {align="right"}3秒 {align="right"}饭后夜路双人同行,背影或侧后方优先。
24i2v首帧生成图片/镜头24 首帧.png3版 {align="right"}5秒 {align="right"}酒店翻照片到轻微笑,动作极轻,情绪自然。
25i2v首帧/后期生成图片/镜头25 首帧.png1版 {align="right"}4秒 {align="right"}手机合照和旅行物件,结尾定格,可后期处理。

7. 推荐生成顺序

第一批:低风险风格验证镜头。

  • 01、02、03、06、08、09、10、11、18、19、21、25

这一批主要验证 LTX 2.3 对横屏图片、光线、轻微运动、物件镜头和静态人物的稳定性。

第二批:中风险动作镜头。

  • 04、05、07、16、17

这一批重点看文字、手部、轻动作和双人静态关系是否可控。

第三批:高风险核心镜头。

  • 12、13、14、20、22、23、24

这一批直接影响故事成立,需要多生成版本,优先筛选人物稳定、动作自然、情绪准确的版本。

8. 生成时的通用动作要求

所有镜头动作都要克制、缓慢、自然。

优先使用:轻微推近、轻微横移、窗外光影移动、人物微表情、自然呼吸感、手部轻动作、环境光变化。

避免使用:奔跑、大幅拥抱、快速转身、复杂吃饭动作、多人强互动、夸张表演、大幅镜头旋转、快速推拉、过度运镜。

双人镜头中,如果动作不稳定,优先保留关系感和人物稳定,不强求动作完整。

9. 筛选标准

优先保留:

  • 人物脸部稳定,林知夏和阿乔没有身份混乱。
  • 手部和肢体自然,没有明显变形。
  • 镜头运动缓慢,适合心情日记节奏。
  • 光线、色彩和整体风格与输入图片一致。
  • 画面中没有突兀文字、乱码或多余人物抢戏。
  • 每条视频至少有2秒以上可用片段。

直接淘汰:

  • 人脸明显崩坏或人物变成另一个人。
  • 双人关系错位,例如人物合并、错位拥抱、肢体缠绕。
  • 镜头抖动严重、画面大幅漂移、构图失控。
  • 文字变成乱码且位于画面中心。
  • 食物、手指、手机屏幕出现明显怪异变形。
  • 情绪过度夸张,不符合温柔克制的心情日记风格。

10. 剪辑使用原则

不要按生成视频的完整时长机械使用。每条视频只取最自然、最稳定、最有情绪的一小段。

最终成片建议使用16到20个镜头,总时长约60秒。物件和空镜可以短,人物情绪镜头可以略长。高风险双人动作镜头如果只生成出1到2秒好片段,也可以作为短切使用。

镜头17和镜头25可以不进入图生视频流程,直接使用图片做后期轻微缩放、移动或叠化。

11. 下一步产出

生成视频完成后,建议新建 08_视频素材筛选表.md,记录每个镜头各版本的可用情况、问题、可截取时间段和是否进入最终剪辑。


LTX 官方指南提炼与本项目整合指南

LTX 视频提示词写法参考

1. 核心原则

LTX 视频提示词应写成“导演给摄影师和视频模型的创意简报”,而不是关键词堆叠。每条提示词都要让模型清楚知道:镜头如何运动、主体是谁、主体在做什么、场景在哪里、光线和色彩是什么、情绪是什么、哪些事情不要发生。

提示词需要同时照顾画面质量和运动质量。对图生视频来说,输入图片已经提供了视觉基础,但提示词仍然要明确视频片段中的真实相对运动、动作幅度和稳定性要求。本项目不把镜头推拉、升格、裁切节奏交给 LTX;这些交给 PR 更可控。LTX 负责生成画面内部真实发生的运动,例如人物呼吸、眼神、手部小动作、光影变化、窗帘浮动、蒸汽、屏幕亮起、车窗反射和街景流动。

2. 官方指南提炼

LTX 的提示词指南强调五个基本元素:subject、style、lighting、mood、camera framing。

Subject 是画面锚点。不要只写“一个女人”,而要写清楚“林知夏坐在车窗边,安静看向窗外”。主体越具体,模型越容易抓住画面重点。

Style and medium 会决定整体视觉寄存器。对本项目,应持续使用 cinematic diary vlog、photorealistic、35mm documentary feel、shallow depth of field、muted warm color grade 这类稳定描述。

Lighting 是高杠杆信息。清晨、下午、夜晚都要写清楚光线来源,例如 soft natural window light、warm practical lamp light、warm storefront lights、soft overcast daylight。

Mood and atmosphere 用来约束画面情绪。心情日记VLOG不应该写成兴奋、夸张、广告感,而应使用 quiet、tender、intimate、calm、nostalgic、relaxed、contemplative 这类词。

Camera and composition 对视频尤其重要。需要明确 framing 和画面内部运动,例如 close-up、medium shot、wide establishing shot、over-the-shoulder、locked-off shot、natural handheld realism、stable composition。不要把单纯的镜头推进、拉远、裁切、升格写进常规提示词,这些后期用 PR 完成。

3. 视频提示词结构

推荐每条视频提示词按以下顺序写:

画面构图 → 真实相对运动 → 主体动作 → 场景环境 → 光线色彩 → 情绪 → 约束

示例结构:

Locked-off car interior shot. Lin Zhixia sits by the car window and looks outside; her breathing, tiny eye movement, and the moving city reflections on the glass create natural real-time motion. Muted warm color grade, shallow depth of field, cinematic diary vlog style. Keep her face, gaze direction, hairstyle, outfit, and identity consistent with the input image, no face distortion, no gaze drifting, no expression morphing, no extra characters.

4. 镜头运动与相对运动写法

本项目常规提示词不写镜头推拉、升格和纯 camera move。镜头推进、拉远、横移、裁切和升格可以在 PR 中更稳定地完成。LTX 提示词应该优先写画面内部的相对运动。

适合本项目写进 LTX 的相对运动:

  • static locked-off shot
  • natural real-time motion
  • stable composition
  • soft window light shifting across the room
  • curtains moving slightly in the background
  • phone screen gently lights up
  • steam rising naturally from tea or hot pot
  • city reflections moving across the car window
  • clouds moving outside the airplane window
  • street lights and passing reflections moving in the background
  • tiny breathing motion
  • small natural hand movement
  • brief natural blink

常规提示词中避免写:

  • slow motion
  • speed ramp
  • slow dolly-in
  • slow push-in
  • slow tracking shot
  • slow start-to-end movement
  • subtle camera drift
  • cinematic push-in
  • fast zoom
  • rapid pan
  • whip pan
  • dramatic crane shot
  • complex orbit shot
  • fast handheld shake
  • aggressive tracking shot
  • sudden camera rotation

5. 主体动作写法

本项目是情绪片,但动作必须符合现实。不能因为模型不稳定就取消必要剧情动作;应该把复杂动作拆成多个短镜头,每个镜头只承担一个小动作。尤其 LTX 2.3 在双人互动、手部动作、吃饭动作和拥抱动作上容易不稳定,所以动作要真实、短、明确、幅度小。

适合的动作:

  • quietly looking out the window
  • pulling a suitcase at a normal walking pace
  • gently picking up a boarding pass
  • taking one small step forward
  • a brief natural smile
  • standing still for a moment
  • walking side by side at a normal relaxed pace
  • sitting quietly by the table
  • scrolling through photos with one small thumb movement
  • two friends look at each other and smile briefly
  • a restrained reunion hug in close-up, shoulder and back visible
  • one hand gently pats the friend's back once

必要但高风险的动作要拆镜头:

  • 久别重逢不要写成一个完整大动作;拆成“对视微笑”“走近半步”“肩膀近景拥抱”“手轻拍背部”。
  • 吃饭聊天不要写复杂夹菜和咀嚼;改成“蒸汽上升、两人微笑、手停在碗边、筷子轻微移动”。
  • 看手机情绪变化不要写大表情转变;改成“眼神停留、呼吸变轻、嘴角有一点自然变化”。

避免的动作:

  • running
  • jumping
  • dramatic hugging
  • large body rotation
  • complex eating gestures
  • rapid hand movement
  • crowd interaction
  • multiple people crossing the foreground
  • forced smile
  • exaggerated acting
  • long facial expression transformation

6. 一致性写法

如果要保持跨镜头一致,需要在每条人物镜头中重复核心要求。不要只依赖全局要求。

人物镜头常用约束:

Keep Lin Zhixia's face, hairstyle, outfit, and identity consistent with the input image.

Keep Aqiao's face, hairstyle, outfit, and identity consistent with the input image.

Keep natural eyes and stable facial expression, preserve the gaze direction from the input image, no gaze drifting, no expression morphing.

双人镜头常用约束:

Keep both women as two separate people, no face merging, no body merging, no identity swap.

双人镜头如果需要拥抱、并肩走、吃饭、聊天,优先使用近景、背影、侧脸、肩膀和手部局部,减少正脸同时大幅运动。

7. 首帧与首尾帧写法

只有首帧的镜头,应写画面内部真实运动,不要要求模型完成大动作,也不要写“从首帧到尾帧”的过渡目标。适合写:soft light movement、gentle breathing motion、curtain movement、steam rising、screen lighting up、reflection movement、one small hand movement。

首尾帧镜头,应写“自然从首帧过渡到尾帧”的动作,但不要写复杂过程。适合写:moves toward at a normal relaxed pace、takes one or two small steps、gently raises the boarding pass、turns into a brief natural smile。

首尾帧镜头应强调:保持人物身份、动作克制、构图稳定、不要突然变化。

8. 空镜写法

空镜要明确写 no peopleno human subjects。否则模型可能自动生成路人或人物。

空镜和静物镜也必须有真实相对运动,否则应优先考虑直接用原图在 PR 中做推进。适合写进 LTX 的运动包括:飞机窗外云层移动、成都街道车窗反射、茶杯蒸汽、串串锅热气、手机屏幕亮起或通知闪动、窗帘轻微浮动、桌面光影缓慢变化、远处人影或灯光虚化移动。不要只写“镜头推进到静物”,这种运动交给 PR。

9. 负面约束写法

每条提示词可以根据镜头风险加入适量负面约束。不要堆太多无关负面词,但关键风险必须写清楚。

常用约束:

  • no face distortion
  • no hand deformation
  • no extra fingers
  • no identity change
  • no extra main characters
  • no sudden movement
  • no fast camera motion
  • no text glitches
  • no warped objects
  • no body merging
  • no face merging
  • no exaggerated acting
  • no over-smoothed skin
  • no plastic AI look
  • no slow motion
  • no speed ramp
  • no dreamy floating motion
  • no gaze drifting
  • no expression morphing
  • no forced smile

10. 本项目固定风格短语

以下短语建议在所有视频提示词中稳定复用:

cinematic diary vlog style

photorealistic 35mm documentary feel

muted warm color grade

soft natural light

shallow depth of field

quiet and intimate mood

natural realistic motion

stable composition

natural real-time motion

soft environmental movement

11. 本项目视频提示词写作结论

本项目的 LTX 视频提示词应比生图提示词更短、更明确、更可执行。重点不是重新描述整张图,也不是让模型完成 PR 可以做的推拉和升格,而是告诉模型这几秒里画面内部哪些东西真实地动。

每条提示词都应优先回答三个问题:画面里什么发生相对运动?人物或环境怎么真实地动?什么绝对不能变?

最终视频生成提示词应单独成文,只放全局要求和每条镜头提示词,不放过程性说明。

第一轮出片建议:每个场景先生成一个 v01,优先保证全片覆盖。不要为了成品率一开始就给每个场景生成多版本;后续只对问题镜头定点重做。


视频生成提示词

林知夏游记VLOG|视频生成提示词

一、全局视频要求

Format: horizontal 16:9 video, cinematic framing, suitable for a 1-minute emotional travel diary vlog.

Style: cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade, shallow depth of field, soft highlights, gentle film-like texture.

Mood: quiet, tender, intimate, relaxed, nostalgic, emotionally restrained. The video should feel like a personal travel diary about visiting an old friend in Chengdu, not a commercial travel ad or a dramatic short film.

Lighting: soft natural light for morning, airport, airplane, street, and teahouse scenes. Warm practical light, warm storefront light, and soft lamp light for night scenes. Keep lighting natural and consistent with the input image.

Camera behavior: do not ask LTX to create PR-style reframing, artificial speed changes, or pure camera-only movement. Keep the camera stable or naturally handheld only when the input image implies it. PR will handle reframing, crop movement, and timing changes. LTX should create realistic internal motion inside the frame.

Character consistency: whenever Lin Zhixia appears, keep her face, hairstyle, outfit, body shape, and identity consistent with the input image. Whenever Aqiao appears, keep her face, hairstyle, outfit, body shape, and identity consistent with the input image. In two-person shots, keep both women as two separate people, no face merging, no body merging, no identity swap.

Motion: every shot must contain believable relative motion inside the frame: breathing, brief blinking, small hand movement, cloth movement, screen glow, steam, light shifting, curtains moving, car-window reflections, clouds, street lights, or background activity. Character movement should be natural, restrained, and realistic. Avoid running, jumping, exaggerated acting, large body rotation, complex eating gestures, rapid hand movement, and crowd interaction.

Image-to-video behavior: preserve the composition, character identity, lighting, color grade, and scene details of the input image. This batch uses single first-frame i2v, so each prompt should describe what naturally moves inside the current frame, not a transition toward an unseen final frame.

Quality constraints: no face distortion, no hand deformation, no extra fingers, no warped objects, no text glitches, no sudden character changes, no extra main characters, no plastic AI look, no over-smoothed skin, no unstable camera motion, no artificial speed effect, no dreamy floating motion, no gaze drifting, no expression morphing, no forced smile.

二、各镜头视频提示词

镜头01

subject:An open suitcase on a morning bedroom bed, pale clothes and travel items inside, with one hand placing or adjusting a small item once; fabric edges and a curtain move slightly in the window air.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade, shallow depth of field, gentle film-like texture.

lighting:soft natural morning window light shifting gently across the bed and suitcase.

mood:quiet, intimate, restrained anticipation before leaving home.

camera framing:locked-off 16:9 bedroom composition, stable frame, no face appears, preserve the input image composition; no hand deformation, no extra fingers, no sudden movement.

镜头02

subject:A Chengdu travel plan on a tabletop with sticky notes, phone, pen, and half-finished coffee; the phone gives a tiny notification glow, coffee steam moves naturally, and window light shifts across the paper.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade, shallow depth of field.

lighting:soft morning window light with small reflections on the phone and coffee cup.

mood:quiet planning mood, careful but not commercial, like a trip becoming real.

camera framing:locked-off 16:9 tabletop composition, objects remain stable and realistic; no people, no text glitches, no warped objects, no extra hands.

镜头03

subject:A boarding pass and coffee cup on a close tabletop, with a suitcase softly blurred in the background; coffee steam rises and a soft window reflection moves across the cup and paper.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade.

lighting:soft natural morning light with gentle highlights on paper and ceramic.

mood:intimate decision moment, the feeling after finally choosing to leave for Chengdu.

camera framing:locked-off close 16:9 tabletop framing, stable composition; preserve ticket-like details without text glitches, no warped objects, no extra characters.

镜头04

subject:A phone close-up with Aqiao's chat message visible; the screen glow changes slightly while Lin Zhixia's hand rests near the phone with one tiny natural finger movement.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade.

lighting:soft indoor light with realistic phone screen glow on nearby fingers and table surface.

mood:quiet and decisive, as if one casual message has made the trip happen.

camera framing:locked-off 16:9 phone close-up, stable composition; keep the phone and hand natural, no text glitches, no hand deformation, no extra fingers, no sudden movement, no extra characters.

镜头05

subject:Lin Zhixia at an apartment entrance in morning light, pulling her suitcase away at a normal relaxed walking pace; only one or two small steps happen inside the frame, suitcase wheels roll naturally, clothes move slightly.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade.

lighting:soft morning light from the doorway or corridor, natural and consistent with the input image.

mood:quiet departure, practical and emotionally restrained, not dramatic.

camera framing:stable 16:9 entrance composition; keep Lin Zhixia's face, hairstyle, outfit, body shape, and identity consistent with the input image; no face distortion, no body deformation, no sudden movement, no camera shake.

镜头06

subject:Lin Zhixia sitting by a car window, looking outside; city reflections move across the glass while she has natural breathing, a brief blink, and stable eyes.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade, shallow depth of field.

lighting:soft moving city light through the car window, gentle reflections on glass and face.

mood:calm, slightly distant, inward-looking travel mood.

camera framing:fixed 16:9 car interior composition; keep her face, gaze direction, hairstyle, outfit, body shape, and identity consistent with the input image; no face distortion, no gaze drifting, no expression morphing, no extra characters.

镜头07

subject:Lin Zhixia in an airport waiting area, gently lifting the boarding pass a few centimeters from the table in one small controlled motion; coffee and bag stay stable while background light flickers softly.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade.

lighting:soft airport daylight with mild reflections from glass and polished surfaces.

mood:quiet travel transition, focused and unhurried.

camera framing:stable 16:9 airport tabletop and seated-person composition; keep her face, hairstyle, outfit, body shape, and identity consistent with the input image; no hand deformation, no extra fingers, no face distortion, no text glitches, no sudden movement.

镜头08

subject:Clouds outside an airplane window moving naturally, with soft daylight changing across the frame and a tiny realistic cabin vibration.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted soft blue and warm white color grade.

lighting:soft daylight through the airplane window, gentle highlight changes on the frame edge.

mood:calm flying mood, quiet emotional pause between cities.

camera framing:locked-off 16:9 airplane window composition; no people, no human subjects, no sudden camera motion, no unrealistic cloud distortion, no extra objects.

镜头09

subject:Lin Zhixia sitting by an airplane cabin window, looking outside with calm contemplative expression; window light shifts across her face, with natural breathing and one brief blink only.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade, shallow depth of field.

lighting:soft window light from the airplane cabin, natural highlight movement on face and hair.

mood:quiet, contemplative, slightly lonely in transit.

camera framing:fixed 16:9 window-seat composition; keep her face, gaze direction, hairstyle, outfit, body shape, and identity consistent with the input image; no face distortion, no gaze drifting, no expression morphing, no extra passengers in focus.

镜头10

subject:A dark phone screen, earphones, boarding pass, and coffee edge in a still-life arrangement; window reflections move faintly across the glass and a small highlight shifts on the earphones or cup.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade, shallow depth of field.

lighting:soft natural travel light reflected on phone glass and small objects.

mood:quiet and slightly empty, like a relationship left inside a chat window.

camera framing:locked-off 16:9 still-life composition; no people, no human subjects, no text glitches, no warped phone, no extra hands.

镜头11

subject:First impression of Chengdu seen through a car window or arrival-area glass; trees, wet pavement, storefronts, and daylight move as real background reflections and street motion inside the frame.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade.

lighting:soft natural Chengdu daylight with humid reflections on glass and pavement.

mood:arrival mood, fresh but emotionally restrained, entering a friend's city.

camera framing:stable 16:9 street-through-glass composition; no main character appears, no extra main characters, no fast motion, no warped street details.

镜头12

subject:Lin Zhixia in a Chengdu arrival area or meeting spot noticing Aqiao in the distance; Lin Zhixia takes one small step or shifts her weight forward while Aqiao remains clearly separate in the background, both faces natural and stable.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade, shallow depth of field.

lighting:soft natural arrival-area light, even and realistic on both people.

mood:recognition before reunion, tender and restrained.

camera framing:stable 16:9 medium or wide meeting-point composition; keep Lin Zhixia and Aqiao consistent with their input images; no face merging, no body merging, no identity swap, no running, no sudden movement, no gaze drifting.

镜头13

subject:Lin Zhixia and Aqiao sharing a restrained natural reunion hug, framed around shoulders and upper backs; one hand gently pats the friend's back once, faces partly side-view or not both fully visible at the same time.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade.

lighting:soft natural light on shoulders, hair, and side faces, consistent with the meeting location.

mood:intimate, tender, realistic old-friend reunion without theatrical acting.

camera framing:close or medium-close 16:9 composition focused on shoulders and upper bodies; keep both women as two separate people, consistent with their input images; no dramatic hugging, no face distortion, no body merging, no identity swap, no sudden movement, no extra limbs.

镜头14

subject:Lin Zhixia and Aqiao walking side by side on a Chengdu street at a normal relaxed pace; clothes and hair move naturally, tree shadows and storefront lights shift in the background.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade.

lighting:soft natural daylight with tree-shadow movement and gentle storefront reflections.

mood:relaxed companionship after meeting, everyday city warmth.

camera framing:stable 16:9 street composition, side view or back three-quarter view preferred; keep both women consistent with their input images; no face merging, no body deformation, no fast walking, no sudden camera motion, no extra main characters.

镜头15

subject:Lin Zhixia standing under tree shadows on a Chengdu street; leaves and light move across the background while she makes one brief natural glance or tiny head turn.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade, shallow depth of field.

lighting:soft natural daylight filtered through trees, light and shadow moving gently on the street.

mood:relaxed, calm, quietly opening up to the city.

camera framing:locked-off 16:9 street portrait composition; keep her face, gaze direction, hairstyle, outfit, body shape, and identity consistent with the input image; no face distortion, no gaze drifting, no expression morphing, no exaggerated posing, no extra main characters.

镜头16

subject:Lin Zhixia and Aqiao standing near the entrance of a small Chengdu eatery, casually deciding whether to go in; one gives a brief natural smile or tiny nod while warm shop light flickers behind them.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade.

lighting:warm street and storefront light, natural evening atmosphere.

mood:easy friendship, relaxed decision-making, no urgency.

camera framing:stable 16:9 eatery entrance composition; keep both women as two separate people, consistent with their input images; no face merging, no identity swap, no gaze drifting, no expression morphing, no sudden movement, no crowd interaction.

镜头17

subject:A phone album or scattered travel photos showing imperfect warm Chengdu memories: street moments, teahouse, food, and two friends; a thumb swipes once or the phone album changes to the next photo, while warm lamp light shifts on the table.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade, shallow depth of field.

lighting:soft warm indoor light, small reflections on phone glass and photo surfaces.

mood:nostalgic, imperfect, tender memory review.

camera framing:locked-off 16:9 tabletop or phone-album composition; no live characters appear outside the photos, keep faces in the photos stable, no warped faces, no text glitches, no extra fingers.

镜头18

subject:Lin Zhixia sitting quietly by a teahouse window with tea and small objects on the table; tea steam rises, window light shifts on the tabletop, and she has natural breathing with one brief blink.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade, shallow depth of field.

lighting:soft afternoon window light in a teahouse, warm and natural.

mood:quiet, reflective, a quiet reflective teahouse pause, with no artificial speed effect.

camera framing:locked-off 16:9 teahouse composition; keep her face, gaze direction, hairstyle, outfit, body shape, and identity consistent with the input image; no face distortion, no gaze drifting, no expression morphing, no extra main characters.

镜头19

subject:A teahouse table with a cup of tea, wooden tabletop, soft window light, and natural steam; tree shadows or window reflections move gently across the table.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade, shallow depth of field.

lighting:soft afternoon window light with warm highlights on tea and wood.

mood:quiet afternoon pause, a breath between scenes.

camera framing:locked-off 16:9 teahouse still-life composition; no people, no human subjects, no warped cup, no extra hands, no sudden motion.

镜头20

subject:Lin Zhixia and Aqiao outside a Chengdu chuanchuan restaurant at night, walking toward or past the warmly lit storefront at a normal relaxed pace, mostly side view or back view; neon and storefront reflections move across the wet street.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted night color grade.

lighting:warm storefront lights, soft neon reflections, realistic night street highlights.

mood:casual evening hunger, warm city smoke and friendship.

camera framing:stable 16:9 night street composition; keep both women as two separate people, consistent with their input images; no face merging, no body deformation, no fast walking, no sudden camera movement, no identity swap.

镜头21

subject:A chuanchuan hot pot, skewers, menu, chopsticks, dipping bowls, and drinks on a restaurant table; steam rises naturally and one sleeve or partial hand makes a small simple movement near the bowl, with no full faces visible.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade, realistic food texture.

lighting:warm practical restaurant light with highlights on steam, oil, bowls, and chopsticks.

mood:tired but satisfied, casual and real, not a commercial food advertisement.

camera framing:locked-off 16:9 food close-up composition; no full faces, no hand deformation, no warped food, no extra fingers, no sudden movement.

镜头22

subject:Lin Zhixia and Aqiao sitting across from each other at a small chuanchuan table with steam rising between them; one woman gives a brief natural smile while the other listens, hands mostly still near bowls or cups.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade.

lighting:warm restaurant practical light with steam and soft shadows between the two friends.

mood:intimate and relaxed, the solid feeling of a friend sitting across the table.

camera framing:stable 16:9 medium table composition; keep both women as two separate people, consistent with their input images; no face merging, no identity swap, no gaze drifting, no expression morphing, no complex eating gestures, no hand deformation, no sudden movement.

镜头23

subject:After dinner at night, Lin Zhixia and Aqiao walking away from the restaurant along a Chengdu street at a normal relaxed pace; back view or side profiles, warm storefront lights and reflections moving behind them.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted night color grade.

lighting:warm storefront and street lights with soft reflections on pavement.

mood:post-dinner calm, friendship continuing into the night.

camera framing:stable 16:9 night street composition, back view or side profiles preferred; keep both women as two separate people, consistent with their input images; no face merging, no body deformation, no fast walking, no sudden camera movement, no identity swap.

镜头24

subject:Lin Zhixia in a warm hotel room at night, looking down at phone photos; the phone glow changes slightly, her breathing is visible, and her mouth makes a tiny natural change toward a restrained smile.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade, shallow depth of field.

lighting:warm lamp light and soft phone glow on her face and hands.

mood:quiet emotional landing, remembering why the imperfect photos matter.

camera framing:stable 16:9 hotel-room composition; keep her face, gaze direction, hairstyle, outfit, body shape, and identity consistent with the input image; no face distortion, no gaze drifting, no expression morphing, no forced smile, no hand deformation, no sudden movement, no extra characters.

镜头25

subject:A phone showing a natural photo of Lin Zhixia and Aqiao, with boarding pass, earphones, and warm lamp light nearby; the phone screen glow breathes slightly and lamp light shifts gently across the travel objects.

style:cinematic diary vlog style, photorealistic 35mm documentary feel, natural real-time motion, muted warm color grade, shallow depth of field.

lighting:warm hotel room lamp light with soft screen glow and gentle reflections on travel objects.

mood:quiet emotional ending, turning "next time" into "today".

camera framing:locked-off 16:9 closing still-life composition; no live characters appear outside the phone photo, keep faces in the phone photo stable, no text glitches, no warped phone, no extra hands.


ComfyUI 与 Codex 连接实操

1. 文件准备

项目目录内需要准备这些文件:

video_ltx2_3_i2v.json              # ComfyUI 界面工作流,用于手动打开检查
video_ltx2_3_i2v API.json          # ComfyUI API 工作流模板,用于脚本批量替换字段
06_视频生成提示词.md                 # 每个镜头的视频提示词来源
build_comfyui_plan.py              # 从提示词笔记生成批量任务清单
comfyui_batch_submit.py            # 生成工作流副本,并提交到 ComfyUI 队列
生成图片/                            # 每个镜头的首帧图
生成视频/workflows/                  # 每个镜头版本的 API 工作流副本
生成视频/ui_workflows/               # 每个镜头版本的 UI 工作流副本,可手动打开检查
生成视频/raw/                        # ComfyUI 原始输出视频
生成视频/selected/                   # 筛选后进入剪辑的可用片段

2. ComfyUI API 工作流需要替换的字段

模板文件:video_ltx2_3_i2v API.json

批量生成时替换这些字段:

269.inputs.image             输入首帧图片文件名
320:319.inputs.value         正向视频提示词
320:313.inputs.text          负向提示词
320:301.inputs.value         Duration
320:300.inputs.value         Frame Rate
320:312.inputs.value         Width
320:299.inputs.value         Height
320:277.inputs.noise_seed    随机种子
75.inputs.filename_prefix    输出文件前缀

对应关系:

首帧图        → 269.inputs.image
镜头提示词    → 320:319.inputs.value
统一负面词    → 320:313.inputs.text
输出命名      → 75.inputs.filename_prefix
版本随机种子  → 320:277.inputs.noise_seed

3. 统一负面提示词

low quality, blurry, out of focus, overexposed, underexposed, flickering, jittery movement, unstable camera, fast camera motion, sudden camera movement, face distortion, deformed facial features, identity change, face merging, body merging, extra main characters, extra limbs, hand deformation, extra fingers, warped objects, text glitches, unreadable text, cartoon, game render, 3D CGI look, plastic AI look, over-smoothed skin, exaggerated acting, dramatic expression, complex eating gesture, crowd interaction, inconsistent lighting, inconsistent framing, slow motion, speed ramp, dreamy floating motion, gaze drifting, expression morphing, forced smile, AI artifacts

如果某个镜头不需要任何文字,可以额外加入:

random text

镜头04需要手机聊天文字,不额外加入 random text

4. 生成批量任务清单

在项目目录执行:

python build_comfyui_plan.py

输出:

comfyui_ltx_batch_plan.json

任务清单里每个任务包含:

id                        shot_06_v01
shot                      06
version                   1
workflow_type             i2v
template                  video_ltx2_3_i2v API.json
input_image               镜头06_首帧.png
input_image_project_path  生成图片/镜头06_首帧.png
prompt                    镜头06视频提示词
negative_prompt           统一负面提示词
width                     1600
height                    900
duration                  10
fps                       25
seed                      每个版本不同
risk                      low / medium / high
output_prefix             生成视频/raw/shot_06_v01
workflow_output           生成视频/workflows/shot_06_v01_api.json
enabled                   true

5. 生成单镜头工作流,不提交

先用镜头06做最小测试:

python comfyui_batch_submit.py --write-workflows --write-ui-workflows --shots 06

生成:

生成视频/workflows/shot_06_v01_api.json
生成视频/ui_workflows/shot_06_v01_ui.json
生成视频/workflows/shot_06_v02_api.json
生成视频/ui_workflows/shot_06_v02_ui.json

用途:

_api.json      用于 ComfyUI API 提交
_ui.json       用于 ComfyUI 界面手动打开检查

6. 同步首帧图到 ComfyUI input 目录

如果 ComfyUI 只能读取自己的 input 目录,执行时加入:

python comfyui_batch_submit.py --write-workflows --write-ui-workflows --sync-inputs --input-dir  --shots 06

占位符说明:

  替换成你自己的 ComfyUI input 目录

7. 提交单镜头到 ComfyUI 队列

确认 ComfyUI 已启动,并且 API 地址可访问。

常见地址:

http://127.0.0.1:8188

提交镜头06:

python comfyui_batch_submit.py --write-workflows --write-ui-workflows --sync-inputs --input-dir  --submit --server http://127.0.0.1:8188 --shots 06

如果你的 ComfyUI 地址不是 8188,把 --server 后面的地址换掉。

8. 按风险等级批量提交

低风险镜头:

python comfyui_batch_submit.py --write-workflows --write-ui-workflows --sync-inputs --input-dir  --submit --server http://127.0.0.1:8188 --risk low --sleep 1

中风险镜头:

python comfyui_batch_submit.py --write-workflows --write-ui-workflows --sync-inputs --input-dir  --submit --server http://127.0.0.1:8188 --risk medium --sleep 1

高风险镜头:

python comfyui_batch_submit.py --write-workflows --write-ui-workflows --sync-inputs --input-dir  --submit --server http://127.0.0.1:8188 --risk high --sleep 1

指定几个镜头:

python comfyui_batch_submit.py --write-workflows --write-ui-workflows --sync-inputs --input-dir  --submit --server http://127.0.0.1:8188 --shots 01,02,03

指定任务 ID:

python comfyui_batch_submit.py --write-workflows --write-ui-workflows --sync-inputs --input-dir  --submit --server http://127.0.0.1:8188 --ids shot_13_v01,shot_13_v02

限制提交数量:

python comfyui_batch_submit.py --write-workflows --write-ui-workflows --sync-inputs --input-dir  --submit --server http://127.0.0.1:8188 --risk low --limit 3

9. 推荐执行顺序

第一轮:镜头06
作用:验证 API 工作流、图片读取、提示词替换、输出比例、输出目录。

第二轮:低风险镜头
01、02、03、06、08、09、10、11、18、19、21、25
作用:验证整体风格、光线、轻微运动和稳定性。

第三轮:中风险镜头
04、05、07、16、17
作用:检查文字、手部、轻动作和双人静态关系。

第四轮:高风险镜头
12、13、14、20、22、23、24
作用:多版本生成,筛选人物稳定、动作自然的版本。

10. Codex 交互指令模板

在 Codex 中可以按下面顺序发指令:

请读取 06_视频生成提示词.md,按镜头编号解析每条视频提示词,生成 comfyui_ltx_batch_plan.json。每个任务包含 shot、version、input_image、prompt、negative_prompt、width、height、duration、fps、seed、risk、output_prefix、workflow_output。
请基于 video_ltx2_3_i2v API.json,把 comfyui_ltx_batch_plan.json 中每个任务替换成单独的 ComfyUI API 工作流,输出到 生成视频/workflows/。同时生成可手动打开的 UI 工作流到 生成视频/ui_workflows/。
先只处理镜头06,不提交队列,只生成 workflow 文件。我会手动检查。
镜头06检查通过后,把低风险镜头批量生成 workflow,并提交到 ComfyUI 队列。提交时每个任务间隔 1 秒。
根据生成结果,帮我建立视频素材筛选表,字段包括:镜头、版本、是否可用、可截取时间段、问题、是否进入剪辑。

ComfyUI 视频生成执行表

林知夏游记VLOG|ComfyUI视频生成执行表

1. 当前目标

本表用于把项目里的分镜、首帧图片、LTX视频提示词和ComfyUI API工作流连接起来,形成后续批量生成视频的执行依据。

当前不直接生成最终成片,而是先批量生成每个镜头的候选视频素材。生成后再建立素材筛选表,挑选可用片段进入剪辑。

2. 当前策略调整

本轮视频生成全部使用单首帧图生视频方式,不再使用首尾帧方式。

原因:首尾帧方式对提示词、动作逻辑和首尾画面匹配要求极高,当前测试结果不稳定。心情日记式VLOG更依赖轻微运动、人物稳定和画面氛围,单首帧 i2v 更适合本轮批量生产。

已有尾帧图片保留为参考素材,但不进入本轮ComfyUI批量生成流程。

3. 已有ComfyUI工作流

3.1 单首帧图生视频普通工作流

工作流文件:video_ltx2_3_i2v.json

用途:界面查看和手动测试。

3.2 单首帧图生视频 API 工作流

API工作流文件:video_ltx2_3_i2v API.json

用途:后续批量脚本读取、替换字段并提交到ComfyUI队列。

关键可替换字段:

  • 269.inputs.image:输入首帧图片文件名,当前为 镜头06_首帧.png
  • 320:319.inputs.value:正向视频提示词。
  • 320:313.inputs.text:负向提示词。
  • 320:301.inputs.value:Duration,当前为5。
  • 320:300.inputs.value:Frame Rate,当前为25。
  • 320:312.inputs.value:Width,当前为1280。
  • 320:299.inputs.value:Height,当前为720。
  • 320:277.inputs.noise_seed:主要随机种子,批量生成时每个版本应不同。
  • 75.inputs.filename_prefix:输出前缀,当前为 video/LTX_2.3_i2v

3.3 首尾帧工作流

普通工作流文件:video_ltx2_3_flf2v swz.json

当前状态:暂时不用于本轮批量生成,仅保留作为后续备选。

4. 笔记与ComfyUI之间的交互关系

生成图片/ 提供每个镜头的首帧图片。

06_视频生成提示词.md 提供每个镜头的视频提示词。

05_视频生成准备.md 提供每个镜头建议生成版本数、风险等级和输出命名规则。

video_ltx2_3_i2v API.json 是批量生成的模板。

后续批量生成时,脚本按镜头逐条读取任务清单,复制 API 模板并替换图片、提示词、负面提示词、seed、输出前缀等字段,然后一个接一个提交到 ComfyUI 队列。

5. 推荐目录结构

建议新增以下目录:

生成视频/
├─ workflows/
│  ├─ shot_01_v01_api.json
│  ├─ shot_01_v02_api.json
│  └─ ...
├─ raw/
│  ├─ shot_01_v01.mp4
│  ├─ shot_01_v02.mp4
│  └─ ...
└─ selected/
   └─ 后续放入筛选后的可用片段

说明:

  • workflows/ 保存每个镜头版本的API工作流副本,便于复现。
  • raw/ 保存ComfyUI输出的原始视频。
  • selected/ 保存筛选后准备进入剪辑的片段。

6. 统一负面提示词

建议将 API 工作流中的负向提示词替换为:

low quality, blurry, out of focus, overexposed, underexposed, flickering, jittery movement, unstable camera, fast camera motion, sudden camera movement, face distortion, deformed facial features, identity change, face merging, body merging, extra main characters, extra limbs, hand deformation, extra fingers, warped objects, text glitches, unreadable text, cartoon, game render, 3D CGI look, plastic AI look, over-smoothed skin, exaggerated acting, dramatic expression, complex eating gesture, crowd interaction, inconsistent lighting, inconsistent framing, AI artifacts

如果某些镜头不需要任何文字,可额外加入 random text。镜头04涉及手机聊天文字,不额外加入 random text

7. 测试顺序

7.1 第一轮:API工作流最小测试

推荐先测试镜头06。

原因:video_ltx2_3_i2v API.json 当前已经指向 镜头06_首帧.png,且镜头06是低风险人物静态镜头,适合验证API工作流、输出比例、时长、提示词替换和保存路径。

测试内容:

  • 输入图片:生成图片/镜头06_首帧.png
  • 提示词:06_视频生成提示词.md 中的镜头06
  • API模板:video_ltx2_3_i2v API.json
  • 输出建议:生成视频/raw/shot_06_v01.mp4

7.2 第二轮:低风险批量测试

镜头06测试成功后,再生成低风险镜头:

01、02、03、06、08、09、10、11、18、19、21、25

这批镜头用于验证整体风格、光线、画面稳定性和轻微运动。

7.3 第三轮:中风险镜头

低风险批量测试稳定后,再生成中风险镜头:

04、05、07、16、17

这批重点检查文字、手部、轻动作和双人静态关系是否可控。

7.4 第四轮:高风险镜头多版本生成

最后生成高风险镜头:

12、13、14、20、22、23、24

这些镜头需要多版本生成,优先筛选人物稳定、动作自然的版本。虽然不再使用尾帧,但仍要多生成版本以提高可用率。

8. 镜头执行映射表

镜头工作流输入图片提示词来源建议版本 {align="right"}输出命名
01i2v API生成图片/镜头01 首帧.png06 视频生成提示词.md 镜头011 2 {align="right"}shot 01 v01.mp4
02i2v API生成图片/镜头02 首帧.png06 视频生成提示词.md 镜头021 2 {align="right"}shot 02 v01.mp4
03i2v API生成图片/镜头03 首帧.png06 视频生成提示词.md 镜头031 2 {align="right"}shot 03 v01.mp4
04i2v API生成图片/镜头04 首帧.png06 视频生成提示词.md 镜头041 2 {align="right"}shot 04 v01.mp4
05i2v API生成图片/镜头05 首帧.png06 视频生成提示词.md 镜头052 3 {align="right"}shot 05 v01.mp4
06i2v API生成图片/镜头06 首帧.png06 视频生成提示词.md 镜头061 2 {align="right"}shot 06 v01.mp4
07i2v API生成图片/镜头07 首帧.png06 视频生成提示词.md 镜头072 {align="right"}shot 07 v01.mp4
08i2v API生成图片/镜头08 首帧.png06 视频生成提示词.md 镜头081 2 {align="right"}shot 08 v01.mp4
09i2v API生成图片/镜头09 首帧.png06 视频生成提示词.md 镜头091 2 {align="right"}shot 09 v01.mp4
10i2v API生成图片/镜头10 首帧.png06 视频生成提示词.md 镜头101 2 {align="right"}shot 10 v01.mp4
11i2v API生成图片/镜头11 首帧.png06 视频生成提示词.md 镜头111 2 {align="right"}shot 11 v01.mp4
12i2v API生成图片/镜头12 首帧.png06 视频生成提示词.md 镜头123 {align="right"}shot 12 v01.mp4
13i2v API生成图片/镜头13 首帧.png06 视频生成提示词.md 镜头133 4 {align="right"}shot 13 v01.mp4
14i2v API生成图片/镜头14 首帧.png06 视频生成提示词.md 镜头143 {align="right"}shot 14 v01.mp4
15i2v API生成图片/镜头15 首帧.png06 视频生成提示词.md 镜头151 2 {align="right"}shot 15 v01.mp4
16i2v API生成图片/镜头16 首帧.png06 视频生成提示词.md 镜头162 {align="right"}shot 16 v01.mp4
17i2v API/后期生成图片/镜头17 首帧.png06 视频生成提示词.md 镜头171 {align="right"}shot 17 v01.mp4
18i2v API生成图片/镜头18 首帧.png06 视频生成提示词.md 镜头181 2 {align="right"}shot 18 v01.mp4
19i2v API生成图片/镜头19 首帧.png06 视频生成提示词.md 镜头191 {align="right"}shot 19 v01.mp4
20i2v API生成图片/镜头20 首帧.png06 视频生成提示词.md 镜头203 {align="right"}shot 20 v01.mp4
21i2v API生成图片/镜头21 首帧.png06 视频生成提示词.md 镜头211 2 {align="right"}shot 21 v01.mp4
22i2v API生成图片/镜头22 首帧.png06 视频生成提示词.md 镜头223 {align="right"}shot 22 v01.mp4
23i2v API生成图片/镜头23 首帧.png06 视频生成提示词.md 镜头233 {align="right"}shot 23 v01.mp4
24i2v API生成图片/镜头24 首帧.png06 视频生成提示词.md 镜头243 {align="right"}shot 24 v01.mp4
25i2v API/后期生成图片/镜头25 首帧.png06 视频生成提示词.md 镜头251 {align="right"}shot 25 v01.mp4

9. 批量生成前还需要做的事

  1. 在项目路径下创建 生成视频/生成视频/workflows/生成视频/raw/生成视频/selected/
  2. 确认 ComfyUI 可以读取 生成图片/ 中的图片。如果 ComfyUI 只能读取自己的 input 目录,需要把图片复制到 ComfyUI input 目录,或在工作流中使用可访问的相对路径。
  3. 用镜头06测试 i2v API 工作流。
  4. 根据测试结果决定是否修改分辨率、duration、负面提示词、seed策略。
  5. 测试通过后,再编写批量任务清单和批量队列提交脚本。

10. 批量脚本需要修改的API工作流字段

模板文件:video_ltx2_3_i2v API.json

需要替换:

  • 269.inputs.image:首帧图片文件名。
  • 320:319.inputs.value:对应镜头的视频提示词。
  • 320:313.inputs.text:统一负面提示词。
  • 320:301.inputs.value:Duration,默认5。
  • 320:300.inputs.value:Frame Rate,默认25。
  • 320:312.inputs.value:Width,默认1280。
  • 320:299.inputs.value:Height,默认720。
  • 320:277.inputs.noise_seed:每个版本不同。
  • 75.inputs.filename_prefix:对应 生成视频/raw/shot_xx_vxx

11. 当前结论

现在本轮策略已经简化为“全部单首帧图生视频”。下一步应生成结构化批量任务清单 comfyui_ltx_batch_plan.json,再生成批量提交脚本。

批量执行时不需要打开很多工作流窗口,只需要使用 video_ltx2_3_i2v API.json 作为模板,由脚本一个接一个向 ComfyUI 队列提交任务。


文档插图