为什么AI视频提示词写得很详细，生成视频还是不稳定？

很多人做 AI 视频时都会遇到一个问题：提示词明明写了很多，甚至写得很长，但生成结果还是不稳定。比如：角色突然换脸场景前后不一致动作只完成了一半镜头没有重点画面看起来像随机片段剧情关系没有被表达出来这…

很多人做 AI 视频时都会遇到一个问题：提示词明明写了很多，甚至写得很长，但生成结果还是不稳定。比如：

角色突然换脸
场景前后不一致
动作只完成了一半
镜头没有重点
画面看起来像随机片段
剧情关系没有被表达出来

这时候很多人会以为是模型不行。但其实很多时候不是模型完全不行，而是提示词没有按照“视频逻辑”来写。

一、AI视频提示词不是普通文字描述

我们平时写小说、剧本、脚本，习惯用叙事语言。比如：

她发现自己被跟踪了，心里越来越紧张，于是加快脚步穿过雨夜街道。

这句话作为剧情描述是清楚的。但如果直接丢给视频模型，它不一定知道应该怎么拍。因为它缺少很多画面信息：

她长什么样？
街道是什么样？
她怎么发现被跟踪？
镜头先拍她还是先拍车？
是近景还是远景？
是固定镜头还是跟拍？
紧张通过什么动作表现？

所以，AI视频提示词不能只写“发生了什么”，还要写“画面怎么呈现”。

二、提示词写得长，不等于写得有效

很多人的提示词会变成这样：电影感，高质量，8K，超清，真实光影，雨夜，紧张，压迫感，女孩奔跑，后面有人追，霓虹灯，赛博朋克风格，镜头感强。

这类词不是完全没用，但问题是它太像关键词堆叠。它没有告诉模型：

谁是主体
主体在哪里
主体怎么运动
镜头怎么跟随
动作从哪里开始，到哪里结束
画面重点是什么

所以看起来写了很多，实际上信息并不完整。

三、写AI视频提示词，最好先有分镜

我现在比较建议的流程是：不要从脚本直接到视频提示词。中间最好先经过一层分镜。比如原文是：

她发现身后的车一直跟着自己，于是加快脚步。可以先拆成几个镜头：

镜头1：雨夜街道，黑色轿车缓慢跟在女孩身后。
镜头2：女孩听到引擎声，停下脚步回头。
镜头3：车灯照亮她的侧脸，她意识到自己被跟踪。
镜头4：她握紧伞柄，加快脚步穿过路口。

这样再写视频提示词，就会清楚很多。这也是我为什么一直建议做 AI短剧、AI漫剧、小说改编视频的人，不要跳过分镜。分镜不是传统影视流程里的“麻烦步骤”，而是让 AI 视频更可控的中间层。像小镜故事板这类工具，核心价值就在这里：它可以先把小说、剧本或脚本拆成分镜脚本，再继续生成每个镜头的生图提示词和文生视频提示词。这样提示词不是靠人临时发挥，而是从剧情结构里拆出来的。