有些朋友来问我:
也想做一部这样的电影,应该用什么AI工具?需要多少钱?
我讲完朋友听的也是似懂非懂,索性我就写一篇如何利用AI
完成一部完全由你构思设计的短片/电影的全流程
- 核心流程就三步:
- 文生图 → 文生视频/首尾帧生视频 → 剪辑拼接成片
今天我们就以武侠风格来完成一部短片

第一步:文生图(角色、场景等图)
推荐工具:
- GPT-image-2 (OpenAI模型)
- Seedream 5.0 (火山模型)
- Nano Banana Pro(Google模型)
- Midjourney v7 (Midjourney模型)
这里我用GPT-Image 2.0演示
统一遵循:主体+环境+风格+构图+画质词
人物1
主体在一个无缝的背景上。没有物体、桌子、表面、地板或环境元素——只有主体。为电影感十足的武侠角色制作接触片,采用照片级真实胶片质量、暖琥珀色和冷蓝色明暗对比调色板,浅景深。她是一位二十多岁的年轻中国女性,举止精瘦而严谨,拥有锐利的深邃眼睛和高颧骨,黑发束起,散落在脸上。她穿着一件层叠的黑色丝绸汉服战袍,袖口和领口有深色刺绣,腰间系着深色皮带,长袖设计便于行动。左腰挂着一把黑色漆鞘的直剑。她的表情很克制——不是冷漠,而是克制。接触片应包含一张全身正面、面向广角的镜头,包括脚部。一张面向后、全身全景的全景镜头,包括双脚。还有从肩膀以上、正面对角的特写。确保角色在所有姿势中都完全相同。游戏背景是一个中性且极简的环境,拥有地面平面和简洁的场景深度。画面光线均匀,对比度低,色彩调色自然。阴影拉高,自然效果。没有分割线、文本标签或图形叠加

人物2
主体在一个无缝的背景上。没有物体、桌子、表面、地板或环境元素——只有主体。为电影感十足的武侠角色制作接触片,采用照片级真实胶片质量、暖琥珀色和冷蓝色明暗对比调色板,浅景深。他是一位五十多岁到六十出头的中国人,尽管年纪已高,身材高大强壮,留着一头披散的长白发和修剪整齐的白胡须。他的脸上布满了深深的皱纹——一个经历过暴力并幸存下来的人。他身穿一袭飘逸的白灰层叠丝绸汉服,饰以银灰色点缀,腰间系着宽腰带,袖口宽大以遮住抽身。一把剑,白色骨银剑鞘挂在他的腰间。他的姿态完全静止——那种从不浪费动作的静止。接触片应包含一张全身正面、面向广角的镜头,包括脚部。一张面向后、全身全景的全景镜头,包括双脚。还有从肩膀以上、正面对角的特写。确保角色在所有姿势中都完全相同。游戏背景是一个中性且极简的环境,拥有地面平面和简洁的场景深度。画面光线均匀,对比度低,色彩调色自然。阴影拉高,自然效果。没有分割线、文本标签或图形叠加。

场景1
创造一幅写实的电影画面,描绘古代中国山地黎明前夕的高海拔冰冻湖泊。冰面宽阔平坦,裂开着细微的分形图案,反射着第一缕淡淡的光线穿过山脊——地平线上冷青色与淡淡温暖的玫瑰色交织在一起。薄雪在冰面上铺布,形成被风吹拂的图案。周围的山峰是被初光环绕的黑暗轮廓。氛围巨大、暴露、终结。图像应以全景拍摄的视角构图,没有人影,没有杂乱无章或不必要的物品。空间应当感觉氛围适合场景,但又无人居住。画面光线均匀,对比度低,色彩调色自然。阴影拉高,自然效果。

场景2
打造一张写实的电影画面,描绘一座坐落在雪山高峰上的古代中国山庙群。画面展现了多层寺院院落和夜晚的屋顶——弯曲的漆瓦屋顶积雪,铺满白雪的石铺庭院,蓝黑色天空下闪烁琥珀色的红色纸灯笼,精雕细琢的石柱和香炉。烛光从室内门口渗出。雪花轻轻飘落在空气中。远处背景是被雾气笼罩的山峰。气氛冰冷、礼仪化且危险。图像应以全景拍摄的视角构图,没有人影,没有杂乱无章或不必要的物品。空间应当感觉氛围适合场景,但又无人居住。画面光线均匀,对比度低,色彩调色自然。阴影拉高,自然效果。

场景3
创造一幅写实的电影画面,描绘冬季夜晚浓密的中国古竹林。高大的竹茎从覆雪的地面中拔起,淡绿灰色的表面映着从上方洒下的冷蓝色月光。光束穿透茎间,形成强烈的垂直光影线。轻雪从树冠间飘落。地面覆盖着薄雪和腐烂的竹叶。空气静止、寂静,略显眩晕——一个封闭的空间,可能变成陷阱。图像应以全景拍摄的视角构图,没有人影,没有杂乱无章或不必要的物品。空间应当感觉氛围适合场景,但又无人居住。画面光线均匀,对比度低,色彩调色自然。阴影拉高,自然效果。

分镜图
将以下内容做成分镜图:
故事大纲:
一部设定在雪山寺庙的中国武侠电影短片,
一位身穿黑衣的年轻剑士与白发剑士在寺庙屋顶、竹林和冰冻湖面上决斗,
刀刃在雪地和烛光中闪烁,结尾她饶过了他,带着破碎的玉牌离开,
优雅的剑舞动作,慢动作, 戏剧性灯光、动态摄影、史诗般的古代中国氛围。
故事情节:
1 初雪
她落在积雪覆盖的屋顶上时,脚步已经向前踏出,黑色长袍在身后翻飞。
他早已在那里,白发在山风中散开。二人都没有说话。雪花落在他们之间,
映着下方灯笼的琥珀色光。两人的手缓缓滑向剑柄,像慢动作一样,
那是同一瞬间作出的两个决定。随后,一片静止。然后,拔剑。
2 钢刃与烛光
刀剑在寺庙屋顶上相撞。他的剑法厚重如山,每一次格挡都像不可撼动的高墙,
每一次反击都像被控制住的雪崩。她更快。她不以力破力,而是从力的缝隙中
滑过,丝袖在烛光里划出弧线。一记踢击将屋瓦踢得旋转着坠入下方黑暗。
二人落地之处,积雪炸开。战斗沿着屋脊推进,最终卷入下方竹林。
3 竹林合围
月光穿过竹冠,碎裂成一道道光柱。他们在阴影与光线之间穿梭,
刀锋只有在掠过月光时才会闪亮。一根竹子忽然裂开,他甚至没有看它一眼
便已斩断。她借另一根竹子跃起,从上方压下,而他在距离肩头一厘米处
接住了她的剑。他们的脸在此刻靠得很近,寒气中呼吸化成白雾。势均力敌。
两人都知道。下一瞬,他们分开,林地上的雪被震得四散,再度绕行对峙。
4 开阔冰面 黎明的光冷而苍白,照亮结冰的湖面。此刻他们独自站在冰上,
无处藏身,也没有墙壁可借。他们的动作慢了下来,并非因为疲惫,
而是因为精准。每一次交锋都经过计算。一次重重落步让冰面裂开。
她以一串他无法回应的连招将他逼退。他的剑偏了出去。
她的剑尖抵上他的喉咙。他静止不动。
5 信物
她看了他很久。剑锋没有一丝颤动,但她没有刺下去。她用空着的那只手
探入他的衣襟,取出那枚破碎的玉佩,玉佩分成两半,裂痕干净利落。
她合拢手指,将它握住。她放低了剑。他没有动。她转身,穿过冰面离去,
长袍拖过被风吹乱的雪,没有回头。群峰之后,天光继续升起,
而湖面渐渐吞没了她的身影。

第二步:图生视频
推荐工具:
- Seedance 2.0(火山模型)
- 小云雀(火山模型)
- 即梦(火山模型)
- Grok (xAI模型)
为了这篇教程我开通了280元的Seedance2.0套餐,共1000万Token
点击模型——选择视觉
Seedance2.0模型有两种:fast和标准
如果想练手可以先用fast,会便宜一点
点击开通状态——开启2.0权限
- 注意:这里账户余额需要大于等于 200 元,或已购买套餐包,否则无法开通 Seedance 2.0 系列模型

依次设置:画幅比例、分辨率、视频时长、生成数量
画幅比例根据你的需求,一般竖版选9:16、横版选16:9
分辨率就是画面的清晰度,越高越清晰
视频时长这里分两种
- 秒数:就是强制必须生成多长的时间,最长15秒
- 智能时长:就是AI根据你文本内容来自动决定时长
生成数量:就是同一个提示词跑几个版本,俗称“抽卡”
这边建议从1条开始,不然你的token可能遭不住

如果你想生成4K的视频,还需要开通AI MediaKit
如果你需要生成无水印视频,参考API调用文档(链接放在下面)
https://www.volcengine.com/docs/82379/2291680?lang=zh
我这里以标准版作为演示
- 一条15秒720P的视频
- 可以看到右下角预估是14元
上传之前已生成的图片以及分镜图
- 如果你想15内讲完整个故事,设置好参数直接点击运行
- 如果你想分段讲的更细致,可以在提示词结尾写只生成第一幕或第二幕

这里可能会出现两种情况
1.直接通过模型开始运行
2.跳红字(检测到疑似人脸)

解决办法
将前面生成好的人物图,转变为手绘风格

重新再上传运行,就可以跑了


我这里一共生成了3段15秒的视频
大致花费了套餐的10/1,也就是30元左右,还是挺费的
这里可以预估Token花费(链接放在下面)
https://console.volcengine.com/ark/region:ark+cn-beijing/tokenCalculator
第三步:剪辑拼接成片
这一步看你的需求,如果只是一个片段直接发布也可以
如果要做一部完整的短片,把生成好的片段导入剪辑软件,加转场、配乐即可。
有人说不会剪辑怎么办?可以使用descript AI剪辑工具
写在最后
因为自己的职业就是影视媒体,回想以前做一部片子
- 出差、找带住宿的电竞酒店、勘景、带设备车、请演员、等日出、等天黑,等演员状态,后期剪辑……
而现在只需要
- 一台电脑或手机 + 200块预算 + 一点点创意,就能做出专业级的视频内容
- 就像Mx-Shell那样