- 更新亮点:这次数字人,增加了角色的动作模仿,也就是对比之前只能只能增加角色,现在的数字人可以让角色做出与音音频内容相关的画面动作了。
通过动作描述,你可以控制情绪、动作、走位、运镜。直白话说,数字人1.5,除了给角色配音,他还可以生成视频了。
现在的视频画面既可以让角色唱歌,也可以遵循动作提示:切换景别、可以走动,更加丰富的手势。
可以想象,数字人1.5必然会在AI音乐、影视动漫、二创视频等多个场景带来新的玩法。
这篇文章,我就用我做的AI MV,做个玩法拆解。
生成组图
首先,正确的打开方式是结合现在火热的「图片4.0模型」,输入一张参考图,自动生成一系列组图。
比如,拿了之前生成的MV 主图,来拓展场景,这是一位在录音棚录屏的小姐姐。

使用图片4.0生成分镜图:
- ❝
- 提示词:唱歌的女生是一位歌手,她在录音棚中完整演唱一首歌,完成专辑录制,场景基调深情动人,镜头切换次数10次

操作很简单,上传参考图,输入上面指令,点击发送就可以。
细心的朋友有没有发现,即梦4 已经可以支持生成4K超清图片了。
生成好图片后,分别把图片保存到电脑中备用。
生成数字人
进入即梦官网,在生成页面,下拉就能看到「数字人」,打开后就能看到新增了「动作描述」。

操作要点:
1.左侧上传角色的图片
2.上传音频:这里面有2种模式,可以选择音色,输入文案。或者上传音频,是自己做好了的音乐。
上传音频的示意图:

选择音色和输入文字的示意图:

3.动作描述:我们输入图生视频描述词就好了,一般是景别,运镜说明,人物动作描述
4.模式:1.5有3种模式,大师模式和快速模式,基础模式。大师模式耗积分
指定说话角色:如果上传的图片中有多角色,可以在「角色说」处,点击切换要说话的角色。
备注:有人在视频评论区问,即梦怎么能生成超过15秒的数字人,是这样的,我用即梦4图片模型生成的是8张图,我把我的音乐拆成了几段了。
因为图是直接即梦4.0生成的,做好视频后我发现有个别分镜的人脸一致性有点问题,为细调图片,踩了一个小坑。
用大师模式的人物表情生动自然,效果更好,但是缺点是积分消耗高。
图生视频提示词
做视频,问的最多的就是怎么写生视频提示词,写提示词需要你对镜头,人物动作,怎么转换的有感觉。
这里提供一个简单的图生视频提示词给大家,大家放到豆包AI中:
- ❝
- 以这张图片为首镜头,生成一个5秒钟的视频分镜脚本,提供动效提示词,提示词结构:包括景别,视角,运镜,画面内容,人物表情,用词精练不能起过200字。最后再把生成的分镜提示词提炼成一段文字

这个提示词只是让你方便做出基础的视频,但是视频效果真的想做好,需要有创意。
歌词和音乐
对了,歌词和音乐,我是用 DeepSeek生成歌词,然后生成音乐的。
打开Deepseek,打开推理模型,把下面的歌词丢给AI:
- ❝
- 帮我写一首的情歌,类似《错位时空》,描绘了男女主角之间深刻的暗恋情感,深情又富有感染力,年轻人喜欢的歌曲

经过一段时间思考后,我们得到一段完整的的歌词:
- ❝
- 《追寻你的温柔》
- 咖啡馆里 灯光下的倒影,
- 是我对着咖啡杯底 心事的沉积,
- 杯口一圈-一圈 是你的指纹,
- 将我环绕 我却触摸不到你,
- …..
歌词满意的话,就到AI音乐,如Suno中去生成音乐,这篇主要是讲数字人的,所以就不介绍那么细了。
合成视频
最后一步就是把生成的数字人音乐片段导入到剪映中,进行后期处理。
先把片段顺序调整好,使用智能字幕,识别出歌词。。

就这样,一个生动的AI音乐唱歌视频就完成了,看完是不是觉得很神奇,利用AI技术,也能创作出精美的AI音乐。
今天的干货就分享到这里啦!