英伟达推出文生图模型TrailBlazer:通过边界框实现文本到视频生成的自然控制

英伟达开发的TrailBlazer模型,通过引入边界框概念,解决了文本到视频生成(T2V)中合成视频可控性的挑战。该模型无需依赖低级每帧指导或现有视频,即可控制视频对象的运动方向、速度和行为。用户可以通过调整边界框的大小和方向来改变对象的视觉距离和移动轨迹。TrailBlazer基于预训练的T2V模型,易于实现,支持对多个对象的控制,并允许通过关键帧动画来指导物体的轨迹和外观。尽管存在一些局限性,如继承了底层预训练模型的某些问题,但TrailBlazer的高效性和自然运动生成能力为非专业用户提供了一种新的视频叙事工具。

搜索