虎牙发布实时多模态数字人VAM 1.0,一照片成片

虎牙推出基于DiT架构的实时多模态数字人模型VAM 1.0,仅需一张照片即可生成能聊天、唱跳、玩游戏的数字人,480×832分辨率、28帧实时流式输出,可连续运行24小时以上;原生覆盖静默、聆听、说话三态并支持全双工打断接话,通过三阶段训练攻克时间累积误差、交互、部署三堵技术墙;在8块H200集群达36.4帧每秒,首帧延迟约1.3秒,依托十年直播场景优势可落地带货、新闻播报、虚拟演唱会等。

搜索