2 月 10 日消息,据晚点 LatePost 报道,豆包 2.0 或将会在今年春节前上线。

报道称,即将发布的豆包 2.0 模型是吴永辉(字节 Seed 基础研究负责人)接管 Seed 一年最核心的产出。它是一款类似 Gemini 的多模态模型,10000 亿参数,是 Seed 成立以来训练的最大模型。
有 Seed 人士通过报道透露,这款模型训练期间遇到基础设施层面的挑战。他们分析,过去两年 Seed 持续追赶期间,相对忽视了基础能力建设,所以训练豆包 2.0 期间扩大参数规模时不稳定,一度难以推进。
据悉,OpenAI 的 RL Infra 负责人翁家翌在一档播客节目中说,每个模型团队的 Infra 都有 bug,模型公司本质上拼的是 Infra 修 bug 的速度,它决定了单位时间内验证想法的数量,而想法只要提高人才密度就能解决。
报道指出,对于 Seed 团队,想要重整 Infra 系统难度更大。
据了解,Seed 的 Infra 团队有数百人,同时支撑 Seed 内部数十款模型的研发和尝试,高层认为水平国内第一。「想要重整,需要投入大量人力、物力,还要承担不小的信任成本。」 一位 Seed 人士说,只能 「边开车边修轮子」。
据悉,训练豆包 2.0 遇到问题后,最终多个团队配合,花了 3 个月时间,主要从模型架构、训练数据等方面入手解决问题,确保模型赶在春节前上线。

另外,字节最新视频生成模型 Seedance 2.0 日前已上线小云雀、即梦等平台,并且受到了广泛关注。
据悉,Seedance 2.0 可根据文本或图像创建电影级视频。其采用双分支扩散变换器架构,可同时生成视频和音频。只需编写详细的提示或上传一张图片,Seedance 2.0 即可在 60 秒内生成带有原生音频的多镜头序列视频。
值得一提的是,值得一提的是,这款模型独有的多镜头叙事功能,能够根据单个提示自动生成多个相互关联的场景。AI 会自动保持所有场景切换中角色、视觉风格和氛围的一致性,无需手动编辑。