阶跃星辰 CEO:多模态的「GPT-4 时刻」尚未到来

日前,阶跃星辰创始人、CEO 姜大昕接受媒体采访,其分享了对多模态行业的最新理解。姜大昕表示,此前 OpenAI 的 Sora 发布时,阶跃星辰的团队对此较为失望,他们都认为 OpenAI 主线应该是理解生成一体化。但姜大昕坦言,回头去想,从多模融合直接做到理解生成一体化太难了,可能需要迭代几轮后再到理解生成一体化。他也强调,未来的方向肯定是能够预测「下一帧内容」。对于 AGI 的期待,姜大昕则表示,理解生成一体化的问题解决后,带推理的 VLA 将能够实现对未来更好的预测,如果能做到时空推理,再加上 3D 和自然语言学习,就到了世界模型阶段。姜大昕认为,到了这个程度,那么他眼中的 AGI 就实现了。姜大昕判断称,多模态的「GPT-4 时刻」还没有到来,但同时他也表示,有的时候 AI 的突破就在一瞬间。他强调,模型的突破是早于商业化的:「就像先有了 GPT-3.5 才会有 ChatGPT,先有了多模融合和推理模型,才会有现在成熟的 Agent(智能体)。」同样,要有了多模理解生成一体化,尤其是可规模化的一体化,才能真正地做到人形机器人的泛化。

搜索