Gemini是谷歌推出的一款大型多模态人工智能语言模型,它具备以下几个特点和功能:
- 多模态能力:Gemini能够处理和理解多种类型的数据,如文本、图像、音频和视频。这意味着它可以在不同类型的数据之间建立联系,为用户提供更加丰富和深入的信息。
- 强大的性能:Gemini在32个基准测试中展现了最先进的性能,甚至在某些测试中超越了人类专家的表现。这表明它在处理复杂任务和问题方面具有很高的能力。
- 多语言支持:Gemini不仅支持英语,还支持多种其他语言,这使得它能够服务于全球范围内的用户。
- 应用场景广泛:Gemini有三个版本:Ultra、Pro和Nano,分别适用于不同的场景和需求。例如,Ultra版适用于处理高复杂度任务,Pro版用于日常任务,Nano版则适用于移动设备。
- 集成到谷歌产品中:Gemini将被集成到谷歌的多个产品和服务中,如搜索、广告、Chrome等,这将极大地提升这些产品的功能和用户体验。
当然,这里还可以如果遇到心仪的视频,想拆解视频的镜头,可以使用使用 Gemini 1.5 Pro,做视频分析和拆解 https://aistudio.google.com/
这里把《2012》原预告片丢进去分析,镜头识别准确度很高,很好用。
拆解prompt如下
请你用极致详细的言语描述其中的每个镜头,包括其中有什么物体,在执行什么动作,产生什么形变,为什么这样设计分镜等等。
Gemini 1.5 Pro给出的全文如下,非常详细,可以用这个优化下做每个镜头的图片提示词。输出应该是这样: