阿里云宣布了多模态大模型研究最新进展,升级通义千问视觉理解模型Qwen-VL,推出了Max版本,升级版模型具有更强的视觉推理能力和中文理解能力。可以根据图片识别人物、回答问题、创作和编写代码,并在多个权威测评中取得了很好的成绩,与OpenAI的GPT-4V和谷歌的Gemini Ultra不相上下。相较于Qwen-VL,Qwen-VL-Plus和Qwen-VL-Max具有更强的视觉推理和中文理解能力,整体性能与GPT-4V和Gemini Ultra相当。在MMMU、MathVista等测评中,它们远远超过了所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上甚至超过了GPT-4V,达到了世界领先水平。
地址:
https://github.com/QwenLM/Qwen-VL/blob/master/README_CN.md