突破分辨率极限,字节联合中科大提出多模态文档大模型

字节跳动和中国科学技术大学合作研究的DocPedia模型。DocPedia是一个高分辨率多模态文档大模型,可以准确识别出图像里的信息,结合用户需求调用自己的知识库来回答问题。该模型分辨率可达2560×2560,是目前业内先进多模态大模型中分辨率最高的。作者团队提出了一种新的训练方式,从频域出发解决了现有模型不能解析高分辨文档图像的短板。在各项测试基准上,DocPedia表现出了不错的提升。

论文地址:
https://arxiv.org/pdf/2311.11810.pdf

搜索