微软推出视觉基础模型Florence-2,在支持WebGPU的浏览器中100%本地运行。拥有2.3亿参数的视觉基础模型,采用基于提示的方法来处理广泛的视觉和视觉语言任务。该模型支持多种功能,可用于生成图像、识别字符、分割图像、检测物体等等。Florence-2的本地化运行得益于 Transformers.js和ONNX Runtime Web技术的支持。提高了用户隐私保护水平,降低使用成本,为AI视觉技术的普及应用铺平了道路。
地址:
https://huggingface.co/blog/finetune-florence2
