上海交大等团队推出Visual-RFT,将DeepSeek-R1的规则奖励强化学习成功应用于视觉语言模型;只需10-1000条数据,Visual-RFT通过思考过程和规则监督在检测、分类等任务上显著超越传统SFT方法;研究设计了基于IoU和分类正确率的奖励机制,验证了强化学习在多模态领域的有效性,已全面开源。
❯
搜索
扫码打开当前页
返回顶部
幸运之星即将降临……
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠
-
¥優惠使用時效:无法使用使用時效:
之前
使用時效:预期有效优惠编号:×
没有优惠可用!
