AI降智新解释:任务污染或影响性能

美国加州大学的研究团队发现利用GPT-3系列模型和其他几个最近开源的大语言模型,并控制数据集难度,在大语言模型训练数据创建日期之前发布的数据集上,大语言模型的表现出乎意料地好于之后发布的数据集。这表明对于许多大语言模型来说,在大语言模型的训练数据创建日期之前发布的数据集,存在零样本和少样本评估上的任务污染。研究团队还利用训练数据检查、任务示例提取和成员推理攻击来揭示任务污染的进一步证据,发现对于没有任务污染可能性的分类任务,无论是零样本还是少样本设置,大语言模型很少表现出相较简单大多数基线具有统计学上的显著改进。

搜索