Anthropic公开Claude 3,像人类一样特殊性格训练方法

Anthropic公司最近在其官网上公布了其最新的大型语言模型Claude 3的个性化性格训练方法。

通过自我监督和优化改进,该技术主要分为监督学习和强化学习两个阶段,使模型能够识别并改进其响应中的潜在问题。

在监督学习阶段,Claude 3生成对潜在有害提示的响应,然后根据Constitutional AI的原则自我批评,识别出需要改进的地方。通过修订请求模块,模型学习如何改进其响应,以消除所有有害、不道德或非法的内容。

在强化学习阶段,Anthropic从监督学习阶段的模型中采样,生成响应,然后使用一个反馈模型评估这些响应,选择更符合Constitutional AI原则的无害性响应。

通过这种方式,模型不断接收反馈并改进自己,直到其行为达到一个稳定的输出原则状态。这种方法有助于训练出一个既安全又具有个性化和创新性的AI模型。

搜索