WildChat:100万用户与ChatGPT对话的语料库

WildChat是一个包含100万条对话的数据集,这些对话发生在人类用户和ChatGPT之间

在收集这些数据时,WildChat必须确保已经获得了用户的明确同意,并且用户充分了解他们正在同意分享的信息范围。

这包括了对话内容以及相关的人口统计数据。用户同意访问数据集也意味着他们同意共享联系信息,如电子邮件和用户名,这需要在用户充分理解的基础上进行。

WildChat收集的数据包括了散列的IP地址和请求标头,这些信息虽然已经过处理以保护用户隐私,但仍需采取额外的安全措施以防止潜在的隐私风险。

在使用WildChat数据集时,必须遵循所有适用的数据保护法规,如GDPR等。对收集到了100万用户的对话数据,并基于此训练了一个模型,可以同时预测用户的prompt和LLM的回复。

搜索