报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

资讯
24年4月7日
編輯

admin

近日，《华尔街日报》报道称，人工智能公司在收集高质量训练数据方面遇到了困难。随后，《纽约时报》详细介绍了一些公司处理这一问题的方法，其中涉及到了人工智能版权法的模糊灰色区域。

故事从OpenAI开始。该公司迫切需要训练数据，据报道开发了Whisper音频转录模型，转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。《纽约时报》报道称，OpenAI知道这在法律上存在问题，但相信这是合理使用。OpenAI总裁格雷格·布罗克曼亲自参与了所使用视频的收集。

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

OpenAI发言人林赛·赫尔德告诉The Verge，该公司为每个模型策划了”独特”的数据集，并使用”众多来源，包括公开数据和非公开数据的合作伙伴”。赫尔德还表示，该公司正在考虑生成自己的合成数据。

据《纽约时报》消息人士透露，谷歌也从YouTube收集了文字记录。谷歌发言人马特·布莱恩特表示，该公司”根据我们与YouTube创作者的协议，在一些YouTube内容上训练了模型”。

Meta同样也遇到了良好训练数据可用性的限制。该公司在努力追赶OpenAI的过程中，曾考虑未经许可使用版权作品的情况，包括支付图书许可费用或直接收购一家大型出版商。

这些公司正在努力应对模型训练数据快速蒸发的问题。《华尔街日报》本周撰文称，到2028年，公司可能会超越新内容。解决方案包括对模型创建的”合成”数据进行训练，或采用”课程学习”方法。但这些公司的另一个选择是使用他们能找到的任何东西，无论他们是否获得许可，这可能会引发版权法方面的担忧。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

消息称马斯克的 XAI 人工智能公司寻求 30 亿美元融资，估值达 180 亿美元

Sam Altman和前苹果设计总监练手开发AI设备并寻求10亿美元融资

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

消息称马斯克的 XAI 人工智能公司寻求 30 亿美元融资，估值达 180 亿美元

​Sam Altman和前苹果设计总监练手开发AI设备 并寻求10亿美元融资

占比 44%，报告称 OpenAI 的 GPT-4 充斥大量版权内容

OpenAI发布GPT-4-Turbo 正式版 可识别图片

GPT-4 Turbo 击败 Claude 3，重新夺回 “最佳AI模型” 称号

谷歌CEO：如果OpenAI在AI训练中滥用YouTube将采取行动

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

Sam Altman和前苹果设计总监练手开发AI设备并寻求10亿美元融资

OpenAI发布GPT-4-Turbo 正式版可识别图片