OpenAI计划建立数据市场，训出GPT-5短缺20万亿 token

资讯
24年4月9日
編輯

admin

全网高质量数据集告急!据报道，AI公司如 OpenAI、Anthropic 等正在努力寻找足够的信息来训练下一代人工智能模型。数据短缺问题日益突出，对训练下一代强大模型至关重要。面对这一挑战，AI 初创、互联网大厂开始寻找新的方法来解决算力和数据的瓶颈问题。

图源备注：图片由AI生成，图片授权服务商Midjourney

据悉，GPT-5等强大系统的开发需要大量海量数据作为训练材料，然而高质量公共数据在互联网中已变得稀缺。

研究机构Epoch研究人员Pablo Villalobos估计，GPT-4是在多达12万亿个token上训练的。他继续表示，基于Chinchilla缩放定律的原理，如果继续遵循这样扩展轨迹，像GPT-5这样的AI系统将需要60万亿-100万亿token的数据。也就是，利用所有可用的高质最语言和图像数据后，训出 GPT-5仍短缺20万亿 token。

一些数据所有者如 Reddit 等机构也制定政策限制 AI 公司访问数据，加剧了数据短缺的困境。为解决这一难题，一些公司正在尝试通过合成数据训练模型，但可能会面临「模型自噬障碍」等问题。

对于数据稀缺问题，AI 研究人员和公司纷纷寻求解决之道。OpenAI 的 Ari Morcos 指出，数据短缺是一个前沿的研究问题，他的公司 DatologyAI 致力于改进数据选择工具，以降低训练 AI 模型的成本。此外，OpenAI 还在讨论建立「数据市场」，通过确定数据点对模型训练的贡献来支付费用，以帮助缓解数据短缺问题。

数据短缺对 AI 发展构成重大挑战，各公司正在探索不同的方法来解决这一问题。从合成数据到建立数据市场，AI 领域正在不断寻求突破，以确保训练下一代强大人工智能模型所需的数据资源。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

OpenAI计划建立数据市场，训出GPT-5短缺20万亿 token

AI热潮带动鲜为人知的芯片齿轮公司股价飙升390%

腾讯云推出AIGC云存储解决方案专为AI大模型存储需求设计

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

AI热潮带动鲜为人知的芯片齿轮公司股价飙升390%

腾讯云推出AIGC云存储解决方案 专为AI大模型存储需求设计

OpenAI宣布：如GPT-5太危险，董事会有权否决奥特曼的决定

OpenAI首席执行官透露2024年ChatGPT最受欢迎的功能请求

OpenAI CEO 阿尔特曼：GPT-4“有点糟糕”，今年将推出新模型

OpenAI预告将直播ChatGPT升级内容 GPT-5、AI搜索暂不亮相

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

腾讯云推出AIGC云存储解决方案专为AI大模型存储需求设计