哈佛大学开源 AI 训练数据集“Institutional Books 1.0”，涵盖馆藏 98.3 万本图书

资讯
25年6月17日
編輯

admin

在微软与 OpenAI 的支持下，哈佛大学法学院图书馆于上周正式开源其首个 AI 训练用开放数据集“Institutional Books 1.0”。该数据集据称收录了哈佛大学馆藏中 98.3 万本图书，涵盖 245 种语言，共包含 2420 亿个 Token，1AI附项目地址（https://huggingface.co/datasets/institutional/institutional-books-1.0）。

据介绍，相应数据集收录的书籍有 40% 为英语，书籍主要出版年代集中于 19 与 20 世纪，共计被划分为 20 项主题，除此之外，相应数据集还提供了每本书的完整元数据，涉及“作者、出版年份、语言、原始来源”等信息。

哈佛大学法学院图书馆表示，未来研究人员还将持续扩充数据内容，目前相应项目组成员已与波士顿公共图书馆展开合作，将把“数百万份”历史报纸以数字化形式添加至上述数据集中。

后续，哈佛大学法学院图书馆还计划开发一系列 AI 工具，以提升馆藏资料整理和开放的效率，推动“负责任的数据使用规范”。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

哈佛大学开源 AI 训练数据集“Institutional Books 1.0”，涵盖馆藏 98.3 万本图书

全球首个儿科大模型在北京荣华医院落地，诊断准确率优于主治医师平均水平

Meta 与 Oakley 达成合作，预计 6 月 20 日公布智能眼镜新品

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

全球首个儿科大模型在北京荣华医院落地，诊断准确率优于主治医师平均水平

Meta 与 Oakley 达成合作，预计 6 月 20 日公布智能眼镜新品

全球最大甲骨文“数据集”开源

武汉大学联合中国移动九天人工智能团队开源音视频说话人识别数据集 VoxBlink2

哈佛大学、谷歌发布 100 万本公共领域书籍，为 AI训练提供合法数据

全球首个：智元机器人宣布开源 AgiBot World 百万真机数据集，大幅超越谷歌 Open X-Embodiment

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注