“安娜的档案”寻求大模型公司合作提取书籍内容

影子图书馆宣布在其官网上获得了读秀数据库754万册、359TB的中文学术书籍,名为“安娜的档案”。该图书馆将为大型公司提供独家早期访问权限,以换取高质量的OCR和文本提取。如果合作公司能够进行适当的OCR和文本提取,安娜的档案将提供一年的大规模独家访问权限。如果合作公司愿意与其分享整个流程的代码,该图书馆愿意将该收藏品禁运更长时间。据悉,读秀是由超星数字图书馆集团创建的大量扫描图书的数据库,大多数是学术图书。

搜索