两名作者对苹果公司发起集体诉讼指控苹果窃取书籍并利用内容训练AI模型

日前有两名作者对苹果公司发起集体诉讼 (但集体诉讼地位还需要法院确认)，指控苹果公司在未经授权的情况下盗取书籍并利用书籍内容来训练其人工智能模型。

苹果和其他人工智能公司可能都在使用名为 Books3 的数据集训练 AI 模型，Books3 数据集合计包含 19.6 万本书籍，其中可能有不少书籍都是未经授权的。

原告在起诉书中表示：

苹果正在使用 Books3 数据集构建苹果的 AI 系统，这个盗版书籍数据集包含原告和集体诉讼成员的已出版作品，苹果使用 Books3 训练其 OpenELM 语言模型，苹果很可能也使用相同的盗版数据集来训练其 Foundation 语言模型。

苹果并未就其版权作品的使用向内容创作者支付任何报酬，并且苹果还隐瞒了该公司训练数据集的来源以逃避法律审查。

原告还表示苹果使用盗版内容的行为是蓄意且具有商业意义的，因为苹果希望其 AI 系统能够在未来几年内为其市值增加数万亿美元，但苹果只选择性的为用于训练模型的内容付费，例如苹果与 Shutterstock 签订数百万美元的许可协议，但并未与原告或集体诉讼成员签订授权协议。

大多数人工智能公司都依靠从互联网上抓取数据以训练模型，苹果使用名为 Applebot 爬虫在互联网上抓取数据，苹果也披露计划利用 Applebot 抓取的数据训练人工智能系统。

不过这些爬虫可能会从各个渠道抓取盗版内容 (爬虫本身无法分辨是否是盗版内容)，例如有爬虫从影子图书馆抓取数百万部盗版书籍，最终这些书籍都会成为人工智能系统的训练数据。

在起诉书中原告寻求集体诉讼的损害赔偿和救济禁令，由于该诉讼涉及的内容创作者非常多且地域分布广泛，原告要求苹果识别每一位被窃取作品的作者 (以便将他们纳入集体诉讼地位)。

以上就是“两名作者对苹果公司发起集体诉讼指控苹果窃取书籍并利用内容训练AI模型”的详细内容，想要了解更多IT圈内资讯欢迎持续关注编程学习网。

扫码二维码 获取免费视频学习资料

Python编程学习

查看2022高级编程视频教程免费获取