三名作者Brian Keene、Abdi Nazemian和Stewart O'Nan声称,自己的作品被收录在一个包含约196640本书籍的数据集内,这些书籍帮助训练NeMo模拟普通书面语言,但这个数据集因“被举报侵犯版权”在去年10月被撤下。(IT之家注:该数据集原本被托管在Hugging Face网站上)
作者们在3月8日晚提交给旧金山联邦法院的一份集体诉讼提案中表示,英伟达“承认”其在该数据集上训练了NeMo,侵犯了他们的版权。
报道称,NeMo平台的大语言模型在过去三年中,训练工作受益于这些受版权保护的作品。诉讼涉及的作品包括三名作者在2008年、2019年、2007年出版的长篇小说,包含在一个名为“The Pile”的数据中,这一数据集又包含名为“Books3”的书籍合集。
当前科技公司在训练模型时使用受版权保护内容的诉讼案与日俱增,在此之前,《纽约时报》起诉微软及其合作方OpenAI未经许可使用其文章训练大型语言模型,并指控其侵犯版权。