报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

日期：2024-04-08 来源：IT之家评论：0

标签： AI 科技创新

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到属于 AI 版权法模糊灰色区域的内容。

报道称，OpenAI 迫切需要训练数据，并开发了 Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。

报道提到，OpenAI 在 2021 年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外，OpenAI 使用了包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。

据报道，OpenAI 公司知道这在法律上存在问题，但认为这是合理使用。《泰晤士报》则透露，OpenAI 总裁 Greg Brockman 亲自参与了所使用视频的收集。

OpenAI 发言人 Lindsay Held 在一封电子邮件中告诉 The Verge，该公司为其每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力。Held 补充说，该公司使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。

谷歌发言人 Matt Bryant 在一封电子邮件中表示，该公司“看到了有关 OpenAI 活动的未经证实的报告”，并补充说“我们的 robots.txt 文件（IT之家注：网站与爬虫间的君子协定）和服务条款都禁止未经授权的抓取或下载 YouTube 内容”。

IT之家注意到，YouTube 首席执行官 Neal Mohan 近日在采访中公开表示，尽管没有直接证据表明 OpenAI 使用 YouTube 视频来训练 Sora（文本生成视频的 AI 模型），但警告称这种行为违反了 YouTube 现行的平台服务条款。

me ta 同样也遇到了数据可用性的限制，在《泰晤士报》听到的录音中，me ta 的 AI 团队为了努力追赶 OpenAI，讨论了未经许可使用版权作品的情况。该公司在浏览了“互联网上几乎可用的英语书籍、散文、诗歌和新闻文章”后，显然考虑采取一些措施，例如支付图书许可费用，甚至直接收购一家大型出版商。

声明：凡开云电子链接来源注明为其他媒体来源的信息，均为转载自其他媒体，并不代表本网站赞同其观点，也不代表本网站对其真实性负责。您若对该文章内容有任何疑问或质疑，请立即与开云客户(www.www.wykobounce.com)联系，本网站将迅速给您回应并做处理。
电话：021-39553798-8007

更多> 相关开云电子链接

0条 相关评论

推荐图文

加州大学科学家发明了	深圳又一制造业总部基
水下机器人在渔业中的	哈工程水下机器人再夺
里程碑！荆州市首台机	超维科技精彩亮相电力

推荐开云电子链接

点击排行

• 百度携手优必选，共探AI大模型+开云入口网页版创新	• 科大讯飞亮相CEAI 2024，引领具身智能新风潮
• 英伟达黄仁勋回应 AI 芯片定价问题，强调中国市	• Meta 下月将为 Ray-Ban 智能眼镜带来一系列 AI
• 白宫要求美国各联邦机构设置“首席人工智能官”	• 科技巨头争夺 AI Kaiyun官方网站app登录战况白热化，谷歌创始人亲
• 亚马逊向人工智能公司 Anthropic 追加 27.5 亿	• 理想汽车 Mind GPT 大模型通过国家备案，训练数
• Google为购物功能增添更多人工智能元素	• “人工智能+”潜力巨大

恰佩克奖	机器人高峰论坛	机气林	开云入口网页版生态大会	ITES深圳工业展	机器人研究院	库卡机器人
中国传动网	索比光伏网	数控机床市场网	国家标准化委员会