您现在的位置是:探索 >>正文
大战一触即发:OpenAI转录超过100万小时的YouTube视频来训练模型 – 蓝点网
探索59842人已围观
简介本周早些时候纽约时报发布了一篇内容描述人工智能公司 OpenAI 在收集高质量训练数据方面遇到的困难,昨夜纽约时报发布新内容描述 OpenAI 如何处理这些问题。OpenAI 一开始迫切需要海量的训练 ...
本周早些时候纽约时报发布了一篇内容描述人工智能公司 OpenAI 在收集高质量训练数据方面遇到的大战的困难,昨夜纽约时报发布新内容描述 OpenAI 如何处理这些问题。触即
OpenAI 一开始迫切需要海量的录超蓝点训练数据,报道称为了解决训练数据问题 OpenAI 开发了语音转录模型 Whisper。过万
该模型被用于转录 OpenAI 获取的小时训练超过 100 万小时的 YouTube 视频,也就是视频将 YouTube 视频中的音频内容转录文字,然后再拿去训练 GPT-4。模型
OpenAI 显然知道自己的大战的这种做法存在法律上的争议,不过该公司相信这是触即合理使用的,而且 OpenAI 总裁 Greg Brockman 亲自参与了上述所使用视频的录超蓝点收集工作。
在被纽约时报报道后,过万OpenAI 发言人表示,小时训练该公司为其每个模型策划了独特的视频数据集,以帮助该公司了解世界并保持其全球研究竞争力,模型该公司使用了众多数据源,大战的包括公开数据和非公开数据的合作伙伴,并且 OpenAI 在考虑生成自己的合成数据。
不过早在 2021 年 OpenAI 就耗尽了有用的数据供应,包括转录的超过 100 万小时的 YouTube 视频、播客和其他有声读物,那时候 OpenAI 已经使用这些数据进行训练,模型数据也包括 GitHub 上的计算机代码、国际象棋走棋数据库以及 Quizlet 等。
谷歌称相关行为已经违规:
对于上述报道谷歌自然不会坐视不理的,毕竟对谷歌来说,YouTube 内容库现在就是个金山,谷歌自己能用,但绝对不能给其他公司用。
谷歌发言人称已经注意到有关 OpenAI 活动的未经证实的报告,谷歌的 robots.txt 文件和服务条款都禁止未经授权的抓取或下载 YouTube 内容,这与谷歌相关的条款相符。
本周 YouTube CEO 也就 OpenAI 使用 YouTube 数据来训练 Sora 模型的可能性发布了类似言论,同时她警告称当有明确的法律或技术依据时,谷歌会采取技术和法律措施来防止此类未经授权的使用。
谷歌自己使用 YouTube 数据训练 AI:
虽然谷歌强调保护创作者的内容,不过谷歌也承认他们也使用 YouTube 视频来训练 AI,谷歌此前已经透露该公司与创作者的协议中,可以使用一些 YouTube 内容来训练模型。
数据收集方法也是类似的,即将 YouTube 的音频内容转换为文字内容后,再拿去训练模型,对谷歌来说 YouTube 的内容库可以提供海量数据,是个不可多得的几乎不用花钱的数据源。
接下来是否会出现法律诉讼:
考虑到 OpenAI 对数据的迫切需求,OpenAI 通过各种方式抓取受版权保护的内容不足为奇,在初期也就是 2021 年前后这种情况估计还不会引起关注,但现在情况已经不同了。
如果谷歌找到证据表明 OpenAI 抓取 YouTube 内容用于训练,那么谷歌肯定会起诉 OpenAI,毕竟 OpenAI 的行为确实可能已经违反了 YouTube 相关协议。
所以或许在不久之后我们就能看到各种因为内容版权问题引起的法律大战,到时候牵涉进来的自然也不只是谷歌和 OpenAI,可能还有更多 AI 公司和内容提供商牵涉进来。
Tags:
相关文章
SNK小型NEOGEO街机公布 7月24日开启预售
探索最近关于SNK的消息公布,官方向玩家提供了一款掌机大小的小型街机,提供摇杆和按键操作,对于喜欢换就的玩家官方也提供了40款复古街机游戏,不过这小身板也有玩家吐槽,会把机器摇起飞了,你怎么看呢?相信对于 ...
【探索】
阅读更多日企popIn家用投影仪业务已转让给极米 转让金约合20亿日元
探索近日,日本初创企业popIn发布消息称,已将家用投影仪业务转让给极米XGIMI)的子公司Aladdin X。据报道,转让金额约合20亿日元。popIn自推出投影仪以来,就一直委托极米生产。业务转让已于 ...
【探索】
阅读更多秋早进进倒计时 姜昆做品《纠结》太锋利被毙
探索冯绍峰N法早海皆闽北网讯 龙年央视秋早进进倒计时,昨日记者得悉,之前一背吸声较下的姜昆的节目被毙掉降,他的门徒周炜战曹云金的相声节目将弥补两个相声节目名额。记者从知恋人士处得悉,此前一背被看好的姜昆的 ...
【探索】
阅读更多