​根据纽约时报的一篇报道宣称,OpenAI在将超过100万小时的YouTube视频转文字内容后,用以训练GPT-4。了解过AI相关内容的都知道,训练数据的质量,将直接影响大模型的开发进度。因此追逐高质量数据来训练模型,是当下厂商们争夺的焦点。



而这次OpenAI采集数据的行为,也使其成为了与谷歌矛盾的新节点。谷歌一方认为,OpenAI这是在未经授权的情况下采集训练数据,不符合法律规定。因此,谷歌将在后续采取一些措施,防止未经授权的内容被采集使用。



作为采集数据的重要入口,搜索引擎的价值无用质疑。谷歌的这番举动,无疑是掐住了OpenAI的脖子。当然这事并不像表面说辞这般简单,其必定涉及到两家在大模型开发上的商业竞争。谷歌的Gemini一直被当作ChatGPT的重要竞争对手,两家公司也一直是摩擦不断。

OpenAI获取训练数据主要有哪些来源呢?



从目前其收集数据的渠道来看,主要分为五类,分别为:互联网内容、纸质资料、学术论文、社媒数据以及专业公开数据。显然,最为直接高效的方式就是从互联网上采集内容。其不仅内容量更多,数据形式也更加多种多样,有利于模型进行多模态学习,提升开发效率。



不难看出,限制OpenAI对YouTube视频内容的采集,将对其研发工作产生较多影响。但如果从用户数据安全的角度而言,谷歌这番举动也确实是在保障网络安全。为了提升模型开发速度,不少公司的数据采集方式都十分粗放且无序,大大增加了隐私信息泄露的风险。


如何平衡AI开发的数据采集要求与信息安全,仍旧需要监管框架进一步完善。AI发展所带来的影响已经不止是在技术层面,它对社会发展也带来了诸多影响,值得我们更加关注。

点赞(62)

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部