OpenAI与谷歌矛盾再起，数据使用权争夺战

6625 阅读 0 评论 62 点赞来源：网友投稿

根据纽约时报的一篇报道宣称，OpenAI在将超过100万小时的YouTube视频转文字内容后，用以训练GPT-4。了解过AI相关内容的都知道，训练数据的质量，将直接影响大模型的开发进度。因此追逐高质量数据来训练模型，是当下厂商们争夺的焦点。

而这次OpenAI采集数据的行为，也使其成为了与谷歌矛盾的新节点。谷歌一方认为，OpenAI这是在未经授权的情况下采集训练数据，不符合法律规定。因此，谷歌将在后续采取一些措施，防止未经授权的内容被采集使用。

作为采集数据的重要入口，搜索引擎的价值无用质疑。谷歌的这番举动，无疑是掐住了OpenAI的脖子。当然这事并不像表面说辞这般简单，其必定涉及到两家在大模型开发上的商业竞争。谷歌的Gemini一直被当作ChatGPT的重要竞争对手，两家公司也一直是摩擦不断。

OpenAI获取训练数据主要有哪些来源呢？

从目前其收集数据的渠道来看，主要分为五类，分别为：互联网内容、纸质资料、学术论文、社媒数据以及专业公开数据。显然，最为直接高效的方式就是从互联网上采集内容。其不仅内容量更多，数据形式也更加多种多样，有利于模型进行多模态学习，提升开发效率。

不难看出，限制OpenAI对YouTube视频内容的采集，将对其研发工作产生较多影响。但如果从用户数据安全的角度而言，谷歌这番举动也确实是在保障网络安全。为了提升模型开发速度，不少公司的数据采集方式都十分粗放且无序，大大增加了隐私信息泄露的风险。

如何平衡AI开发的数据采集要求与信息安全，仍旧需要监管框架进一步完善。AI发展所带来的影响已经不止是在技术层面，它对社会发展也带来了诸多影响，值得我们更加关注。

暂无评论