世界论坛网 > 时事新闻 > 正文  
OpenAI指控DeepSeek使用“蒸馏”,是怎么回事
www.wforum.com | 2025-01-30 14:51:53  老鱼随便说 | 0条评论 | 查看/发表评论

最近,关于中国DeepSeek和OpenAI的争论还在持续发酵,昨天,AI行业巨头OpenAI公开指控DeepSeek涉嫌蒸馏其模型技术。

简单说就是OpenAI 认为 DeepSeek 并不是独立训练了一个全新的 AI 模型,而是通过某种方式利用了 OpenAI 的模型输出,训练出了一个自己模型,是“复制”了 OpenAI 的技术,而不是从头开始自己研发的。

OpenAI 还表示,他们已经通过“技术手段”发现了 DeepSeek 可能存在的侵权行为,并将采取措施。但 OpenAI 的声明并没有透露具体的证据,只是说他们掌握了确凿的数据。

那么,这个“蒸馏”到底是什么?是不是就是一种“抄作业”呢?

事实上,在 AI 研究领域,“模型蒸馏”(Knowledge Distillation) 是一种常见的技术,它的本质是用一个大型的、高精度的“老师模型”来训练一个更小、更高效的“学生模型”。

简单举个例子:有一位资深的数学教授,他的知识非常广泛,水平也很高,但请他讲课得花很多钱。

而你就想培养一个中学生,让他能在考试中取得好成绩,但是他又不可能像大学教授那样花几十年去学习数学。

这时候,你让可以让老教授给中学生教授一些解题思路和经典的题型,中学生通过这样的学习,最终也能得出正确的答案,甚至在某些情况下可以比教授更快得出结论。

这里的老教授就相当于OpenAI 的GPT,而中学生就相当于 DeepSeek。

在 AI 领域,这种方法比较常见,特别是在资源有限的情况下,研究团队通常会用开源的或现有的强大模型来训练一个新模型,而不是从零开始训练一个庞大的 AI。

OpenAI 说他们有“明确的证据”,可能会是什么呢?

首先OpenAI 可会能拿 DeepSeek 的模型输出和 GPT-4 的输出进行比对,看它们的相似程度。如果两个模型在大量任务上的回答模式、用词习惯、推理逻辑高度相似,那很可能 DeepSeek 是受到了 GPT-4 的影响。

其次,OpenAI这种大模型很多会在输出中植入某种“水印”技术,如果 DeepSeek 的模型输出有OpenAI的水印,那基本上就可以证明它是在用 OpenAI 的数据进行训练。

再有就是API 的访问记录,API是Application Programming Interface的缩写,中文是“应用程序接口”,这是一个系统让别人访问他们功能的“桥梁”。

API 的专业性比较强,咱们只说结果,如果一个程序员在工作中只是简单使用了OpenAI 的 API,那是没有问题的,但如果是批量使用,那就违反了OpenAI 的使用规定。

而 OpenAI 可能会通过日志分析发现这种情况。

在 OpenAI 发布声明后,DeepSeek 还没有做出回应。

值得一提的是,在 AI 领域,模型蒸馏是否合法,也是有争议的。许多 AI 研究机构都会用现有的大模型来辅助训练自己的模型。但如果这个过程有未经授权的 API 访问、滥用商业模型的数据,那就有可能涉及法律和道德问题。

在传统的软件行业,代码的直接抄袭是违法的,如果一个公司未经授权复制了另一个公司的代码,那就是明显侵犯了知识产权。

但是,AI 不是代码,它是数据+算法+计算资源,而模型蒸馏的核心技术本质上是“学习”而不是“复制”,所以AI 训练数据本身的版权问题仍然存在争议。

如果 DeepSeek 直接使用了 OpenAI API 来生成大量数据,并用于训练自己的模型,那这可能违反了 OpenAI API 的使用条款,但在法律上是否构成“盗窃”还不明确。

更复杂的是,AI 本身就是在“模仿”人类语言和推理。如果 AI 能模仿人类的写作风格而不侵犯版权,那么 AI 研究机构模仿另一个 AI 公司的模型架构,是否也合理呢?

总之,关于AI 知识产权的法律仍然比较模糊,但 OpenAI 的态度很明确,他们希望通过这次事件,让行业建立起更明确的规则。

另外,关于DeepSeek的风波,还和AI 研究的“开源、闭源”之争有关。目前AI的研究分为两大流派,其中以扎克伯格的脸书为代表的是开源派。闭源派就是以OpenAI为代表的,他们强调技术的保密性,提倡商业化。

而DeepSeek 本质上是一个开源派的产品。那么,OpenAI 为什么要封闭呢?

最初,OpenAI 的目标是推动“安全、透明、开放”的 AI 研究。然而,在 GPT-4 之后,他们发生了根本性的转变,开始完全闭源;

OpenAI 不再分享技术细节,甚至连模型参数都不公开;他们对 API 访问进行了更严格的限制,并且不断增加付费的门槛。

这是因为OpenAI 现在已经不再是一个单纯的研究机构,而是一个商业公司,他们必须保护自己的核心资产。

OpenAI 还认为:

如果大规模开放 AI 可能会带来风险,比如被滥用于虚假信息生成和恶意操作等。

更重要的是AI 竞争的实质是一场竞赛,如果竞争对手可以轻松“复制”你的技术,那 OpenAI 的护城河就没有了。

而开源派主张学术研究和技术共享;降低 AI 训练成本,使中小型企业也能进入 AI 赛道;避免 AI 技术被少数公司垄断。

但问题在于,如果所有 AI 都开源了,那类似 OpenAI 这样的企业就没有动力去投入数十、上百亿美元开发更强大的模型了,而这也是OpenAI成为龙头的原因。

更重要的是,OpenAI现在还没有实现盈利,

每年还要继续投入大量的资金进行研发,如果轻易就被别人给蒸馏了,那他的投资者情可以堪啊?

 OpenAI 对 DeepSeek 的反应如此激烈,是因为技术追赶的速度远远快于技术垄断的建立。

DeepSeek 这样的新兴机构,他们可以利用已有的开源技术进行优化,采用模型蒸馏等技术快速提升自己的大模型。这会危及 OpenAI 巨额投资建起来的技术护城河。

目前来看,OpenAI 想要的并不仅仅是阻止 DeepSeek,而是希望通过这场争议确立AI 知识产权的新规则,以确保未来 AI 研究的“蒸馏”方式受到限制;让其他公司无法轻易复制 OpenAI 的技术。

如果 OpenAI 和 DeepSeek 真的展开法律战,可能会对整个 AI 产业带来深远影响:首先,AI 研究可能变得越来越封闭,商业公司可能会进一步加密其模型,以防止被蒸馏。

其次开源社区可能受到打压 ,如果 OpenAI 胜诉,那许多小型研究机构可能会受到更多限制,开源 AI 可能受到冲击。

第三,关于AI 知识产权的法律可能变得更加明确,关于 AI 蒸馏的合法性,这次的争端可能成为一个新的判例。

总的来说,OpenAI 和DeepSeek 这场争议,不仅仅是两家公司之间的较量,更是 AI 研究开放性、商业模式、知识产权等多方面博弈的缩影。也是一场关于AI 未来发展方向和全球科技竞争的大博弈。

(0)
当前新闻共有0条评论 分享到:
评论前需要先 登录 或者 注册
全部评论
暂无评论
查看更多
实用资讯
24小时新闻排行榜
惊掉下巴!5000吨大驱,塞进74个垂发?
巴铁向印军猛烈开火 中式装备亮了
美航母在中东遇袭 英法德俄失声
巴方2大劣势 想赢,靠“中械武器”还不够
中国29个重型合成旅 但“土豪旅”只有7个?
48小时新闻排行榜
惊掉下巴!5000吨大驱,塞进74个垂发?
巴铁向印军猛烈开火 中式装备亮了
美航母在中东遇袭 英法德俄失声
巴方2大劣势 想赢,靠“中械武器”还不够
中国29个重型合成旅 但“土豪旅”只有7个?
解放军能20分钟摧毁美国11航母? 中国专家
俄乌战争提醒了中国:8000辆59式坦克不能丢
情侣夜夜开窗激战响彻全区 居民忍不住…
中国高官傻眼 美国要向中国模式靠拢
以色列插手、歼-10C升空 南亚局势异变
热门专题
1中美对抗2以哈战争3乌克兰战争
4美国大选5李克强猝逝6新冠疫情
7香港局势8委内瑞拉9华为
10黑心疫苗11“低端人群”12美国税改
13红黄蓝幼儿园14中共19大15郭文贵
广告服务 | 联系我们 | 关于我们 | 网站导航 | 隐私保护
Jobs. Contact us. Privacy Policy. Copyright (C) 1998-2025. Wforum.COM. All Rights Reserved.