Please enable Javascript to view the contents

大模型开源与传统软件开源的区别

 ·  ☕ 3 分钟

大模型的代码如何下载?

最近 DeepSeek 连续开源了多个大模型,彻底撼动了全球AI市场。

但我发现,还是好多人在找大模型的源代码,说明大家对大模型的开源还是有很多疑问。

deepseek 的源代码开源在哪里啊? - V2EX

DeepSeek的源代码在哪里啊?

DeepSeek的源代码在哪里啊?

DeepSeek的开源项目

首先搂一下DeepSeek的开源脚步:

2024年12月26日,DeepSeek上线并开源DeepSeek-V3。

DeepSeek-V3 正式发布 | DeepSeek API Docs
GitHub - deepseek-ai/DeepSeek-V3

DeepSeek-V3

2025年1月20日,DeepSeek悄然开源了推理模型DeepSeek-R1,彻底撼动全球AI市场。

GitHub - deepseek-ai/DeepSeek-R1

DeepSeek-R1完全开源,任何人都可以自由地使用、修改、分发和商业化该模型,彻底打破了以往大型语言模型被少数公司垄断的局面,将AI技术交到了广大开发者和研究人员的手中。

DeepSeek-R1

2025年1月28日,也就是除夕这一天,DeepSeek又开源了发布全新多模态大模型Janus-Pro,正式进军文生图领域。

在GenEval和DPG-Bench基准测试中,Janus-Pro-7B不仅击败了OpenAI的DALL-E3,还超越了Stable Diffusion、Emu3-Gen等热门模型。Janus-Pro采用MIT开源协议,这意味着它可以无限制地用于商业场景。

GitHub - deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models

没有代码也叫开源吗?

看了几个DeepSeek的开源项目,发现代码库最显眼的是一篇论文,而没什么代码。

一般而言,开源指的是开放源代码。问题来了,没有代码也叫开源吗?

答案是肯定的,在 LLM 领域目前是这样的,DeepSeek 以 MIT 协议开源了模型权重,附赠实现论文, DeepSeek 是将训练过程全写到论文里了,你可以根据论文直接复现。

以下是 DeepSeek-R1 的复现过程:

GitHub - huggingface/open-r1: Fully open reproduction of DeepSeek-R1

大模型开源与传统软件开源的区别

大模型(如大语言模型、多模态模型)的开源与传统软件工程开源在核心理念上有相似之处(如代码共享、社区协作):

  • 代码共享:两者都将核心代码或模型架构公开,允许自由访问、修改和分发。
  • 社区协作:依赖开发者或研究者社区共同改进项目(如GitHub协作、论文讨论)。
  • 降低门槛:通过开源促进技术普惠,避免重复造轮子。

但大模型开源与传统软件开源在技术复杂性、数据依赖性、应用场景等方面存在显著差异:

核心差异 传统软件开源 大模型开源
核心资产 代码逻辑 模型权重 + 数据 + 算力
资源门槛 极高(训练成本、专业知识)
风险焦点 安全性、兼容性 伦理、法律、社会影响
开源完整性 通常完整 常缺失数据、训练细节或算力支持

大模型为什么不开源训练代码和数据?

大模型开源这个概念也不是国内发明的,OpenAI 的 GPT-3 之前的版本也是开源的,但只开放了权重。

Meta 的 LLaMA 系列也是开源模型,同样不提供训练数据,但它进一步在论文中公开了一些训练细节,因此不妨碍它成为国内套壳模型的鼻祖。

训练部分的代码目前没见过哪家开源过的。训练部分代码大量耦合自家公司的各种基建代码,没办法开源。尤其是训练数据,巨头们就算愿意,也不敢或者说无权「开源」。因为里面不可避免地存在着大量本来就涉嫌侵权的东西。

而 DeepSeek 在论文中公开的细节比 LLaMA 的论文更多,且不少是前人未走过的捷径,这足以让业界震撼了。

分享

码中人
作者
码中人
Web Developer