大模型的代码如何下载?
最近 DeepSeek 连续开源了多个大模型,彻底撼动了全球AI市场。
但我发现,还是好多人在找大模型的源代码,说明大家对大模型的开源还是有很多疑问。
DeepSeek的开源项目
首先搂一下DeepSeek的开源脚步:
2024年12月26日,DeepSeek上线并开源DeepSeek-V3。
DeepSeek-V3 正式发布 | DeepSeek API Docs
GitHub - deepseek-ai/DeepSeek-V3
2025年1月20日,DeepSeek悄然开源了推理模型DeepSeek-R1,彻底撼动全球AI市场。
GitHub - deepseek-ai/DeepSeek-R1
DeepSeek-R1完全开源,任何人都可以自由地使用、修改、分发和商业化该模型,彻底打破了以往大型语言模型被少数公司垄断的局面,将AI技术交到了广大开发者和研究人员的手中。
2025年1月28日,也就是除夕这一天,DeepSeek又开源了发布全新多模态大模型Janus-Pro,正式进军文生图领域。
在GenEval和DPG-Bench基准测试中,Janus-Pro-7B不仅击败了OpenAI的DALL-E3,还超越了Stable Diffusion、Emu3-Gen等热门模型。Janus-Pro采用MIT开源协议,这意味着它可以无限制地用于商业场景。
GitHub - deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models
没有代码也叫开源吗?
看了几个DeepSeek的开源项目,发现代码库最显眼的是一篇论文,而没什么代码。
一般而言,开源指的是开放源代码。问题来了,没有代码也叫开源吗?
答案是肯定的,在 LLM 领域目前是这样的,DeepSeek 以 MIT 协议开源了模型权重,附赠实现论文, DeepSeek 是将训练过程全写到论文里了,你可以根据论文直接复现。
以下是 DeepSeek-R1 的复现过程:
GitHub - huggingface/open-r1: Fully open reproduction of DeepSeek-R1
大模型开源与传统软件开源的区别
大模型(如大语言模型、多模态模型)的开源与传统软件工程开源在核心理念上有相似之处(如代码共享、社区协作):
- 代码共享:两者都将核心代码或模型架构公开,允许自由访问、修改和分发。
- 社区协作:依赖开发者或研究者社区共同改进项目(如GitHub协作、论文讨论)。
- 降低门槛:通过开源促进技术普惠,避免重复造轮子。
但大模型开源与传统软件开源在技术复杂性、数据依赖性、应用场景等方面存在显著差异:
核心差异 | 传统软件开源 | 大模型开源 |
---|---|---|
核心资产 | 代码逻辑 | 模型权重 + 数据 + 算力 |
资源门槛 | 低 | 极高(训练成本、专业知识) |
风险焦点 | 安全性、兼容性 | 伦理、法律、社会影响 |
开源完整性 | 通常完整 | 常缺失数据、训练细节或算力支持 |
大模型为什么不开源训练代码和数据?
大模型开源这个概念也不是国内发明的,OpenAI 的 GPT-3 之前的版本也是开源的,但只开放了权重。
Meta 的 LLaMA 系列也是开源模型,同样不提供训练数据,但它进一步在论文中公开了一些训练细节,因此不妨碍它成为国内套壳模型的鼻祖。
训练部分的代码目前没见过哪家开源过的。训练部分代码大量耦合自家公司的各种基建代码,没办法开源。尤其是训练数据,巨头们就算愿意,也不敢或者说无权「开源」。因为里面不可避免地存在着大量本来就涉嫌侵权的东西。
而 DeepSeek 在论文中公开的细节比 LLaMA 的论文更多,且不少是前人未走过的捷径,这足以让业界震撼了。