来源:
系列模型主要包括、、、和,它们在架构、训练方式、参数规模和应用场景等方面存在显著区别。
DeepSeek-R1:基于Transformer架构,可能进行了推理优化,使用强化学习训练。
DeepSeek-V3:采用混合专家(MoE)架构,使用多头潜在注意力(MLA)和DeepSeekMoE架构,参数规模为6850亿。
DeepSeek-VL:基于decoder-only的LLaVA风格架构,包含视觉编码器、视觉语言适配器和专家混合语言模型三个核心模块。
DeepSeek-V2:采用Transformer架构,引入MLA架构和自研Sparse结构。
DeepSeek-R1-Zero:与DeepSeek-R1类似,但可能针对无人工标注数据训练进行了优化。1
DeepSeek-R1:使用后训练阶段大规模强化学习技术,结合DeepSeek IE Zero与DeepSeek IE两种核心模型。
DeepSeek-V3:使用传统的深度学习训练方法,依赖大量数据增强通用能力。
DeepSeek-VL:包括视觉-语言对齐、视觉-语言预训练和监督微调三个阶段。
DeepSeek-V2:基于高效轻量级框架HAI-LLM进行训练,采用16-way zero-bubble pipeline并行和ZeRO-1数据并行。
DeepSeek-R1-Zero:几乎不依赖人类数据,完全依靠机器生成数据进行强化学习训练。
DeepSeek-R1:参数为660B,适用于数学、代码及复杂逻辑推理任务。
DeepSeek-V3:参数为6710亿,适用于聊天、编码、多语言翻译、图像生成和AI绘画等多模态场景。
DeepSeek-VL:适用于VQA、OCR、文档/表格/图表理解和视觉定位等多模态任务。
DeepSeek-V2:参数为2360亿,擅长中文综合能力,适用于自然语言处理中的多种任务。
DeepSeek-R1-Zero:参数为660B,适用于复杂推理任务,尤其在无人工标注数据场景中表现更优。
联系人:徐经理
手机:13907330718
电话:0731-22222718
邮箱:hniatcom@163.com
地址: 湖南省株洲市石峰区联诚路79号轨道智谷2号倒班房6楼603室