DeepSeek全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,由知名量化资管巨头幻方量化创立,是一家专注于开发先进的大语言模型(LLM)和相关技术的创新型科技公司。
- 发展历程:
- 2024年1月5日,发布DeepSeek LLM(深度求索的第一个大模型);1月25日,发布DeepSeek-Coder;2月5日,发布DeepSeekMath;3月11日,发布DeepSeek-VL;5月7日,发布DeepSeek-V2;6月17日,发布DeepSeek-Coder-V2;9月5日,合并DeepSeek Coder V2和DeepSeek V2 Chat,推出DeepSeek V2.5;12月13日,发布DeepSeek-VL2;12月26日晚,上线DeepSeek-V3首个版本并开源;2025年1月31日,英伟达宣布其登陆NVIDIANIM,亚马逊和微软也接入该模型;2月5日,DeepSeek-R1、V3、Coder等系列模型陆续上线国家超算互联网平台;2月6日,DeepSeek已暂停API服务充值。
- 主要产品:
- DeepSeek LLM:是深度求索的第一个大模型,包含670亿参数,从零开始在一个包含2万亿token的数据集上进行训练,涵盖中英文,全部开源DeepSeek LLM 7B/67B Base。
- DeepSeek-Coder:专注于代码相关的任务和处理。
- DeepSeekMath:用于数学领域的计算和问题解答等。
- DeepSeek-VL:具有视觉语言相关的处理能力。
- DeepSeek-V3:是混合专家(MoE)架构,参数量达6710亿,激活参数为370亿,预训练数据量为14.8万亿token,在百科知识、长文本、代码、数学等评测中超越主流开源模型,并与闭源模型性能持平。
- DeepSeek R1:专注于数学、代码、自然语言推理任务,性能对标OpenAI o1正式版,部分测试实现超越,API调用成本仅为OpenAI o1的3.7%,训练总成本约550万美元,算力需求显著低于同类模型。
- Janus-Pro:作为DeepSeek首款开源多模态模型,支持视觉、语言等多模态输入输出。
- 技术优势:
- 通过MLA(多头潜在注意力)、DeepSeekMoE(混合专家架构)以及MTP(多token预测)等多种技术手段,提升模型性能和训练效率。
- 采用蒸馏技术,为车端算力要求带来革命性降低,有望助力高阶智驾功能向更广泛的车型下沉。
- 基于纯强化学习(RL)路径验证合成数据的价值,推动数据闭环驱动模型持续进化,减少对人工标注的依赖,加速数据闭环迭代。