DeepSeek-V4 人工智能基础技术研究有限公司研制的大模型

图龙网络科技 发布于 12小时前 分类:语言模型

DeepSeek-V4 是杭州深度求索人工智能基础技术研究有限公司研制的大模型,2026 年 4 月 24 日预览版本正式上线并同步开源,分为 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 两个版本,均原生支持100 万 token 上下文。DeepSeek-V4-Pro 总参数 1.6T、激活参数 49B,DeepSeek-V4-Flash 总参数 284B、激活参数 13B,采用全新混合注意力机制,在降低算力与显存占用的同时实现顶尖推理性能 。
版本参数与定价

1. DeepSeek-V4-Pro:旗舰高性能版本,总参数 1.6 万亿,每次推理激活 49B 参数,适合复杂推理、代码生成及 Agent 任务 。
- 输入价格:缓存命中 1 元/百万 tokens,缓存未命中 12 元/百万 tokens(约 1.74 美元/百万 tokens)。
- 输出价格:24 元/百万 tokens(约 3.48 美元/百万 tokens)。
- 最大输出长度:384K tokens。
2. DeepSeek-V4-Flash:轻量经济版本,总参数 284B,激活 13B 参数,适合快速响应及高并发场景 。
- 输入价格:缓存命中 0.2 元/百万 tokens,缓存未命中 1 元/百万 tokens(约 0.14 美元/百万 tokens)。
- 输出价格:2 元/百万 tokens(约 0.28 美元/百万 tokens)。
- 最大输出长度:384K tokens。
3. 功能支持:两个版本均支持 JsonOutput、ToolCalls、对话前缀续写(Beta),FIM 补全仅在非思考模式下支持 。
技术架构创新

1. 混合注意力机制:首创 CSA(压缩稀疏注意力)+ HCA(重度压缩注意力)架构,解决传统 Transformer 长上下文计算量平方级增长的瓶颈 。
- CSA:将每 4 个 token 压缩为一个信息块,通过稀疏检索获取最相关内容,保留中段细节同时大幅降低计算量。
- HCA:用更激进压缩率(每 128 个 token 压缩为一条)处理全局逻辑,避免模型"只见树木不见森林"。
- 效果:在 100 万 token 场景下,Pro 版本单 token 推理 FLOPs 仅为 V3.2 的 27%,KV 缓存仅为 10%;Flash 版本分别低至 10% 和 7%。
2. 其他核心优化:
- 采用流形约束超连接 (mHC) 增强跨层信号传播。
- 使用 Muon 优化器替代传统 AdamW,提升训练收敛和稳定性。
- 支持 FP4+FP8 混合精度,现有硬件上 FP4 和 FP8 峰值算力相同,未来硬件上 FP4 可再提升三分之一效率。
3. 训练与后训练:两个模型均在 32T+ Token 上预训练,后训练采用两阶段范式:先通过 SFT + GRPO 强化学习培养领域专家能力,再经在线策略蒸馏统一融合 。
性能表现与芯片适配

1. 性能评测:
- 代码能力:在 Vibe Code Benchmark 中以压倒性优势拿下开源权重模型榜首,击败 Gemini 3.1 Pro 等闭源模型,较 V3.2 实现约 10 倍性能跃升。
- 综合排名:Arena.ai 代码竞技场中开源模型第 3 位、综合第 14 位,被定性为"相较 DeepSeek V3.2 的重大飞跃"。
- 官方自评:在知识与推理任务上接近 Gemini 等闭源系统,但与最先进前沿模型仍存在约 3 至 6 个月差距;在 Agent 和代码任务上表现接近甚至部分超过 Claude Sonnet。
- 局限性:视觉界面审美有待提升,暂不支持直接看图或看视频,复杂逻辑推理时偶尔会出现注意力失焦。
2. 国产芯片适配:
- 已完成适配:海光、沐曦、华为昇腾、摩尔线程 (FP8)、昆仑芯、平头哥、天数、英伟达 (FP8)、清微等 9 款芯片完成跨芯适配及验证。
- 华为昇腾:在华为昇腾 NPU 平台上完成细粒度专家并行优化方案验证,通用推理负载场景下可实现 1.50 至 1.73 倍加速比。
- 最新进展:2026 年 5 月 7 日,清微智能联合众智 FlagOS 实现国产可重构芯片首次 DeepSeek-V4 DAY0 开箱即用,突破算子层多芯片统一适配、独立张量并行策略、FP4+FP8 混合精度转换三大关键技术。
3. 开源与获取:
- 采用 MIT 开源协议,一次性开放 Base 和 Instruct 四个版本(V4-Pro、V4-Pro-Base、V4-Flash、V4-Flash-Base)。
- 可通过官网(www.deepseek.com)、官方 App 及 API 使用。
- 开源链接:HuggingFace([https://huggingface.co/collections/deepseek-ai/deepseek-v4](https://huggingface.co/collections/deepseek-ai/deepseek-v4))、ModelScope([https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4](https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4))。

0个回复

  • 暂无回复