DeepSeek-V4 人工智能基础技术研究有限公司研制的大模型

图龙网络科技发布于 12小时前分类：语言模型

DeepSeek-V4 是杭州深度求索人工智能基础技术研究有限公司研制的大模型，2026 年 4 月 24 日预览版本正式上线并同步开源，分为 DeepSeek-V4-Pro 与 DeepSeek-V4-Flash 两个版本，均原生支持100 万 token 上下文。DeepSeek-V4-Pro 总参数 1.6T、激活参数 49B，DeepSeek-V4-Flash 总参数 284B、激活参数 13B，采用全新混合注意力机制，在降低算力与显存占用的同时实现顶尖推理性能。
版本参数与定价

1. DeepSeek-V4-Pro：旗舰高性能版本，总参数 1.6 万亿，每次推理激活 49B 参数，适合复杂推理、代码生成及 Agent 任务。
- 输入价格：缓存命中 1 元/百万 tokens，缓存未命中 12 元/百万 tokens（约 1.74 美元/百万 tokens）。
- 输出价格：24 元/百万 tokens（约 3.48 美元/百万 tokens）。
- 最大输出长度：384K tokens。
2. DeepSeek-V4-Flash：轻量经济版本，总参数 284B，激活 13B 参数，适合快速响应及高并发场景。
- 输入价格：缓存命中 0.2 元/百万 tokens，缓存未命中 1 元/百万 tokens（约 0.14 美元/百万 tokens）。
- 输出价格：2 元/百万 tokens（约 0.28 美元/百万 tokens）。
- 最大输出长度：384K tokens。
3. 功能支持：两个版本均支持 JsonOutput、ToolCalls、对话前缀续写（Beta），FIM 补全仅在非思考模式下支持。
技术架构创新

1. 混合注意力机制：首创 CSA（压缩稀疏注意力）+ HCA（重度压缩注意力）架构，解决传统 Transformer 长上下文计算量平方级增长的瓶颈。
- CSA：将每 4 个 token 压缩为一个信息块，通过稀疏检索获取最相关内容，保留中段细节同时大幅降低计算量。
- HCA：用更激进压缩率（每 128 个 token 压缩为一条）处理全局逻辑，避免模型"只见树木不见森林"。
- 效果：在 100 万 token 场景下，Pro 版本单 token 推理 FLOPs 仅为 V3.2 的 27%，KV 缓存仅为 10%；Flash 版本分别低至 10% 和 7%。
2. 其他核心优化：
- 采用流形约束超连接 (mHC) 增强跨层信号传播。
- 使用 Muon 优化器替代传统 AdamW，提升训练收敛和稳定性。
- 支持 FP4+FP8 混合精度，现有硬件上 FP4 和 FP8 峰值算力相同，未来硬件上 FP4 可再提升三分之一效率。
3. 训练与后训练：两个模型均在 32T+ Token 上预训练，后训练采用两阶段范式：先通过 SFT + GRPO 强化学习培养领域专家能力，再经在线策略蒸馏统一融合。
性能表现与芯片适配

1. 性能评测：
- 代码能力：在 Vibe Code Benchmark 中以压倒性优势拿下开源权重模型榜首，击败 Gemini 3.1 Pro 等闭源模型，较 V3.2 实现约 10 倍性能跃升。
- 综合排名：Arena.ai 代码竞技场中开源模型第 3 位、综合第 14 位，被定性为"相较 DeepSeek V3.2 的重大飞跃"。
- 官方自评：在知识与推理任务上接近 Gemini 等闭源系统，但与最先进前沿模型仍存在约 3 至 6 个月差距；在 Agent 和代码任务上表现接近甚至部分超过 Claude Sonnet。
- 局限性：视觉界面审美有待提升，暂不支持直接看图或看视频，复杂逻辑推理时偶尔会出现注意力失焦。
2. 国产芯片适配：
- 已完成适配：海光、沐曦、华为昇腾、摩尔线程 (FP8)、昆仑芯、平头哥、天数、英伟达 (FP8)、清微等 9 款芯片完成跨芯适配及验证。
- 华为昇腾：在华为昇腾 NPU 平台上完成细粒度专家并行优化方案验证，通用推理负载场景下可实现 1.50 至 1.73 倍加速比。
- 最新进展：2026 年 5 月 7 日，清微智能联合众智 FlagOS 实现国产可重构芯片首次 DeepSeek-V4 DAY0 开箱即用，突破算子层多芯片统一适配、独立张量并行策略、FP4+FP8 混合精度转换三大关键技术。
3. 开源与获取：
- 采用 MIT 开源协议，一次性开放 Base 和 Instruct 四个版本（V4-Pro、V4-Pro-Base、V4-Flash、V4-Flash-Base）。
- 可通过官网（www.deepseek.com）、官方 App 及 API 使用。
- 开源链接：HuggingFace（[https://huggingface.co/collections/deepseek-ai/deepseek-v4](https://huggingface.co/collections/deepseek-ai/deepseek-v4)）、ModelScope（[https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4](https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4)）。

0个回复

暂无回复

问答社区

DeepSeek-V4 人工智能基础技术研究有限公司研制的大模型

0个回复

商城推荐

图龙网络-建筑新材料有限公司云优CMS通用模板

官方正版CHATGPT智能付费创作系统+音乐+视频+AI搜索3.0.6至尊版

智能监控系统设备企业网站模板，适用于智能监控、系统设备

环保节能科研公司网站模板（PC+WAP）

图龙网络-产品展示设备公司云优模板

易优模板-美容化妆减肥会所网站模板（PC+WAP）

财税记账工商注册认证类网站织梦模板(带手机端)

民宿旅游住宿响应式织梦模板（会员专属）

排行榜展示

图龙网络-电子元件器械公司网站模板（PC+WAP）

AIGCMovie功能完整的开源短剧/短视频创作平台

官方正版CHATGPT智能付费创作系统+音乐+视频+AI搜索3.0.6至尊版

Ripro9.0日主题免扩展二开版Ripro全解密无后门对接易支付WordPress博客主题

官方正版CHATGPT智能付费创作系统+音乐+视频3.0.2优化至尊版

官方正版CHATGPT智能付费创作系统+音乐+视频+AI搜索3.0.7开源版

社区问答