东方财富
📅 04/30 00:00
NVDA.OGOOG.O
投资要点 重要意义:国产开源大模型在国产算力训练适配领域以及百万级上下文能力实现了里程碑式突破。 DeepSeek V4首次由华为昇腾芯片参与训练。DeepSeek V4Flash是首个公开说明训练侧使用国产算力的通用大模型,通过三大核心设计实现了去英伟达化的技术布局。(1)引入MXFP4量化感知训练,对MoE专家权重与索引器QK路径实现FP4量化,降低了对NVIDIA FP8生态的绑定,可无缝适...
投资要点 重要意义:国产开源大模型在国产算力训练适配领域以及百万级上下文能力实现了里程碑式突破。 DeepSeek V4首次由华为昇腾芯片参与训练。DeepSeek V4Flash是首个公开说明训练侧使用国产算力的通用大模型,通过三大核心设计实现了去英伟达化的技术布局。(1)引入MXFP4量化感知训练,对MoE专家权重与索引器QK路径实现FP4量化,降低了对NVIDIA FP8生态的绑定,可无缝适配华为昇腾、寒武纪等国产芯片;(2)采用TileLang领域专用语言开发底层算子,脱离CUDA生态强绑定,可跨硬件平台编译,降低向国产芯片的迁移成本;(3)自研MegaMoE2融合内核,实现专家并行的细粒度通信计算重叠,已在华为昇腾平台完成适配跑通,解决了国产硬件环境下MoE模型的通信瓶颈。 性能表现:整体跻身全球第一梯队,多项核心指标比肩甚至超越国际顶级闭源模型。(1)知识储备:DeepSeek-V4-Pro-Max在SimpleQA-Verified基准上取得57.9分,大幅领先其他主流开源模型;中文SimpleQA得分达84.4,大幅缩小与Gemini-3.1-Pro的差距,MMLU-Pro、GPQA Diamond等教育知识基准均领跑开源赛道。(2)推理与代码能力:Pro-Max版本Codeforces评分达3206,位列人类选手排行榜第23名,LiveCodeBenchPass@1达93.5,IMOAnswerBench得分89.8仅略逊于GPT-5.4;Flash版本Codeforces评分也达到3052,推理性能追平GPT-5.2等闭源模型。(3)Agent能力:V4Pro-Max的SWE-bench Verified任务解决分数达80.6,与Claude Opus4.6基本持平,Terminal Bench2.0、MCPAtlasPublic等基准均处于开源模型第一梯队。(4)长上下文能力:1M token场景下,MRCR、CorpusQA得分分别为83.5、62.0,超越Gemini-3.1-Pro,且128K上下文内检索能力保持高度稳定。(5)中文创作:其功能性写作对Gemini-3.1-Pro胜率达62.7%,创意写作质量胜率高达77.5%,仅在高难度多轮约束场景略逊于Claude Opus4.5。 模型技术架构:CSA+HCA+mHC进一步压缩推理成...