首页 > 科技要闻 > 科技> 正文

DeepSeek-V3.1 正式发布:四大新亮点解读,还有一个更重要的信号被忽略了

appso 整合编辑:太平洋科技 发布于:2025-08-22 00:45
由华为云驱动

DeepSeek发布最新版本V3.1模型,支持思考/非思考两种模式切换,速度更快、token消耗减少。成绩提升且开源,标志着智能体时代的到来。技术规格升级,新增Anthropic API支持。定价调整将于9月6日生效。数据显示性能略有提升但仍落后于竞品Qwen3 235B 2507版本。

就在刚刚,DeepSeek 正式发布其最新版本 DeepSeek-V3.1 模型。

一种模型,两种体验。

DeepSeek-V3.1 的核心创新在于混合推理能力。用户可以通过「深度思考」按钮在思考模式和非思考模式之间自由切换。

在思考模式下,新模型会展示完整的推理过程;而在非思考模式下,则直接给出简洁的答案。

已经冲到第二名了

省流版如下:

混合推理模式:一个模型支持思考/非思考两种模式切换

效率大幅提升:速度更快,token 消耗减少 20-50%

Agent 能力增强:编程和搜索智能体性能显著提升

支持 128K 长上下文处理,兼容性增强,继续开源

上下滑动查看更多「成绩单」,图片来自 DeepSeek

官方测试数据显示,新版本 V3.1-Think 比起老前辈 R1-0528,在保持同等回答质量的情况下,响应速度更快了,同时成绩还没掉。

R1-0528 在 AIME 2025 的得分为 87.5 分(V3.1 88.4),GPQA 为 81 分(V3.1 80.1),liveCodeBench 为 73.3 分(V3.1 74.8)。

成绩基本持平的情况下,V3.1-Think 输出 token 数反倒减少了 20%-50%。

图像

属实是做到了既让马儿跑,又要马儿少吃草。

DeepSeek 表示,DeepSeek-V3.1 通过后训练优化,在工具使用和多步骤代理任务上实现了显著提升,是迈向 Agent(智能体)时代的第一步。

在编程智能体方面,DeepSeek-V3.1 在 SWE-bench 代码修复测试中使用内部代码代理框架进行评估,相比开源框架 OpenHands 所需轮数更少,在代码修复任务上比之前的 DeepSeek 系列模型有明显提高。

图像

同时,在 Terminal-Bench 终端测试中,使用官方 Terminus 1 framework 进行测试,在命令行终端环境下的复杂任务处理能力显著增强

此外,DeepSeek-V3.1 为思考模式中的搜索工具调用设计了专门格式,支持复杂的多轮搜索代理任务。测试环境配置使用商业搜索 API 加上网页过滤器以及 128K 上下文窗口,而 R1-0528 则使用预设流程评估作为对比基准。

图像

结果显示,新版本在需要多步推理的复杂搜索测试(browsecomp)上大幅领先 R1-0528,在多学科专家级难题测试(HLE,基于仅文本子集)上性能显著提升,并且能够有效支持访问外部或最新信息的复杂问题处理。

技术细节与模型更新

DeepSeek-V3.1 基于全新的 V3.1-Base 模型开发,该基础模型采用「两阶段长上下文扩展方法」,在原始 V3 模型检查点基础上进行大规模扩展训练。

整个训练过程新增了 8400 亿个 tokens,其中 32K 上下文扩展阶段的训练量增加了 10 倍,达到 6300 亿 tokens,而 128K 扩展阶段则增加了 3.3 倍,达到 2090 亿 tokens。

通过收集更多长文档,DeepSeek 研发团队显著扩展了两个训练阶段的数据集规模。

另外,部署的朋友们注意了,建议仔细看文档,不然容易翻车。

在技术规格上,技术规格上,新版本采用 UE8M0 FP8 缩放格式训练,并升级了分词器,相关配置文件已同步至官方 GitHub 与 HuggingFace。

值得一提的是,DeepSeek 官方刚刚在公众号评论区表示:「UE8MO FP8 是针对即将发布的下一代国产芯片设计。」

同时,官网回复网友称,当前官方网页端、App、小程序及 API 开放平台所调用模型均已同步更新,新模型自我认知为 DeepSeek-V3。

DeepSeek 继续开源,业界良心

DeepSeek 同步推出了全新的 API 服务体系。

核心 API 接口发生重要变化,deepseek-chat 对应非思考模式,deepseek-reasoner 对应思考模式,两个接口均支持 128K 上下文窗口长度,并提供更多 API 资源。

在功能特性方面,Beta API 接口支持 strict 模式的 Function Calling,确保输出的 Function 严格满足 schema 定义,详细文档

https://api-docs.deepseek.com/guides/function\_calling

更重要的是,DeepSeek 新增了对 Anthropic API 格式的完整支持,这意味着用户可以轻松将 DeepSeek-V3.1 接入 Claude Code 框架,兼容文档

https://api-docs.deepseek.com/guides/anthropic\_api

不愧是业界良心,DeepSeek 依旧是开源界的活雷锋。

DeepSeek-V3.1-Base 模型开源地址:

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

魔搭社区:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Base

DeepSeek-V3.1 后训练模型开源地址:

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1

魔搭社区:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1

此外,今天,DeepSeek 还宣布将于北京时间 2025 年 9 月 6 日凌晨(UTC 时间 2025 年 9 月 5 日 16:00)开始执行全新价格表。

图像

详细定价信息如下图所示,同时正式取消夜间时段优惠政策。在 9 月 6 日前,所有 API 服务仍按原价格政策计费,用户可继续享受当前优惠。

上下滑动查看更多内容

就定价而言,用网友的话来说,熟悉的鲸鱼又回来了。

知名机构 Artificial Analysis 分析称,DeepSeek-V3.1 将 V3 和 R1 融合为混合推理模型,使得模型的性能略有提升。

图像

数据显示, DeepSeek-V3.1 其在推理模式下的得分为 60,较 R1 的 59 略有提升,在非推理模式下,V3.1 的得分为 49,相较早期的 V3 0324 版本得分 44 有明显进步。

不过,V3.1(推理模式)的表现仍落后于阿里最新的 Qwen3 235B 2507(推理模式)版本。

图像

token 使用情况方面,V3.1 虽然在推理模式下的得分略高于 R1,而所使用的 token 数量略少。在非推理模式下,V3.1 使用的 token 稍多于 V3 0324,但仍远低于其在推理模式下的 token 使用量。

想体验的朋友也赶紧去官网(https://chat.deepseek.com)尝鲜吧!

本文来源:Appso

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部