DeepSeek用户没能等到传闻中的R2模型,但V3.1版先来了。 8月21日,界面新闻从DeepSeek官方公众号获悉,其最新大语言模型DeepSeek-V3.1正式发布。此时距离DeepSeek-V3-0324推出已过去5个月时间。 据DeepSeek介绍,新升级版本的变化主要体现在三个方面:混合推理架构、更高 ...
据DeepSeek官方公众号消息,DeepSeek-V3.1正式发布。DeepSeek在其官宣发布DeepSeek-V3.1的文章中提到,DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度。DeepSeek官微在置顶留言里表示,UE8M0 FP8是针对即将发布的下一代国产芯片设计。 FP8是Float8的简称,即用8位二进制数表示浮点数 ...
DeepSeek V3.1新版正式上线,上下文128k,编程实力碾压Claude 4 Opus,成本低至1美元。 就在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k。 本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。 综合公开信息和国内大咖karminski3的实测 ...
V3.1编程击败Claude 4,训练扩增10倍 DeepSeek-V3.1官宣了,作为首款「混合推理」模型,将开启智能体新时代。新模型共有671B参数,编码实力碾压DeepSeek-R1、Claude 4 Opus,登顶编程开源第一。 官宣了! 刚刚,DeepSeek正式上线DeepSeek-V3.1,这是迈向智能体时代第一步。
使用微信扫码将网页分享到微信 DeepSeek 最新版 V3.1 被多名开发者实测发现,会在完全不该出现的地方插入「极 / 極 / extreme」等 token。 `time.Second` 变成 `time.Se 极`,版本号 `V1` 变 `V 极`。更糟的是,这个问题不仅出现在第三方量化部署,连官方全精度也会复现 ...
2025年9月29日,DeepSeek-V3.2-Exp发布并开源,引入稀疏Attention架构。昇腾已快速基于vLLM/SGLang等推理框架完成适配部署,实现DeepSeek ...
快科技9月30日消息,日前,深度求索宣布,正式发布DeepSeek-V3.2-Exp模型。尽管这是一个实验性(Experimental)的版本,还是吸引 ...
快科技9月29日消息,今日,DeepSeek宣布正式发布DeepSeek-V3.2-Exp模型。 该模型为实验性(Experimental)版本,是迈向新一代架构的中间步骤。 V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈