开源社区

终于发了!DeepSeek发布并开源V31迄今为止最强大的开放AI

终于发了!DeepSeek发布并开源V31迄今为止最强大的开放AI

  • 发布:
  • 人气: 4
  • 评论: 0
标签:

应用介绍

  DeepSee k宣布推出新一代开源大语言模型DeepSeek-V3.1,并将其权重和代码在 GitHub等平台上开放。

  值得一提的是,DeepSeek-V3.1取消了传统MoE所需的负载均衡损失,避免了额外开销。

  在训练过程中,DeepSeek团队使用了FP8混合精度和自研的DualPipe流水线万亿token的预训练,整个过程稳定高效,没有出现不可恢复的损失激增。

  这意味着模型在一次交互中可以处理和记忆远超以往的信息量,能够支持更长的对话和更大规模的文档分析。

  通过在长上下文训练中引入随机噪声扰动,模型在保持长程依赖建模能力的同时,有效缓解了长序列训练的不稳定问题。

  实际测试显示,DeepSeek-V3.1在不同长度上下文下表现稳健,即使输入长达128K tokens时依然能够准确定位关键信息。

  综合评估显示,它不仅超越了此前所有开源模型的水平,而且在许多任务上达到了与领先闭源模型相当的性能。

  在Codeforces编程竞赛评测中,其解题能力达到前51.6百分位,大幅领先其他开源模型。

  在长文档理解的“大海捞针”(NeedleInAHaystack)测试中,DeepSeek-V3.1在不同长度上下文下均能保持高准确率,展现了扩展至128K后的稳健表现。

  DeepSeek-V3.1延续了DeepSeek一贯的开放策略,将模型权重和代码完全开源发布。

  DeepSeek官方还提供了多种本地部署方案和推理工具,包括轻量级的FP8/BF16推理演示、社区优化的推理框架(如LMDeploy、 vLLM等)以及分布式推理实现。

  对于不具备大规模算力的用户,DeepSeek在其官方平台上提供了在线体验和API接口。用户现在可以通过网页端、对V3.1模型进行使用。

相关应用