Transformer Model LLM

4 天

LLM 在生成 long CoT 方面展现出惊人的能力，例如 o1 已能生成长度高达 100K tokens 的序列。然而，这也给 KV cache 的存储带来了严峻挑战。为应对这一难题，“hybrid model” ...

来自MSN15 天

在人工智能领域，混合专家架构（MoE）与Transformer架构的融合正在成为推动大模型发展的新趋势。文章深入剖析了MoE架构的核心理念、优势以及与Transformer架构的融合方式，探讨了这种融合如何提升模型的计算效率、扩展性和适应性，供大家参 ...

DeepSeek提供了多个模型系列，主要包括： DeepSeek-LLM：基础大语言模型 DeepSeek-Coder：专为代码生成优化的模型 DeepSeek-Math：擅长数学推理的模型 DeepSeek-VL：视觉语言模型根据你的应用需求选择合适的模型。

17 天

DeepSeek开源第三弹：驱动V3/R1的代码库DeepGEMM,deepseek,代码,deepgemm,密集型,神经网络 ...

一些您可能无法访问的结果已被隐去。