Transformer Model LLM

5 天

优于o1预览版，推理阶段KV缓存缩减一半，LightTransfer降本还能增效

LLM 在生成 long CoT 方面展现出惊人的能力，例如 o1 已能生成长度高达 100K tokens 的序列。然而，这也给 KV cache 的存储带来了严峻挑战。为应对这一难题，“hybrid model” ...

pip换源和安装依赖包 # 升级pip python -m pip install --upgrade pip # 更换 pypi 源加速库的安装 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install modelscope transformers sentencepiece ...

GitHub25 天

06-DeepSeek-MoE-16b-chat Transformer部署调用.md

DeepSeek MoE目前推出的版本参数量为160亿，实际激活参数量大约是28亿。与自家的7B密集模型相比，二者在19个数据集上的表现各有胜负，但整体比较接近。而与同为密集模型的Llama 2-7B相比，DeepSeek MoE在数学、代码等方面还体现出来明显的优势。但两种密集模型的 ...

3 小时

速度秒杀GPT们10倍，国外的DeepSeek时刻来了？

虽然目前还不如顶尖的 Claude3.5 Haiku 等，但考虑到它是一目十行的效率，能保持这个生成质量已经是非常哇塞了。我们也在官方放出的 Mercury Coder Playground ...

51CTO5 天

深度解析理解 Transformer 中的3大位置嵌入：从绝对位置嵌入到旋转 ...

如果A是注意力分数矩阵，添加一个相对位置偏差矩阵B：下面是一个在PyTorch中实现相对位置嵌入的简单代码，该实现与Transformer-XL的实现方式相近。 import torch import torch.nn as nn class RelativePositionalEmbedding(nn.Module): def __init__(self, max_len, d_model): ...

16 天

不要自回归！扩散模型作者创业，首个商业级扩散LLM来了，编程秒出 ...

如此高效且达到商业级的新型语言模型自然吸引了不少关注，著名 AI 研究科学家 Andrej Karpathy 发帖阐述了这项成果的意义。他表示，不同传统的自回归 LLM（即从左到右预测 token），扩散模型是一次性向所有方向进行预测 —— 从噪声开始，逐渐去噪成 token ...

来自MSN15 天

混合专家架构（MoE）与 Transformer 融合的·深度解读

在人工智能领域，混合专家架构（MoE）与Transformer架构的融合正在成为推动大模型发展的新趋势。文章深入剖析了MoE架构的核心理念、优势以及与Transformer架构的融合方式，探讨了这种融合如何提升模型的计算效率、扩展性和适应性，供大家参考。 DeepSeek 采用的创新混合专家架构（MoE，Mixture of Experts）是其技术核心，也为大模型的发展带来了全新的思路和方向。那 ...

腾讯网4 天

优于o1预览版，推理阶段KV缓存缩减一半，LightTransfer降本还能增效

LLM 在生成 long CoT 方面展现出惊人的 ... 为应对这一难题，“hybrid model” 成为了一条备受关注的可行路径：它在标准 transformer 的部分层中引入更高效 ...

3 天

另类视角解读DeepSeek

DeepSeek引入了Multi-Head Latent Attention（MLA），一种配置了低秩键值联合压缩（low-rank key-value joint ...

腾讯网1 天

阿尔法公社

AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者（Alpha Founders），相信非凡创业者们在技术、商业和社会方面的巨大推动力，他们指引着创投生态的风向。

人人都是产品经理 on MSN1 天

AI大模型技术解析-大模型背后的秘密

随着AI技术的飞速发展，大模型如ChatGPT等已成为人工智能领域的热门话题。然而，这些看似“灵性”的创造行为背后，实则隐藏着精密的机械逻辑和技术架构。本文将深入解析AI大模型背后的秘密，从Chat的含义、LLM（大型语言模型）的定义、Token的计 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果