Transformer Model LLM

4 天

优于o1预览版，推理阶段KV缓存缩减一半，LightTransfer降本还能增效

LLM 在生成 long CoT 方面展现出惊人的能力，例如 o1 已能生成长度高达 100K tokens 的序列。然而，这也给 KV cache 的存储带来了严峻挑战。为应对这一难题，“hybrid model” ...

23 小时

虽然目前还不如顶尖的 Claude3.5 Haiku 等，但考虑到它是一目十行的效率，能保持这个生成质量已经是非常哇塞了。我们也在官方放出的 Mercury Coder Playground 里简单试了几个例子，一顿测试下来发现生成效果确实不错，而且速度真的是极快。

51CTO4 天

深度解析理解 Transformer 中的3大位置嵌入：从绝对位置嵌入到旋转 ...

如果A是注意力分数矩阵，添加一个相对位置偏差矩阵B：下面是一个在PyTorch中实现相对位置嵌入的简单代码，该实现与Transformer-XL的实现方式相近。 import torch import torch.nn as nn class RelativePositionalEmbedding(nn.Module): def __init__(self, max_len, d_model): ...

人人都是产品经理 on MSN9 小时

AI大模型技术解析-大模型背后的秘密

随着AI技术的飞速发展，大模型如ChatGPT等已成为人工智能领域的热门话题。然而，这些看似“灵性”的创造行为背后，实则隐藏着精密的机械逻辑和技术架构。本文将深入解析AI大模型背后的秘密，从Chat的含义、LLM（大型语言模型）的定义、Token的计 ...

腾讯网6 小时

阿尔法公社

AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者（Alpha Founders），相信非凡创业者们在技术、商业和社会方面的巨大推动力，他们指引着创投生态的风向。

腾讯网14 小时

VoiceAI能否补齐多模态AI最后一块拼图？2025年趋势解析

随着语音交互技术的快速发展，2024 年成为语音 AI 领域突破性发展的一年。从 OpenAI Voice 模式到全双工（Fully duplexed）语音转语音系统，技术的进步让 Voice Agent ...

2 天

另类视角解读DeepSeek

DeepSeek引入了Multi-Head Latent Attention（MLA），一种配置了低秩键值联合压缩（low-rank key-value joint ...

什么值得买社区频道 on MSN1 天

小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化

随着大模型技术从技术变革转向产业变革，大模型应用也会进一步繁荣，传统基础设施技术已经不足以满足大模型应用的快速发展。整个基础设施技术和产业链正在快速转型，向大模型基础设施技术演变。2025 QCon 全球软件开发大会（北京站）策划了「面向 AI ...

4 天on MSN

一、前言：影RTX 5070 Ti金属大师白金版OC 全新设计登场

一、前言：影RTX 5070 Ti金属大师白金版OC 全新设计登场影驰金属大师系列显卡一直以来都以金属质感外观、大量金属部件的使用、优秀的散热效果为特色，深受玩家的追捧。 NVIDIA ...

头部财经4 天

独家对话尤洋："部署DeepSeek月亏4亿"争议背后，潞晨不想参与MaaS肉搏战

尤洋在接受蓝鲸新闻专访时提到，他依然认为自己的观点是正确的。潞晨最初是抱着“想测试一下”的想法，才决定以部署DeepSeek模型为例，开展MaaS业务。最后却发现，即便在机器能力已充分发挥的情况下，通过MaaS售卖开源模型API还是逃不开亏损的结果。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果