transformers - 搜索 News

知乎 on MSN4 小时

FFN在Transformer里面主要是对多头注意力矩阵升维，非线性过滤，然后再降回原来的维度。这个通常的比喻是：FFN就像个人的思考空间—— Attention Layer帮助模型正确的分配注意力，然后FFN 帮助模型仔细的思考，提取更加抽象的特征。这个比喻很好很形象，听到这儿往往会感觉恍然大悟，然后感慨模型设计精妙，唯一的问题是什么实质都没有解释。

11 小时

清华翟季冬：DeepSeek 百倍算力效能背后的系统革命 | 智者访谈

「性能优化是一个无止境的过程，」翟季冬教授表示，在中国面临算力资源挑战的背景下，通过系统软件创新提升算力效能，是产业突围的关键。这不仅需要在编程语言、编译器、通信库、编程框架等多个技术层面发力，更需要建立起完整的基础软件体系。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点