Transformers - 搜索 News

16 小时

DeepSeek公开成本利润率545%；Meta或发布独立AI应用；腾讯游戏架构再 ...

对此，OpenAI创始人山姆·奥特曼在社交平台X发文，回应Meta拟二季度发布独立AI应用的计划。他表示，“如果Meta试图冲我们来，而我们能以一种出其不意的方式进行反击，情况将会非常有趣。也许我们会做一个社交应用。”（新浪财经&界面） ...

12 小时

深度解析AI领域：大脑与意识的技术革新

近年来，人工智能领域的技术革新引发了行业的广泛关注，尤其是在深度学习和神经网络的应用上不断取得突破。根据国际数据公司 (IDC)的预测，AI市场将以每年超过20%的速度增长，预计到2025年将达到5000亿美元。作为AI技术应用的先锋，科技公司在这种竞争环境下不断探索新的技术边界，将人工智能的潜力推向新的高峰，进而影响社会的方方面面。

China.com on MSN9 小时

大模型的token到底是什么？它如何影响AI应用？带你深度了解！

在当前人工智能的大模型领域，“token”是一个绕不开的重要概念。虽然它听起来像是一个技术术语，但对于普通人来说，理解它的含义和作用，却可以帮助我们更好地理解人工智能如何工作，以及它如何影响我们的日常生活。今天，就让我们从生活化的角度，深入探讨一下t ...

5 天

罗伯托·奥奇逝世，享年 51 岁：向《星际迷航》编剧告别

Roberto Orci morto: lo scrittore e produttore che ha firmato "Transformers" e "Star Trek" lascia un'impronta indelebile nel ...

来自MSN3 天

混合专家架构（MoE）与 Transformer 融合的·深度解读

在人工智能领域，混合专家架构（MoE）与Transformer架构的融合正在成为推动大模型发展的新趋势。文章深入剖析了MoE架构的核心理念、优势以及与Transformer架构的融合方式，探讨了这种融合如何提升模型的计算效率、扩展性和适应性，供大家参 ...

腾讯网1 天

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

选自GitHub作者：Andriy Burkov机器之心编译GRPO（Group Relative Policy Optimization）是 DeepSeek-R1 成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek 用的 ...

guangming4 天

《变形金刚》编剧离世终年51岁长期饱受病痛

■曾参与《星际争霸战》（Star Trek）、《变形金刚》（Transformers）等多部知名系列作品制作的好莱坞编剧兼制作人罗柏托奥契（Roberto ...

11 天

研华正式发布国产化昇腾AI Box与Deepseek R1模型部署全流程！

随着深度求索（DeepSeek）大模型的发布引发行业热议，研华科技基于昇腾 Atlas平台边缘AI Box MIC-ATL3S正式发布与Deepseek R1 模型的部署流程。该平台依托昇腾芯片的强大异构计算能力，结合研华边缘AI ...

1 天

无需训练让扩散模型提速2倍，上交大提出Token级缓存方案

Diffusion Transformer模型模型通过token粒度的缓存方法，实现了图像和视频生成模型上无需训练的两倍以上的加速。上海交通大学等团队提出Toca（Token-wise Caching），相关论文已被ICLR 2025接收。

腾讯网3 天

LLM模型添加自定义Token代码示例：为Llama 3.2模型添加思考与回答标记

点击上方“Deephub Imba”,关注公众号,好文章不错过 !本文将介绍如何为大型语言模型(LLM)添加自定义token并进行训练，使模型能够有效地利用这些新增token。以Llama 3.2模型为基础，实现了类似DeepSeek ...

6 天on MSN

Figure发布Helix，技术路线与清华系具身智能企业“撞车”？

与OpenAI分道扬镳后，Figure多次预告的AI新成果，在2月20日晚终于揭晓了答案。Figure发布通用人形机器人控制的视觉-语言-动作(VLA)端到端具身模型Helix。实现了从视觉输入和自然语言指令到机器人动作的直接映射，克服了传统方法中需 ...

5 天

Claude 3.7狂飙物理引擎碾压Grok 3，高考数学题被秒成渣！疯狂融资35亿 ...

仅从软件工程基准SWE-bench Verified来看，Claude 3.7 Sonnet编码能力直接刷到70.3%，整整拉高了20%。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果