LLM - 搜索 News

6 小时

颠覆LLM格局！AI2新模型OLMo2，训练过程全公开，数据架构双升级

在预训练阶段，OLMo 2通过多种技术改进了训练稳定性，例如过滤重复的n-gram、使用更好的初始化方法、架构改进和超参数调整。这确保了模型在训练过程中不会出现崩溃或损失激增，从而提高了最终模型的性能。

来自MSN6 小时

DeepMind公开Mind Evolution研究，结合LLM提升自然语言问题求解性能

DeepMind发布了一项名为Mind ...

11 小时

Meta首席AI科学家预测五年内将出现新的AI架构范式，开启 “机器人十 ...

在日前的达沃斯 “技术辩论” 会上，Meta 的首席 AI 科学家 Yann LeCun 对未来五年的人工智能发展做出了激动人心的预测。他认为，现有的人工智能系统将在未来3到5年内面临巨大的变革，将出现一种 “新的 AI 架构范式”，超越当今普遍使用的生成式 AI 和大型语言模型（LLM）的能力。

12 小时

Anthropic创始人眼中的AI智能体进化：工具、上下文、代码与安全

AI 智能体目前是科技领域的热门话题。从 Google DeepMind、OpenAI 到 Anthropic，各大顶尖公司正竞相为 LLM 赋予自主完成任务的能力。这类系统在行业内被称为 Agentic AI（代理式人工智能），是硅谷新的热议焦点。从英伟达到 Salesforce，各家公司都在探讨如何利用这项技术颠覆行业格局。

1 天

FlashInfer：高效Attention引擎重塑LLM推理的未来

总体来看，FlashInfer不仅是高效Attention引擎的代表，更是当前LLM推理领域的一次革命性进步。未来，该技术的广泛应用有望推动更为复杂但高效的AI模型的实现，进而为各类自然语言处理任务（如对话系统、文本生成和信息检索等）注入新的活力与可能性。正如陈天奇团队所言，FlashInfer的发布不仅仅是一次学术成果，更是对未来AI技术进步的展望。借助这些创新，我们期待在各行各业的AI应用中， ...

来自MSN2 天

别再用老掉牙的AI，用NAS搭建全功能、轻量级、可扩展的LLM客户端

「亲爱的粉丝朋友们好啊！今天熊猫又来介绍好玩有趣的Docker项目了，喜欢的记得点个关注哦！」 ...

2 天

选择/杂交/突变，DeepMind将自然选择引入LLM思维，实现心智进化

遗传算法是一种受自然选择启发的元启发式算法。在遗传算法中，候选解种群会朝着包含更多高质量个体的种群方向演化，这里的质量是相对于目标优化目标而言的。这个目标通常也被称为「适应度」函数。每个候选个体都有一个可以突变并与其他个体重组的遗传表示。

7 天

Apple中国NLP团队招聘实习生：开启AI语言处理新机会

随着人工智能技术的迅猛发展，自然语言处理（NLP）领域正迎来前所未有的机遇。近日，Apple中国宣布正在招聘NLP和大模型方向的算法实习生，旨在加强其在大型语言模型（LLM）应用和后端系统开发方面的能力。这一招聘消息不仅引发了在校学生和求职者的广泛关 ...

9 天

研究：训练数据含 0.001% 的错误信息足以“毒害”医学 AI 模型

1 月 14 日消息，纽约大学的一项研究揭示了大型语言模型（LLM）在医学信息训练中的潜在风险。研究表明，即使训练数据中仅含有 0.001% 的错误信息，也可能导致模型输出不准确的医学答案。

来自MSN10 天

微软华人团队最新研究：从LLM到LAM，让大模型真正具有「行动力」！

编辑：泽正英智【新智元导读】AI大模型正从仅会聊天的LLM进化为能够执行任务的大型行动模型LAM。它不仅能理解用户的指令，还能在软件环境中自主执行任务。 LLM只能针对问题进行回答与分析?这种「隔靴搔痒」的体验也许就要被终结了！最近， ...

13 天

LLM 带来了「编程末日」？哥本哈根大学计算机教授称“永远不会”

LLM 会把编程淘汰吗？近日，哥本哈根大学的计算机教授，通过分析计算理论中的定理所施加的基本限制，得出结论：距离编程的终结还远得很。文章地址： https://cacm.acm.org/ opinion / on-program-synthesis-and-large-language-models/ ...

16 天

Meta 提出新型可扩展记忆层，提升语言模型知识储备、减少幻觉现象

随着企业越来越多地应用大型语言模型（LLMs），如何提升模型的知识准确性并减少幻觉现象，成为了一项重要挑战。Meta AI 的研究人员在一篇新论文中提出了 “可扩展记忆层”，或许能够为这一问题提供解决方案。可扩展记忆层的核心思想是在不增加推理时计算资源的情况下，向 LLMs 中添加更多参数，从而提升其学习能力。这种架构适用于需要储存大量事实知识但又希望保持推理速度的应用场景。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果