Llama - 搜索 News

19 小时

谷歌引用了“埃洛（Elo）等级分系统”，称 Gemma 3 的评分达到了 Deepseek R1 评分的 98% —— Gemma 3 为 1338 分，而 Deepseek R1 为 1363 分。

20 小时

何恺明与LeCun携手创新：9行代码颠覆Transformer归一化层，性能提升神速！

在AI领域，归一化层长久以来被视为现代神经网络的基石之一，然而，最新研究却颠覆了这一传统观念。知名科学家何恺明和Yann LeCun合作带来了令人振奋的突破——通过引入名为DyT（动态Tanh）的新型模块，仅用9行PyTorch代码便能完全取代LayerNorm或RMSNorm，且不仅保留了相同的性能，还在训练和推理效率上实现了大幅提升。这项研究成果已经成功入选2025年CVPR会议。

2 天

全面对标ChatGPT，Meta也要做AI聊天机器人

2025年春季，AI赛道迎来了一次“超新星爆发”，DeepSeek超越ChatGPT成为目前增长最快的AI应用。旋即ChatGPT的开发商OpenAI还以颜色，宣布在不到3个月的时间里，ChatGPT新增周活跃用户1亿，目前总的周活跃用户已达到了4亿 ...

2 天

“智教甘肃大模型”上线运行

本报兰州讯（新甘肃·甘肃日报记者苏家英）记者从省教育厅获悉，由省电化教育中心（甘肃省教育管理信息中心）为全省教育系统量身打造的“智教甘肃大模型”平台日前投入运行，标志着全省教育数字化发展迈入智能驱动新阶段。之后，“智教甘肃大模型”将逐步向全省教育系统 ...

3 天

甲骨文董事长埃里森：将 OpenAI 的

ChatGPT、XAI 的 Grok 和 Meta 的 Llama 直接连接到具有高级向量功能的甲骨文数据库 23AI 版。

4 天

阿里研究院：DeepSeek是对开源大模型价值的强有力支持

阿里研究院文章称，DeepSeek是对开源大模型价值的强有力支持：正是站在LLaMa、千问等开源大模型的基础上，DeepSeek通过更巧妙的工程设计挖掘了大模型的内在潜力、实现了性能上的超越。但另一方面，如果开源需要真正成为大模型的主导性发展模式，不可回避的另一重要问题仍然是开源大模型风险治理的改革，即我们能否创新开源（ 300109 ）治理机制以回应大模型开源后所可能引发的风险担忧。

5 天

马斯克旗下xAI在美国孟菲斯购地支持数据中心业务；微软被曝开发 ...

｜2025年3月10日星期一｜NO.1微软被曝开发内部AI推理模型，与OpenAI竞争近日，据外媒报道，微软已经开发了自己的AI推理模型，可与OpenAI的o1和o3-mini等模型相媲美。同时，据报道，微软正在测试xAI、Meta、Anthropic和DeepSeek的AI模型，以作为Copilot中OpenAI模型的潜在替代品。资本市场可能重新评估科技含量高的设备制造商估值体系，同时关注传统行 ...

腾讯网23 天

Llama都在用的RoPE有了视频版，长视频理解/检索绝佳拍档

Llama都在用的RoPE（旋转位置嵌入）被扩展到视频领域，长视频理解和检索更强了。复旦大学、上海AI实验室等提出VideoRoPE，并确定了将RoPE有效应用于 ...

51CTO25 天

Llama模仿Diffusion多模态涨分30%！不卷数据不烧卡，只需共享注意力分布

中国研究员联合DeepMind团队的最新研究《Lavender: Diffusion Instruction Tuning》，通过简单的“注意力对齐”，仅需1天训练、2.5%常规 ...

51CTO29 天

一文带你看懂开源大模型基石LLaMA核心技术点，DeepSeek/千问等LLM的 ...

LLaMA是目前很多SOTA开源大模型的基础，包括DeepSeek、千问等在内的很多大模型的模型机构大体上都沿用了LLaMA。因此，LLaMA在模型结构的设计上可以说是目前大模型的一种最佳实践。这篇文章就给大家汇总一下LLaMA的核心模型结构。 LLaMA的主体结构仍然基于Transformer ...

腾讯网1 个月

贝瑞基因(000710.SZ)：目前已接入Deepseek、千问、llama、智谱AI、BiomedGPT ...

格隆汇2月12日丨贝瑞基因(000710.SZ)于近期投资者关系活动表示，公司目前已接入Deepseek、千问、llama、智谱AI、BiomedGPT和LucaOne等多种开源模型 ...

GitHub4 个月

Tips: 图片完全由AI生成

LLM-Dojo使用简洁且易阅读的代码构建LLM、VLM模型训练、RLHF框架等各种功能，使项目易于学习且方便魔改与实验，与大多开源框架相同均是基于huggingface。主要内容如下： SFT训练框架: 简洁清晰的开源大模型训练框架，支持Deepspeed多卡、Lora、QLora、全参等训练 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果