近期,加州大学圣迭戈分校的HaoAILab对两大知名语言模型Claude 3.7和GPT-4o进行了评估,研究通过经典游戏如超级马里奥,探索AI智能体的表现,并对当前的LLM(大型语言模型)评估方法提出新的思考。在这个背景下,游戏成为了一种新的评估工具,反映出不同AI模型 ...
TL;DR: Replace your OpenAI subscription with a lifetime subscription to 1min.AI for $39.99. AI tools like ChatGPT often have ...
DuckDuckGo, a search engine that protects user privacy and does not personalize searches, has released Duck.ai, an interface for AI chatbots, to the public. Anyone can chat with chat models such ...
Karpathy发出灵魂拷问,评估AI究竟该看哪些指标?答案或许就藏在经典游戏里!最近,加州大学圣迭戈分校Hao AI Lab用超级马里奥等评测AI智能体,Claude ...
2025-03-03 13:10发布于北京新智元官方账号 【新智元导读】Karpathy发出灵魂拷问,评估AI究竟该看哪些指标?答案或许就藏在经典游戏里!最近,加州 ...
Karpathy发出灵魂拷问,评估AI究竟该看哪些指标?答案或许就藏在经典游戏里!最近,加州大学圣迭戈分校Hao AI Lab用超级马里奥等评测AI智能体,Claude 3.7结果令人瞠目结舌。 LLM评估基准的「黄金标准」,正在失效? 一大早,AI大神Karpathy发出质疑,「目前存在一 ...
Anthropic 的 Claude 3.7 表现最好,其次是 Claude 3.5。遗憾的是,谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 表现不佳。 有趣的是,尽管 OpenAI 的 GPT-4o 等推理模型 ...
Anthropic’s Claude 3.5 Sonnet and OpenAI’s GPT-4o on various benchmarks. On benchmarks like Math (AIME’24), Science (GPQA), Coding (LCB Oct-Feb) Grok 3 scored 52, 75 and 57 respectively. Grok 3 mini ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果