o3 mini - 搜索 News

8 小时

AI大佬曼宁转赞，MetaGPT团队首提「Atom of Thoughts」，原子化思考让4o ...

基于此观察，研究人员推出了 Atom of Thoughts（AoT），AoT 的核心洞察是：复杂推理可通过一系列轻量的 “原子问题” 实现，这些问题的执行仅依赖自身，摆脱历史信息依赖。AoT 将推理过程构建为马尔可夫过程（Markov ...

1 天

ChatGPT新功能：o1支持Python数据分析，网友惊呼进化成Copilot

你的数据分析任务会被AI取代吗？近日，OpenAI宣布ChatGPT迎来重大更新，o1和o3-mini两款模型正式支持Python数据分析功能，这一消息迅速引发热议。有网友感慨，o1已经从一个智能助理进化成了全能的数据分析Copilot。那么，这个新功能究竟有哪些亮点？它又会对我们的工作方式带来哪些改变？让我们一起来探索。

1 天

ChatGPT再进化：o1支持调Python分析数据，网友：进化成Copilot了

最后一个问题也最复杂，需要从混杂有其他文本的结构化信息中先找出时间，然后还涉及到比较和时间差计算，计算完后还要再进行筛选和进一步统计。 Claude （3.7 Sonnet）这边则是闹出了一些乌龙，一开始表示自己无法打开上传的文件 ...

1 天

OpenAI为ChatGPT引入Python数据分析功能

Investing.com -- OpenAI已为其模型OpenAI o1和o3-mini引入基于Python的数据分析功能。这项新功能使用户能够执行多种任务，包括对测试数据进行回归分析、可视化复杂的商业指标以及进行基于场景的模拟。

2 天

谷歌：我们的Gemma 3，单GPU便能媲美Deepseek

DeepSeek彻底让全球都坐不住了。马斯克携“地球上最聪明的AI”——Gork3在直播中亮相，自称其“推理能力超越目前所有已知模型”，在推理-测试时间得分上，也好于DeepSeekR1、OpenAIo1。大模型的降本速度还会越来越快。

2 天on MSN

谷歌Gemma 3：单H100显卡驱动27B大模型，超越o3-mini成新标杆

谷歌近期震撼发布了其最新的开源模型系列Gemma 3，这款模型被自豪地誉为“全球顶尖的单加速器模型”。即便在参数量高达27B的顶级配置下，Gemma 3也仅需一张H100显卡即可实现高效推理，这无疑为AI领域带来了一场技术革新。 Gemma ...

头部财经2 天

单GPU运行最强模型！谷歌推出Gemma 3：单卡可跑27B超o3-mini

快科技3月13日消息，谷歌发布了其最新的开源模型系列——Gemma 3，并宣称这是“世界上最好的单加速器模型”。即便在参数量最大的27B版本中，仅需一张H100显卡即可实现高效推理。

8 天on MSN

微软Copilot升级：o3-mini-high模型免费无限制开放，深度思考功能再加强！

近期，微软在AI服务领域迈出了重要一步，对其Copilot功能的深度思考特性进行了全面升级。这一变革源自去年9月OpenAI推出的o1系列AI模型，这些模型以其深度思考的能力引起了广泛关注。紧接着，在去年10月，微软宣布了专为Pro计划用户设计的Copilot Think ...

36氪18 天

官方承认系统「作弊」，世界首个「AI CUDA工程师」翻车？o3-mini 11秒 ...

OpenAI研究员用o3-mini，11秒便发现了内核代码有bug！近日，获英伟达支持、已获数亿美元风投资金的Sakana AI爆出戏剧性反转。此前，该公司宣称开发 ...

凤凰网21 天

OpenAI实名举报Grok3作弊，一题答64次踩着台阶和o3-mini比

Grok-3才发布3天，就陷入作弊风波。隔壁OpenAI应用主管火速掀桌：每次评估中o3-mini都要比Grok-3好，看到Grok团队作弊真是令人失望。咋回事？

51CTO25 天

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

这个新基准名为 SnakeBench，是一个 1v1 的对抗性基准。其思路很简单：将两个 LLM 放在一起进行贪吃蛇比赛。如下展示了一局 o3-mini 与 DeepSeek-R1 的对抗。 ARC Prize，曾在去年底 OpenAI 12 天连发的最后一天赚尽了眼球，其发布已经 5 年的基准 ARC-AGI 首次迎来了得分达到 ...

36氪25 天

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

上周六，ARC Prize 又发布了一个新的基准，这一次 DeepSeek-R1 不仅超过了 o1-mini，与 o3-mini 的差距也非常小。这个新基准名为SnakeBench，是一个 1v1 的 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果