来源 | 环球科学科研圈(ID:keyanquan)AI 监管放宽,步子是否迈得太大?图片来源:pixabay撰文 黄雨佳当地时间 2 月 12 日,OpenAI 更新了其模型规范(Model ...
DeepSeek引入了Multi-Head Latent Attention(MLA),一种配置了低秩键值联合压缩(low-rank key-value joint ...
编译:haozhen编辑:siqi三周前,OpenAI 推出了 Deep Research,这是 OpenAI 的第二个 Agent,可以通过搜索多个网站,在 5-30 分钟内完成全面的 online ...
内部代号为“Orion”的 GPT 4.5 在自然度和减少“幻觉”方面取得了重大进展,其参数量可能超过 3 到 4 万亿。据推测,GPT 4.5 的训练使用了 3 万到 5 万块 NVIDIA H100 GPU,训练成本约 7.5 亿到 15 亿美元(IT之家备注:当前约 54.69 亿到 109.37 亿元人民币)。
SimpleQA 用于评估大语言模型(LLM)在简单但具有挑战性的知识问答中的事实性。而 GPT-4.5 在 SimpleQA 准确率(数值越高越好)达到 62.5%,遥遥领先于 OpenAI 其它模型。
去年 12 月,Google 就发布基于 Gemini 1.5 模型的 Deep Research 功能;OpenAI 刚推出一天,开源社区 HuggingFace 就提供了开源复现版本;之后不久,大模型搜索应用 Perplexity 推出类似的功能 ...
IT之家注:在 GPT-4.5 模型介绍视频的 2 分 26 秒处,OpenAI 展示 GPT 4.5 功能的聊天记录中,出现了“Num GPUs for GPT 6 Training”(训练 GPT-6 所需的 GPU 数量)的字样。 虽然视频中未对此进行任何解释,但“Num”可能暗示了一个前所未有的数字,该媒体推测高达 10 万块 GPU。
DeepSeek R1 展示的是真实思考过程,只不过为了为了让人类能看懂这些思考过程而专门做了训练;OpenAI o1/o3 展示的思考过程,是为了提高人类交互友好度而专门模拟的「假思维链」,并非模型真实的思考过程。 在 OpenAI 提出 o ...
OpenAI仍然死守缩放定律。
基于逐步生成解决方案的大语言模型(LLMs)训练范式在人工智能领域获得了广泛关注,并已发展成为行业内的主流方法之一。例如,OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了针对 O1 ...