赵学亮 投稿量子位 | 公众号 QbitAI 大模型架构研究进展太快,数据却快要不够用了,其中问题数据又尤其缺乏。 为此,港大和蚂蚁的研究人员反向利用思维链,提出了PromptCoT方法,并基于Llama3.1-8B训练了一个问题生成模型。 实验结果表明,合成的问题难度较开源数据和已有算法有显著提升,接近了AIME水平。 研究团队利用问题生成模型构造了400k SFT数据。 基于这份数据,团队训练 ...
8 个 H100 显卡训练 1 小时,即可让所训练的 Qwen2.5-Math-CFT 模型媲美 DeepSeek-R1 的性能。背后“秘诀”只有一个:采用由加拿大滑铁卢大学团队和美国卡内基梅隆大学团队提出的批判性微调(CFT,Critique ...
最近,CMU、滑铁卢大学等机构的3名华人学者就发表了一篇论文,针对SFT做出了更进一步的改进,提出批判式监督微调方法(CFT,Critique Fine-Tuning),旨在让模型更有效地模仿模仿数据集。
DeepSeek-R1 模型发布以来,尽管许多开源工作试图在 72B 或更小的模型上复现长思维链的 DeepSeek-R1 的性能,但至今还没有在 AIME24 等高难度数学竞赛中达到接近 DeepSeek-R1-Distill-Qwen-32B 的 ...
这一周,杭州城里,DeepSeek 连续五天公布代码,阿里通义接连放出三个开源模型“王炸”。DeepSeek的开源周刚过半,同城的阿里巴巴开始推波助澜,前一日宣布了Qwen2.5-Max与推理版QwQ-Max的开源计划,第二天又正式开源了Wan2.1(万相)视频模型。Qwen2.5-Max对标DeepSeek V3的旗舰MOE模型,QwQ-Max是对标DeepSeek ...
自 2023 年 8 月起,阿里云相继开源 Qwen、Qwen1.5、Qwen2、Qwen2.5 等 4 代模型,囊括了 0.5B、1.5B、3B、7B、14B、32B、72B、110B 等全尺寸,大语言、多模态、数学和代码等全模态。 在本月早些时候的 2025 财年 Q3 财报分析师电话会上,阿里巴巴 CEO 吴泳铭表示,未来三年 ...
Qwen2.5-3B: 在 GSM8K 和 Math 混合数据集进行训练,从上图可以看出,Qwen2.5-3B 的准确率在经历 5 步的优化后能稳定在 60% 以上,最高能达到 70% 左右;格式遵循能力在 30 步以后接近 100%. Qwen2.5-7B 在 GSM8K 数据集上进行训练,从上图可以看出,Qwen2.5-7B 的无论是准确率 ...
Qwen2.5-3B: 在 GSM8K 和 Math 混合数据集进行训练,从上图可以看出,Qwen2.5-3B 的准确率在经历 5 步的优化后能稳定在 60% 以上,最高能达到 70% 左右 ...
同时,对QWen2.5、LLama3.2、ChatGLM等主流大模型也全面兼容,满足各种业务场景需求。 据了解,该一体机采用全国产技术路线,选用国产X86 CPU和国产 ...
光大证券发布研报称,DeepSeek-R1带来的突破有机会持续完善,推出性能更强力的模型。R1的模式有助于激发现有模型潜力,如对阿里Qwen2.5等模型进行微调。DeepSeek的成功或有望促使各大互联网公司加大对AI大模型的战略投入。R1多项创新性技术突破路径已开源 ...
除了 AI 程序员上线外,近期通义灵码能力再升级全新上线模型选择功能,目前已经支持 Qwen2.5、DeepSeek-V3 和 R1 系列模型,用户可以在 VSCode 和 JetBrains 里搜索并下载最新通义灵码插件,在输入框里选择模型,即可轻松切换模型。 IT之家注意到,目前通义灵码智能 ...
【新智元导读】仅凭测试时Scaling,1B模型竟完胜405B!多机构联手巧妙应用计算最优TTS策略,不仅0.5B模型在数学任务上碾压GPT-4o,7B模型更是力压o1、DeepSeek R1这样的顶尖选手。 今天,一篇多机构联合发表的论文,在AI圈引起轰动。 凭借重新思考计算最优的测试时 ...