结合 DeepSeek 的官方技术报告来看,也就是说,Open R1 项目首先要实现的,是用 R1 数据蒸馏小模型,看看效果是不是像 DeepSeek 说的那么好: 接下来,就是按照 DeepSeek 所说,不用 SFT,纯靠 RL 调教出 ...