近日,幻方量化旗下AI公司深度求索(DeepSeek)正式发布DeepSeek-R1模型。在数学、代码、自然语言推理等任务上,该模型性能比肩OpenAI o1正式版。DeepSeek称,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
很多人没有意识到的一点是在所谓test time compute scaling时代,你的推理成本低可以直接转化为推理质量。目前openai o1 pro比openai o1推理结果的质量明显要好。o1 pro大概率是使用和o1同样的模型,但o1 pro会在前段把问题分解,中间再用多路进行推理,最后再用某种方法总结。o1本身也可也加长思维链。这些方法都是你增加推理成本就可以提高质量的体现。 目前就 ...
抢在OpenAI发布Operator之前,清华、复旦和斯坦福的研究者联合提出了名为Eko的 ...