1. 开源微调神器Unsloth优化了DeepSeek-R1同款GRPO训练算法,上下文变长10倍,显存需求减少90%。 3.