具身智能,是人工智能(AI)行业的下一个浪潮。如何有效训练 Transformers 模型来控制具身机器人,是当前亟需要解决的难题,尤其是对于更复杂、需要精确和高频控制的精巧技能,现有的视觉-语言-动作(VLA)模型几乎失效。尽管扩散或流匹配通常表现得更好,但扩散需要更长的训练时间。 那么,如何在保持灵巧性和精确性的同时,快速训练 Transformers 进行机器人控制呢?使用一个好的 toke ...