伯克利曾经提出 DeepMimic框架,让智能体模仿参考动作片段来学习高难度技能.但这些参考片段都是经过动作捕捉合成的高度结构化数据,数据本身的获取需要很高的成本.而近日,他们又更进一步,提出了可以直接模仿 Youtube 视频人物高难度动作的新框架 SFV. 从 YouTube 视频中学习技能的智能体. 通过 SFV 学习到的智能体动作还原度很高,并且有很好的泛化至新环境的能力,例如从平地泛化到不规则地形.当然,仍然存在一些难以模仿的动作,例如某某鬼畜骑马舞. 无论是像洗手这样的日常任务还是惊…