大家好,我是对白. 何恺明时隔两年发一作论文,提出了一种视觉自监督学习新范式-- 用掩蔽自编码器MAE,为视觉大模型开路. 这一次,北大博士生提出一个新方法CAE,在其下游任务中展现的泛化能力超过了MAE. 来看看这是一项什么样的研究? 这是一项什么研究? 自何恺明提出MAE以来,基于MIM,Masked Image Modeling,这一自监督学习表征算法就越来越引发关注. 它的主要思路,就是对输入图像进行分块和随机掩码操作,然后对掩码区域做预测. 预测的目标可以是Token ID(如微软提出…