大家好,我是对白. 何恺明时隔两年发一作论文,提出了一种视觉自监督学习新范式-- 用掩蔽自编码器MAE,为视觉大模型开路. 这一次,北大博士生提出一个新方法CAE,在其下游任务中展现的泛化能力超过了MAE. 来看看这是一项什么样的研究? 这是一项什么研究? 自何恺明提出MAE以来,基于MIM,Masked Image Modeling,这一自监督学习表征算法就越来越引发关注. 它的主要思路,就是对输入图像进行分块和随机掩码操作,然后对掩码区域做预测. 预测的目标可以是Token ID(如微软提出…
HInton第9课,这节课没有放论文进去.....如有不对之处还望指正.话说hinton的课果然信息量够大.推荐认真看PRML<Pattern Recognition and Machine Learning>. 摘自PRML中22页. 正文: 一.提高泛化方法的概述 在这部分中,将会介绍通过减少(当一个模型的数据表现能力大大的超过训练时提供的数据而产生的)过拟合来提高模型的泛化能力,将会介绍不同的方法去控制网络的数据表达能力,并介绍当我们使用这样一种方法的时候如何设置元参数,然后给出一个通过…
AlexNet将LeNet的思想发扬光大,把CNN的基本原理应用到了很深很宽的网络中.AlexNet主要使用到的新技术点如下. (1)成功使用ReLU作为CNN的激活函数,并验证其效果在较深的网络超过了Sigmoid,成功解决了Sigmoid在网络较深时的梯度弥散问题.虽然ReLU激活函数在很久之前就被提出了,但是直到AlexNet的出现才将其发扬光大. (2)训练时使用Dropout随机忽略一部分神经元,以避免模型过拟合.Dropout虽有单独的论文论述,但是AlexNet将其实用化,通过实践…
梯度中心化GC对权值梯度进行零均值化,能够使得网络的训练更加稳定,并且能提高网络的泛化能力,算法思路简单,论文的理论分析十分充分,能够很好地解释GC的作用原理   来源:晓飞的算法工程笔记 公众号 论文: Gradient Centralization: A New Optimization Technique for Deep Neural Networks 论文地址:https://arxiv.org/abs/2004.01461 论文代码:https://github.com/Yongho…
1. 偏差与方差 - 机器学习算法泛化性能分析 在一个项目中,我们通过设计和训练得到了一个model,该model的泛化可能很好,也可能不尽如人意,其背后的决定因素是什么呢?或者说我们可以从哪些方面去改进从而使下次得到的model更加令人满意呢? ”偏差-方差分解(bias-variance decomposition)“是解释学习算法泛化能力性能的一种重要工具.偏差-方差分解试图对学习算法的期望泛化错误率进行拆解. 假设测试样本为x,yd 为 x 在数据集中的标记(注意,有可能出现噪声使得 y…
代码: # -*- coding: utf-8 -*- """ Created on Thu Jul 12 09:36:49 2018 @author: zhen """ """ 分析n_neighbors的大小对K近邻算法预测精度和泛化能力的影响 """ from sklearn.datasets import load_breast_cancer from sklearn.model…
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕,旷视科技有多篇论文被此大会接收.在这篇论文中,旷视科技提出的一种通过学习局部单应变换实现人脸校正的全新方法——GridFace. 论文名称:<GridFace: Face Rectification via Learning Local Homography Transformations> 论文链接:https://…
学界 | 华为诺亚方舟实验室提出新型元学习法 Meta-SGD ,在回归与分类任务中表现超群 机器之心发表于机器之心订阅 499 广告关闭 11.11 智慧上云 云服务器企业新用户优先购,享双11同等价格 立即抢购 选自arXiv 机器之心编译 参与:Smith 从小数据中进行学习和调整的能力对于智能化来说是至关重要的,然而,我们现有的深度学习方面的成功则需要高度依赖大量标注数据.最近,华为公司诺亚方舟实验室的几名研究员提出了一种新型优化器 Meta-SGD,它非常易于训练,而且比其它元学习方法…
Pretext task 可以理解为是一种为达到特定训练任务而设计的间接任务. 比如,要训练一个网络来对 ImageNet 分类,可以表达为 $f_{\theta}(x): x \rightarrow y$ ,目的是获得具有语义特征提取/推理能力的 $\theta$ .假设有另外一个任务 (Pretext task ),可以近似获得 $\theta$. 比如, $Auto-encoder$ ($\mathrm{AE}$) , 表示为: $g_{\theta}(x): x \rightarrow…
一.岭回归和 LASSO 回归的推导过程 1)岭回归和LASSO回归都是解决模型训练过程中的过拟合问题 具体操作:在原始的损失函数后添加正则项,来尽量的减小模型学习到的 θ 的大小,使得模型的泛化能力更强: 2)比较 Ridge 和 LASSO 名词 Ridge.LASSO:衡量模型正则化: MSE.MAE:衡量回归结果的好坏: 欧拉距离.曼哈顿距离:衡量两点之间距离的大小: 理解 Ridge.LASSO:在损失函数后添加的正则项不同: MSE.MAE:两种误差的表现形式与对应的 Ridge 和…