目录 论文信息: Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017: 1126-1135. 一.摘要 元学习的目标是在各种学习任务上训练一个模型,这样它就可以使用…
目录 论文信息 Nichol A , Achiam J , Schulman J . On First-Order Meta-Learning Algorithms[J]. 2018. 一.摘要 本文主要考虑元学习问题,即存在一个任务分布(a distribution of tasks),从这个分布中抽取许多任务来训练元学习模型(或代理),使其在处理从这个分布中抽取的以前从未遇到过的任务时能更快的学习(即表现得更好). 本文通过分析一系列仅在元学习更新(meta-learning update)…
摘要:我们提出了一种不依赖模型的元学习算法,它与任何梯度下降训练的模型兼容,适用于各种不同的学习问题,包括分类.回归和强化学习.元学习的目标是在各种学习任务上训练一个模型,这样它只需要少量的训练样本就可以解决新的学习任务.在我们的方法中,模型的参数被显式地训练,使得少量的梯度步骤和少量的来自新任务的训练数据能够在该任务上产生良好的泛化性能.实际上,我们的方法训练模型易于微调.结果表明,该方法在两个few shot图像分类基准上都取得了最新的性能,在少镜头回归上取得了良好的效果,并加速了基于神经网…
在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Based RL),以及基于模型的强化学习算法框架Dyna. 本篇主要参考了UCL强化学习课程的第8讲和Dyna-2的论文. 1. 基于模型的强化学习简介 基于价值的强化学习模型和基于策略的强化学习模型都不是基于模型的,它们从价值函数,策略函数中直接去学习,不用学习环境的状态转化概率模型,即在状态$s$下采…
[说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![握手][握手] [再啰嗦一下]本文衔接上一个随笔:人工智能中小样本问题相关的系列模型演变及学习笔记(一):元学习.小样本学习 三.生成对抗网络 GAN 综述 说到小样本学习,就想说比较时髦的生成对抗网络GAN.别误会,生成对抗网络并不是只针对小样本生成,还有很多别的丰富应用. 1. GAN GANs是一种结构化的概率模型,由两个对立的模型组成:生成模型(G)用于捕获数据分布,判别模型(D)用…
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想 在使用某个特定的算法是,有时会发现生成的算法\(f(x)\)的错误率比较高,只使用这个算法达不到要求. 这时\(f(x)\)就是一个弱算法. 在以前学习算法的过程中,我们认识到算法的参数很重要,所以把公式改写成这样: \[ f(x,arguments) \\ where \\ \qquad x \text{ : calculated…
在线性回归.逻辑回归.softmax回归中,学习的结果是\(p(y|x;\theta)\),也就是给定\(x\)的条件下,\(y\)的条件概率分布,给定一个新的输入\(x\),我们求出不同输出的概率,我们称这一类学习算法为判别学习算法​(discriminative learning algorithm):这一节,我们介绍另一类学习算法:生成学习算法(generative learning algorithm),在生成学习算法中,我们对\(p(x|y)\)和\(p(y)\)建模,也就是说,我们求…
基于模型的强化学习方法数据效率高,前景可观.本文提出了一种基于模型的元策略强化学习方法,实践证明,该方法比以前基于模型的方法更能够应对模型缺陷,还能取得与无模型方法相近的性能. 引言 强化学习领域近期取得的很多成就都是通过无模型强化学习算法 [1,2,3] 实现的.无模型(MF)算法倾向于实现最佳性能,通常可应用且易于实现. 然而,这是以数据密集为代价实现的,当与诸如神经网络的大容量函数近似器结合时,情况会恶化.它们的高样本复杂性阻碍其应用于机器人控制任务,在这些任务上收集数据代价高昂. 相比之…
原文:[HLSL学习笔记]WPF Shader Effect Library算法解读之[BandedSwirl] 因工作原因,需要在Silverlight中使用Pixel Shader技术,这对于我来说可算是相当有难度了,首先我是个Java Web开发程序员,从来没正经地学过微软的开发语言和工具:其次,对于算法这种东西,向来有种天生的排斥,一看便头疼.不过项目逼到份上了,只能硬着头皮上,真不知道领导们是怎么想的.还是言归正传吧,记录记录自己的学习心得. 熟悉Silverlight的人都知道,SL…
  近期学习了一种叫做 Factorization Machines(简称 FM)的算法.它可对随意的实值向量进行预測.其主要长处包含: 1) 可用于高度稀疏数据场景:2) 具有线性的计算复杂度.本文将对 FM 框架进行简介.并对其训练算法 - 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行具体推导. 相关链接: (一)预測任务 (二)模型方程 (三)回归和分类 (四)学习算法 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaXRwbHVz/f…