Reinforcement Learning 对于控制决策问题的解决思路:设计一个回报函数(reward function),如果learning agent(如上面的四足机器人.象棋AI程序)在决定一步后,获得了较好的结果,那么我们给agent一些回报(比如回报函数结果为正),得到较差的结果,那么回报函数为负.比如,四足机器人,如果他向前走了一步(接近目标),那么回报函数为正,后退为负.如果我们能够对每一步进行评价,得到相应的回报函数,那么就好办了,我们只需要找到一条回报值最大的路径(每步的回…
Machine Learning Algorithms Study Notes 高雪松 @雪松Cedro Microsoft MVP 本系列文章是Andrew Ng 在斯坦福的机器学习课程 CS 229 的学习笔记.
整个deep learing 系列课程主要包括哪些内容
MIT(Deep Learning for Self-Driving Cars) CMU(Deep Reinforcement Learning and Control ) 参考网址: 1 Deep Learning for Self-Driving Cars  --  6.S094 2 Deep Reinforcement Learning and Control  --  10703
Coursera课程<Neural Networks and Deep Learning> Week1 Introduction to deep learning What is a Neural Network? 让我们从一个房价预测的例子开始讲起. 假设你有一个数据集,它包含了六栋房子的信息.所以,你知道房屋的面积是多少平方英尺或者平方米,并且知道房屋价格.这时,你想要拟合一个根据房屋面积预测房价的函数. 如果使用线性回归进行拟合,那么可以拟合出一条直线.但…
这学期一直在跟进 Coursera上的 Machina Learning 公开课, 老师Andrew Ng是coursera的创始人之一,Machine Learning方面的大牛.这门课程对想要了解和初步掌握机器学习的人来说是不二的选择.这门课程涵盖了机器学习的一些基本概念和方法,同时这门课程的编程作业对于掌握这些概念和方法起到了巨大的作用. 课程地址 笔记主要是简要记录下课程内容,以及MATLAB…
1.交叉熵代价函数 2.正则化方法:L1和L2 regularization.数据集扩增.dropout 3. 数据预处理 4.机器学习算法中如何选取超参数:学习速率.正则项系数.minibatch size 5.随机梯度下降(Stochastic gradient descent)和 批量梯度下降(Batch gradient descent )的公式对比.实现对比 随机梯度下降中,momentum的理解 Optimization: Stochastic Gradient Descent 6.…
下图为四种不同算法应用在不同大小数据量时的表现,可以看出,随着数据量的增大,算法的表现趋于接近.即不管多么糟糕的算法,数据量非常大的时候,算法表现也可以很好. 数据量很大时,学习算法表现比较好的原理: 使用比较大的训练集(意味着不可能过拟合),此时方差会比较低:此时,如果在逻辑回归或者线性回归模型中加入很多参数以及层数的话,则偏差会很低.综合起来,这会是一个很好的高性能的学习算法.…
Deep Neural Network Getting your matrix dimention right 选hyper-pamameter 完全是凭经验 补充阅读: cost 函数的计算公式: 求导公式…
NN representation 这一课主要是讲3层神经网络 下面是常见的 activation 函数.sigmoid, tanh, ReLU, leaky ReLU. Sigmoid 只用在输出0/1 时候的output layer, 其他情况基本不用,因为tanh 总是比sigmoid 好. 两种 ReLU 使用起来总是要比sigmoid 和 tanh 快.ReLU 是最常用的 activation. 为什么Activation function 要是non-linear的?因为如下图所示…
Logistic regression Cost function for logistic regression Gradient Descent 接下来主要讲 Vectorization Logistic Regression 的向量实现 Vectorizing LR Gradient output Python/Numpy and Jupyter Notebook 上图中 axis=0 表示竖直方向,axis=1 是水平方向… [平均-打折奖励] Schwartz [106] examined the problem of adapting Q-learning to an average-reward framework. Although his R-learning algorithm seems to exhibit convergence p…
Meta Learning/ Learning to Learn/ One Shot Learning/ Lifelong Learning
Multi-attention Network for One Shot Learning 2018-05-15 22:35:50  本文的贡献点在于: 1. 表明类别标签信息对 one shot learning 可以提供帮助,并且设计一种方法来挖掘该信息: 2. 提出一种 attention network 来产生 attention maps  for creating the image representation of an exemplar image in novel class…
主流的算法主要分为两个类型: (1)tow-stage R-CNN系列算法,其主要思路是先通过启发式方法(selective search)或者CNN网络(RPN)产生一些列稀疏的候选框,然后对这些候选框进行分类和回归.two-stage方法的优势是准确度高. (2)one-stage 如YOLO和SSD,主要思路是均匀的在图片的不同位置进行密集抽样,抽样时可以采用不同尺度和长宽比,然后利用CNN提取特征后直接进行分类和回归,整个过程只需要一部,所以其优势是速度快. 均匀的密集采样的一个重要缺点…
1. Introduction In this work, inspired by metric learning based on deep neural features and memory augment neural networks, authors propose matching networks that map a small labelled support set and an unlabelled example to its label.
原文链接:Meta Learning单排小教学 虽然Meta Learning现在已经非常火了,但是还有很多小伙伴对于Meta Learning不是特别理解.考虑到我的这个AI游乐场将充斥着Meta Learning的分析解读及各种原创思考,所以今天Flood就和大家做一个Meta Learning小教学,希望能够用最简短,最通俗的语言来让大家明白Meta Learning的概念,Meta Learning的几种研究方法,以及Meta Learning未来的发展,带大家上分!相信这个Meta L…
深度强化学习的18个关键问题 from: 85 人赞了该文章 深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两天我阅读了两篇篇猛文A Brief Survey of Deep Reinforcement Learning 和 Deep Reinforcement Learning: An Overview ,作者排山倒海的引用了200多篇文献,阐述强化学习未来的方向.原文归纳出深度强化学习中的常见科学问题,…
Notes on Representation Learning By Zac Kriegman, Senior Data Scientist in the Thomson Reuters Data Innovation Lab | 02/07/2017 Tags: Deep Learning , Neural Network
Where can I start with Deep Learning? By Rotek Song, Deep Reinforcement Learning/Robotics/Computer Vision/iOS | 03/01/2017
如何提高深度学习性能 20 Tips, Tricks and Techniques That You Can Use ToFight Overfitting and Get Better Generalization
第一周 机器学习的类型,以及何时使用机器学习 我们将首先简单介绍线性回归和机器学习.这将让你熟悉这些领域的常用术语,你需要了解的技术进展,并了解深度学习在更大的机器学习背景中的位置. 直播:线性回归 WEEK 1Types of Machine Learning and when to use Machine LearningLive session: Linear regression from scratch 第二周 神经网络的架构和类型 然后,我们将深入探索神经网络,并了解各种规范架构,如…