【强化学习】1-1-2 “探索”(Exploration)还是“ 利用”(Exploitation)都要“面向目标”(Goal-Direct)
title: 【强化学习】1-1-2 “探索”(Exploration)还是“ 利用”(Exploitation)都要“面向目标”(Goal-Direct)
categories:
- Reinforcement Learning
- RL-An Introduction
keywords:
- Trade-Off
- Exploration
- Exploitation
- Goal-Direct
- 平衡
- 探索
- 利用
- 目标导向
toc: true
date: 2018-08-27 22:55:15
Abstract: 本文介绍强化学习中最重要的一个挑战—— “探索”(Exploration)还是“ 利用”(Exploitation)
Keywords: Trade-Off,Exploration,Exploitation,Goal-Direct,平衡,探索,利用,目标导向
Trade-off between Exploitation and Exploration(利用和探索之间的平衡)
在强化学习中会遇到一个伴随一生的问题,这个问题其实也出现在我们的生活中,也会遇到这种问题,当你遇到一个问题,一个你以前已经遇到过的问题,你有两种选择,第一种,按照以前的方法(其中之一)来完成这件事(Exploitation);或者,你可以尝试另一种方法,一种全新的方法(Exploration);前者可以获得稳定的效果,但是不一定是最优的,后者可能会得到更优的方法,但是也可能得到一个不如以前方法的效果。
同样的情况在强化学习中会一直伴随我们,两种action,选择其中一个是困难的。在下棋的过程中,针对当前的environment,我们的agent以前有类似的经历,是按照过去的经验完成,还是创新一下,采用一种以前没有经验的方法,这个问题dilemma的,而且这两种方法都没有办法保证自己不会失效(fail)
对于一个随机性的任务,更是要经过无数的尝试,才能得到一个稳定的期望,所以那个?经过了这么久才能在围棋这种困难的项目上打败人类,而更早的深蓝只能在较简单的项目上打败人类(没错,是什么棋我忘了)。这里所谓的随机性的任务,通俗理解,可以想象成打麻将?
对于Exploration 和 Exploitation之间的平衡在第二章中详细分析,这个问题经过了几十年大量数学研究,似乎还是没研究明白。
我们只需要简单的记住,我们要平衡他们就可以了。
监督学习,非监督学习则没有这个问题,所以RL跟他们没有附属关系。
Goal-Direct & Uncertain Environment(目标导向和未知环境)
本文为节选,完整内容地址:https://face2ai.com/RL-RSAB-1-1-2-Reinforcement-Learning/转载标明出处
【强化学习】1-1-2 “探索”(Exploration)还是“ 利用”(Exploitation)都要“面向目标”(Goal-Direct)的更多相关文章
- 【整理】强化学习与MDP
[入门,来自wiki] 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的 ...
- 强化学习读书笔记 - 02 - 多臂老O虎O机问题
# 强化学习读书笔记 - 02 - 多臂老O虎O机问题 学习笔记: [Reinforcement Learning: An Introduction, Richard S. Sutton and An ...
- ICML 2018 | 从强化学习到生成模型:40篇值得一读的论文
https://blog.csdn.net/y80gDg1/article/details/81463731 感谢阅读腾讯AI Lab微信号第34篇文章.当地时间 7 月 10-15 日,第 35 届 ...
- 强化学习一:Introduction Of Reinforcement Learning
引言: 最近和实验室的老师做项目要用到强化学习的有关内容,就开始学习强化学习的相关内容了.也不想让自己学习的内容荒废掉,所以想在博客里面记载下来,方便后面复习,也方便和大家交流. 一.强化学习是什么? ...
- 深度强化学习day01初探强化学习
深度强化学习 基本概念 强化学习 强化学习(Reinforcement Learning)是机器学习的一个重要的分支,主要用来解决连续决策的问题.强化学习可以在复杂的.不确定的环境中学习如何实现我们设 ...
- 5G网络的深度强化学习:联合波束成形,功率控制和干扰协调
摘要:第五代无线通信(5G)支持大幅增加流量和数据速率,并提高语音呼叫的可靠性.在5G无线网络中共同优化波束成形,功率控制和干扰协调以增强最终用户的通信性能是一项重大挑战.在本文中,我们制定波束形成, ...
- AI小白必读:深度学习、迁移学习、强化学习别再傻傻分不清
摘要:诸多关于人工智能的流行词汇萦绕在我们耳边,比如深度学习 (Deep Learning).强化学习 (Reinforcement Learning).迁移学习 (Transfer Learning ...
- 强化学习(二)马尔科夫决策过程(MDP)
在强化学习(一)模型基础中,我们讲到了强化学习模型的8个基本要素.但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简化也很重要,这一篇主要就是讲如何利用马尔科夫决策 ...
- 【转载】 强化学习(三)用动态规划(DP)求解
原文地址: https://www.cnblogs.com/pinard/p/9463815.html ------------------------------------------------ ...
随机推荐
- Django学习(2.2.1版本)
项目技术重难点分析: 模型层:模型是您的数据唯一而且准确的信息来源.它包含您正在储存的数据的重要字段和行为.一般来说,每一个模型都映射一个数据库表. 每各模型都是一个python的类,这些类继承 d ...
- 植物大战僵尸:寻找召唤僵尸关键CALL
实验目标:通过遍历寻找召唤僵尸的CALL,通过调用CALL出现自定义的僵尸,加速僵尸的出现. 僵尸CALL的遍历技巧: 我们可以通过僵尸出现在屏幕中的个数来遍历寻找僵尸出现的CALL 首先打开CE-& ...
- CentOS7利用systemctl添加dotnet后台服务
/usr/lib/systemd/system/zl.service systemctl enable zl.service systemctl start zl.service [Unit]Desc ...
- connect() failed (111: Connection refused) while connecting to upstream的解决
遇到这种情况, 首先 1.检查php-fpm是否启动---------如果没启动->启动, 2.用命令 netstat -ant | grep 9000 查看php-fpm进程,如果没启动-&g ...
- linux--查看磁盘空间大小使用情况
1. linux查看磁盘空间大小命令 df -h Df命令是linux系统以磁盘分区为单位查看文件系统,可以加上参数查看磁盘剩余空间信息, 命令格式: df -hl 显示格式为: 文件系统 容量 ...
- 学习前端第二天之css层叠样式
一.设置样式公式 选择器 {属性:值:} 二.font 设置四大操作 font-size:字体大小 (以像素为单位) font-weight:字体粗细 font-family:字体 ( 可直接跟 ...
- ASP.NET 静态化
以前也说过页面静态化 但是说的好像不清楚 这次我用一个插件 URLRewriter 重写URL 先引用dll 然后再web.config中三步走 <configSections> & ...
- 09_Redis_消息订阅与发布
一:Redis 发布订阅 Redis 发布订阅(pub/sub)是一种消息通信模式:发送者(pub)发送消息,订阅者(sub)接收消息. Redis 客户端可以订阅任意数量的频道. 下图展示了频道 c ...
- 05_Redis_List命令
一:Redis 列表(List) -- LinkedList Redis列表是简单的字符串列表,按照插入顺序排序.你可以添加一个元素到列表的头部(左边)或者尾部(右边):一个列表最多可以包含 232 ...
- Scala快速入门(四)——继承、接口
Scala快速入门(四)--继承.接口 一.继承 1.继承的概念:省略 2.模板: class Person(n:String,a:Int) { var name:String=n var age:I ...