Q-learning简明实例Java代码实现

在《Q-learning简明实例》中我们介绍了Q-learning算法的简单例子，从中我们可以总结出Q-learning算法的基本思想

本次选择的经验得分 = 本次选择的反馈得分 + 本次选择后场景的历史最佳经验得分

其中反馈得分是单个步骤的价值分值（固定的分值），经验得分是完成目标的学习分值（动态的分值）。

简明实例的Java实现如下

package com.coshaho.learn.qlearning;

import java.util.ArrayList;

import java.util.Collections;

import java.util.List;

import java.util.Random;

/**

 *

 * QLearning.java Create on 2017年9月4日 下午10:08:49

 *

 * 类功能说明:   QLearning简明例子实现

 *

 * Copyright: Copyright(c) 2013

 * Company: COSHAHO

 * @Version 1.0

 * @Author coshaho

 */

public class QLearning

{

    FeedbackMatrix R = new FeedbackMatrix();

    ExperienceMatrix Q = new ExperienceMatrix();

    public static void main(String[] args)

    {

        QLearning ql = new QLearning();

        for(int i = 0; i < 500; i++)

        {

            Random random = new Random();

            int x = random.nextInt(100) % 6;

            System.out.println("第" + i + "次学习, 初始房间是" + x);

            ql.learn(x);

            System.out.println();

        }

    }

    public void learn(int x)

    {

        do

        {

            // 随机选择一个联通的房间进入

            int y =  chooseRandomRY(x);

            // 获取以进入的房间为起始点的历史最佳得分

            int qy = getMaxQY(y);

            // 计算此次移动的得分

            int value = calculateNewQ(x, y, qy);

            Q.set(x, y, value);

            x = y;

        }

        // 走出房间则学习结束

        while(5 != x);

        Q.print();

    }

    public int chooseRandomRY(int x)

    {

        int[] qRow = R.getRow(x);

        List<Integer> yValues = new ArrayList<Integer>();

        for(int i = 0; i < qRow.length; i++)

        {

            if(qRow[i] >= 0)

            {

                yValues.add(i);

            }

        }

        Random random = new Random();

        int i = random.nextInt(yValues.size()) % yValues.size();

        return yValues.get(i);

    }

    public int getMaxQY(int x)

    {

        int[] qRow = Q.getRow(x);

        int length = qRow.length;

        List<YAndValue> yValues = new ArrayList<YAndValue>();

        for(int i = 0; i < length; i++)

        {

            YAndValue yv = new YAndValue(i, qRow[i]);

            yValues.add(yv);

        }

        Collections.sort(yValues);

        int num = 1;

        int value = yValues.get(0).getValue();

        for(int i = 1; i < length; i++)

        {

            if(yValues.get(i).getValue() == value)

            {

                num = i + 1;

            }

            else

            {

                break;

            }

        }

        Random random = new Random();

        int i = random.nextInt(num) % num;

        return yValues.get(i).getY();

    }

    // Q(x,y) = R(x,y) + 0.8 * max(Q(y,i))

    public int calculateNewQ(int x, int y, int qy)

    {

        return (int) (R.get(x, y) + 0.8 * Q.get(y, qy));

    }

    public static class YAndValue implements Comparable<YAndValue>

    {

        int y;

        int value;

        public int getY() {

            return y;

        }

        public void setY(int y) {

            this.y = y;

        }

        public int getValue() {

            return value;

        }

        public void setValue(int value) {

            this.value = value;

        }

        public YAndValue(int y, int value)

        {

            this.y = y;

            this.value = value;

        }

        public int compareTo(YAndValue o)

        {

            return o.getValue() - this.value;

        }

    }

}

package com.coshaho.learn.qlearning;

/**

 *

 * FeedbackMatrix.java Create on 2017年9月4日 下午9:52:41

 *

 * 类功能说明:   反馈矩阵

 *

 * Copyright: Copyright(c) 2013

 * Company: COSHAHO

 * @Version 1.0

 * @Author coshaho

 */

public class FeedbackMatrix

{

    public int get(int x, int y)

    {

        return R[x][y];

    }

    public int[] getRow(int x)

    {

        return R[x];

    }

    private static int[][] R = new int[6][6];

    static

    {

        R[0][0] = -1;

        R[0][1] = -1;

        R[0][2] = -1;

        R[0][3] = -1;

        R[0][4] = 0;

        R[0][5] = -1;

        R[1][0] = -1;

        R[1][1] = -1;

        R[1][2] = -1;

        R[1][3] = 0;

        R[1][4] = -1;

        R[1][5] = 100;

        R[2][0] = -1;

        R[2][1] = -1;

        R[2][2] = -1;

        R[2][3] = 0;

        R[2][4] = -1;

        R[2][5] = -1;

        R[3][0] = -1;

        R[3][1] = 0;

        R[3][2] = 0;

        R[3][3] = -1;

        R[3][4] = 0;

        R[3][5] = -1;

        R[4][0] = 0;

        R[4][1] = -1;

        R[4][2] = -1;

        R[4][3] = 0;

        R[4][4] = -1;

        R[4][5] = 100;

        R[5][0] = -1;

        R[5][1] = 0;

        R[5][2] = -1;

        R[5][3] = -1;

        R[5][4] = 0;

        R[5][5] = 100;

    }

}

package com.coshaho.learn.qlearning;

/**

 *

 * ExperienceMatrix.java Create on 2017年9月4日 下午10:03:08

 *

 * 类功能说明:   经验矩阵

 *

 * Copyright: Copyright(c) 2013

 * Company: COSHAHO

 * @Version 1.0

 * @Author coshaho

 */

public class ExperienceMatrix

{

    public int get(int x, int y)

    {

        return Q[x][y];

    }

    public int[] getRow(int x)

    {

        return Q[x];

    }

    public void set(int x, int y, int value)

    {

        Q[x][y] = value;

    }

    public void print()

    {

        for(int i = 0; i < 6; i++)

        {

            for(int j = 0; j < 6; j++)

            {

                String s = Q[i][j] + "  ";

                if(Q[i][j] < 10)

                {

                    s = s + "  ";

                }

                else if(Q[i][j] < 100)

                {

                    s = s + " ";

                }

                System.out.print(s);

            }

            System.out.println();

        }

    }

    private static int[][] Q = new int[6][6];

    static

    {

        Q[0][0] = 0;

        Q[0][1] = 0;

        Q[0][2] = 0;

        Q[0][3] = 0;

        Q[0][4] = 0;

        Q[0][5] = 0;

        Q[1][0] = 0;

        Q[1][1] = 0;

        Q[1][2] = 0;

        Q[1][3] = 0;

        Q[1][4] = 0;

        Q[1][5] = 0;

        Q[2][0] = 0;

        Q[2][1] = 0;

        Q[2][2] = 0;

        Q[2][3] = 0;

        Q[2][4] = 0;

        Q[2][5] = 0;

        Q[3][0] = 0;

        Q[3][1] = 0;

        Q[3][2] = 0;

        Q[3][3] = 0;

        Q[3][4] = 0;

        Q[3][5] = 0;

        Q[4][0] = 0;

        Q[4][1] = 0;

        Q[4][2] = 0;

        Q[4][3] = 0;

        Q[4][4] = 0;

        Q[4][5] = 0;

        Q[5][0] = 0;

        Q[5][1] = 0;

        Q[5][2] = 0;

        Q[5][3] = 0;

        Q[5][4] = 0;

        Q[5][5] = 0;

    }

}

经过500次计算得到如下结果

第499次学习, 初始房间是1

0    0    0    0    396  0

0    0    0    316  0    496

0    0    0    316  0    0

0    396  252  0    396  0

316  0    0    316  0    496

0    396  0    0    396  496

此时，我们从任意一个房间进入，每次选取最高分值步骤移动，总可以找到最短的逃离路径。

Q-learning简明实例Java代码实现的更多相关文章

实例: Java代码操作oracle数据库(JDBC+sevrlet+jsp+html)
1, 注册页面 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Strict//EN" "http://www.w3.or ...
Kettle变量和自己定义java代码的实例应用
1 kettle.properties參数配置数据源连接和FTP连接因为測试环境和生产环境中数据库连接FTP等配置会在部署过程中变更,所以预先定义成配置项,在配置文件里改动.这样測试和公布将会变得 ...
强化学习_Deep Q Learning(DQN)_代码解析
Deep Q Learning 使用gym的CartPole作为环境,使用QDN解决离散动作空间的问题. 一.导入需要的包和定义超参数 import tensorflow as tf import n ...
ActiveMQ——activemq的使用java代码实例（精选）
ActiveMQ 在java中的使用,通过单例模式.工厂实现 Jms规范里的两种message传输方式Topic和Queue,两者的对比如下表(): Topic Queue 概要 Publish ...
java代码的初始化过程研究
刚刚在ITeye上看到一篇关于java代码初始化的文章,看到代码我试着推理了下结果,虽然是大学时代学的知识了,没想到还能做对.(看来自己大学时掌握的基础还算不错,(*^__^*) 嘻嘻……)但 ...
使用Java代码实现对宽带的连接
对于多个类似的用户名相同的密码,运行java代码实现对宽带的自动连接这是源代码: import java.io.BufferedReader; import java.io.IOException; ...
JavaBean 基础概念、使用实例及代码分析
JavaBean 基础概念.使用实例及代码分析 JavaBean的概念 JavaBean是一种可重复使用的.且跨平台的软件组件. JavaBean可分为两种:一种是有用户界面的(有UI的):另一种是没 ...
Java代码规范
Java代码规范本Java代码规范以SUN的标准Java代码规范为基础,为适应我们公司的实际需要,可能会做一些修改.本文档中没有说明的地方,请参看SUN Java标准代码规范.如果两边有冲突,以SU ...
Java代码实现excel数据导入到Oracle
1.首先需要两个jar包jxl.jar,ojdbc.jar(注意版本,版本不合适会报版本错误)2.代码: Java代码 import java.io.File; import java.io.Fi ...

随机推荐

H3C系列之三层交换机dhcp功能的开启
环境介绍>>>>>>>>>>>>>>>>>>>>交换机名牌:H3C交换机类型:三 ...
tomcat如何配置context的docBase
docbase是web应用和本地路径,path是tomcat访问这个应用的URL路径.Tomcat的项目部署方式有以下三种:1.直接把项目复制到Tomcat安装目录的webapps目录中,这是最简单的 ...
Python之时间模块
1,怎么打印时间戳 2,怎么打印日期 3,怎么把字符串转换成python认识的日期把日期转换成字符串字符串转换成日期格式 time.strptime("2017-5-16",& ...
SVN cleanup 报错，清除svn的工作队列
SVN 提交报错, Team->cleanup还是报错: Can't install '*' from pristine store, because no checksum is record ...
CSS垂直导航栏
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
win7 链接打印机时提示未知的用户名或错误密码
使用win7系统时,访问局域网内的计算机 \\ip 要求输入正确用户名和密码,输入用户名和密码后,还是一直提示“未知的用户名或错误密码”. 解决方法: 开始---->运行打开组策略编辑器 gp ...
Rotate Image(二位数组顺时针旋转)
问题描述: You are given an n x n 2D matrix representing an image. Rotate the image by 90 degrees (clockw ...
迷宫问题---poj3984（bfs，输出路径问题）
题目链接主要就是输出路径问题: pre[x][y]表示到达(x,y)是由点(pre[x][y].x, pre[x][y].y)而来: #include<stdio.h> #includ ...
高并发秒杀系统方案（集成Mybatis和Redis）
1.集成Mybatis 第一步,添加依赖: <dependency> <groupId>org.mybatis.spring.boot</groupId> < ...
SQL SERVER - 谁更改了SQL登录密码？
转自:https://blog.sqlauthority.com/2016/04/03/sql-server-changed-password-sql-login-interview-question ...

Q-learning简明实例Java代码实现

Q-learning简明实例Java代码实现的更多相关文章

随机推荐

热门专题