wap网站是什么意思,网站开发课程心得,广州市地图最新版 高清晰,wordpress添加商品目录 前言 1.Python基础
2.Numpy基础 3.多臂赌博机
参考文献 前言 本文内容来自于南京大学郭宪老师在博文视点学院录制的视频#xff0c;课程仅9元地址#xff0c;配套书籍为深入浅出强化学习 编程实战 郭宪地址。 1.Python基础
1. print()
可以用该语句查看当前数据的情…目录 前言 1.Python基础
2.Numpy基础 3.多臂赌博机
参考文献 前言 本文内容来自于南京大学郭宪老师在博文视点学院录制的视频课程仅9元地址配套书籍为深入浅出强化学习 编程实战 郭宪地址。 1.Python基础
1. print()
可以用该语句查看当前数据的情况验证数据过程是否正确也就是验证代码写的是否正确。
2. if...else... 3. for循环
4. while循环 5. 函数定义
6. 类
数据成员
函数成员 子类初始化时要用super()(本质上还是对基类进行初始化) 2.Numpy基础 3.多臂赌博机 多臂赌博机希望可以得到摇动N次后得到到最高的回报对于该赌博机有回报模型摇一次出多少币是确定的但没有状态转移模型所以是一个无模型问题。 以下图为例在多臂赌博机中动作a[012]分别代表对三个摇臂的动作而每个摇臂对应不同回报所以服从三个回报状态s在本例中较为简单对某一个摇臂动作然后返回初始状态再继续对某一个摇臂动作再返回初始状态......循环往复。本例中的评估基于行为值函数本质上是对当前动作回报值的计算期望也就是摇N次对回报取平均值。我们需要分别得到三个摇臂的qq(a1),q(a2),q(a3)。 进而我们看一下实现的过程假设q[0],q[1],q[2]的期望未知分别是1106满足正态分布初始化时我们对每一个摇臂进行一次实验分别得到346个金币根据贪婪策略选回报最大动作也就是摇臂3连续执行十次按照期望正态分布得到60金币但如果选择摇臂2十次后可得到100金币所以这时贪婪策略就不太合适。所以出现了探索-利用平衡策略利用就是用当前最好策略探索就是有一定概率选择其他不那么好的动作。 再看一下伪码和源码的对应关系。 代码中可修改的内容。 用到的三种策略
简单理解以摇臂赌博机为例第一次探索q[0]0.2,q[1]0.3,q[2]0.60.1此时有0.9的概率继续选择2的动作有0.1的概率选择1的动作这就增加的探索能力假设选择了动作1立即汇报为1.5,那么q[1]0.9成为最高的回报值下次有0.9被选择的概率。比较彼此回报时用的是平均回报 ucb分别计算不同动作的累计回报假设谁大选谁代表各自动作的平均回报值假设动作3的平均回报是0.6为最大但连续选择3次之后第四次n动作总次数变为4为动作123各自的次数那么此时对动作12而言较小n大所以对应的值会超过动作3以此实现探索。 bolzman简单理解是利用概率方式优先选回报最多的动作但对回报低的动作也有概率选择。 参考文献
1.深入浅出强化学习 编程实战 郭宪
2. 博文视点学院