太阳城集团

  • / 12
  • 下载费用:30 金币  

一种基于自举DQN的增强学习深度搜索方法.pdf

摘要
申请专利号:

太阳城集团CN201611207986.5

申请日:

2016.12.23

公开号:

太阳城集团CN106779072A

公开日:

2017.05.31

当前法律状态:

实审

有效性:

审中

法律详情: 实质审查的生效IPC(主分类):G06N 3/08申请日:20161223|||公开
IPC分类号: G06N3/08 主分类号: G06N3/08
申请人: 深圳市唯特视科技有限公司
发明人: 夏春秋
地址: 518057 广东省深圳市高新技术产业园区高新南一道009号中科研发园新产业孵化中心楼610室
优先权:
专利代理机构: 代理人:
PDF完整版下载: PDF下载
法律状态
申请(专利)号:

CN201611207986.5

授权太阳城集团号:

|||

法律状态太阳城集团日:

太阳城集团2017.06.23|||2017.05.31

法律状态类型:

实质审查的生效|||公开

摘要

本发明提出了一种基于自举DQN的增强学习深度搜索方法,主要内容包括自举Deep??Q??Network(DQN)、深度搜索和环境背景;其中自举Deep??Q??Network包括自举样本和自举DQN,深度搜索包括深度搜索测试和自举DQN驱动深度搜索,环境背景包括生成在线自举DQN和自举DQN驱动。自举DQN是一种结合了深度学习与深度探索的实用强化学习算法,证明了自举可以对深度神经网络产生有效的不确定性估计,也可扩展到大规模的并行系统,在多个太阳城集团步骤上对太阳城集团进行排序,保证样本的多样性;在复杂的环境中自举DQN作为有效的增强学习中的一种算法,并行处理大量数据,计算成本低,学习效率高,性能表现优异。

权利要求书

1.一种基于自举DQN的增强学习深度搜索方法,其特征在于,主要包括自举Deep Q
Network(DQN)、深度搜索和环境背景;其中自举Deep Q Network包括自举样本和自举DQN,
深度搜索包括深度搜索测试和自举DQN驱动深度搜索,环境背景包括生成在线自举DQN和自
举DQN驱动。
2.基于权利要求书1所述的自举样本,其特征在于,自举原则是近似人口分布的样本分
布最常见的形式,自举用来作为输入数据集D和输入估计从自举分布中生成样本,基数的
数据集相当于D通过更换均匀采样,自举样本估计采用该网络由一个含K个“头”
的独立分支的共享的框架组成,每一个“头”只在其自举子样本数据训练,代表一个单一的
自举样本共享网络学习所有数据的联合特征,提供显着的计算优势,在“头”之间
的多样性成本低;这种类型的自举可以在单一向前/向后传递有效地训练,我们训练一个完
全连接的2层神经网络,每层有50线性单元(ReLU),样本数据中50个自举样品,作为标准,我
们用随机参数值初始化这些网络,获得模型中重要的初始多样性。
3.基于权利要求书1所述的自举DQN,其特征在于,对于一个策略π,我们定义一个在状
态s的动作值a,

其中γ∈(0,1)是一个贴现因素,平衡即时与未来的反馈值rt;表明初始状态s,初始动
作是a,之后策略π选择动作,最优值为:
Q*(s,a):=maxπQπ(s,a) (2)
扩展到更大的网络,学习Q值函数的参数估计Q(s,a;θ),使用神经网络来估计这个值;
Q-学习从状态s、动作值a、反馈值rt进行更新,新状态st+1通过下式确定:
<mrow> <msub> <mi>&theta;</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>&LeftArrow;</mo> <msub> <mi>&theta;</mi> <mi>t</mi> </msub> <mo>+</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <msubsup> <mi>y</mi> <mi>t</mi> <mi>Q</mi> </msubsup> <mo>-</mo> <mi>Q</mi> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>;</mo> <msub> <mi>&theta;</mi> <mi>t</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <msub> <mo>&dtri;</mo> <mi>&theta;</mi> </msub> <mi>Q</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>;</mo> <msub> <mi>&theta;</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
其中α是标量学习率,是目标值rt+γmaxaQ(st+1,a;θ-),θ-是目标网络参数,固定为θ-
=θt;
Q-学习的更新提高DQN稳定性,首先,采用从经验缓冲的采样转换的算法学习,而不是
完全在线学习;其次,该算法使用参数θ-的目标网络,该参数从学习网络θ-←θt复制,每τ的
太阳城集团步更新之间保持固定;双DQN修改目标有助于进行下一步:
<mrow> <msubsup> <mi>y</mi> <mi>t</mi> <mi>Q</mi> </msubsup> <mo>&LeftArrow;</mo> <msub> <mi>r</mi> <mi>t</mi> </msub> <mo>+</mo> <mi>&gamma;</mi> <munder> <mi>max</mi> <mi>a</mi> </munder> <mi>Q</mi> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>arg</mi> <munder> <mi>max</mi> <mi>a</mi> </munder> <mi>Q</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>a</mi> <mo>;</mo> <msub> <mi>&theta;</mi> <mi>t</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>;</mo> <msup> <mi>&theta;</mi> <mo>-</mo> </msup> </mrow> <mo>)</mo> <mo>)</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
自举DQN通过自举修改DQN近似分布的Q值,在每一集的开始,自举DQN样品从近似后验
单值函数,然后个体根据策略使样品在这段太阳城集团最优;我们有效地实现了这个算法,建立K
∈N自举估计Q值函数的并联;重要的是,这些函数“头”的每一个Qk(s,a;θ)对自己的目标网
络Qk(s,a;θ-)进行培训,每个Q1,…,Qk提供太阳城集团延长估计值的不确定性通过TD估计;为了跟
踪哪些数据属于哪个自举“头”我们存储的标志w1,…,wk∈{0,1},说明这“头”参与哪些数
据;我们选择k={1,…,K}的引导样本作为近似随机。
4.基于权利要求书1所述的深度搜索,其特征在于,不确定性估计允许个体直接搜索其
潜在的太阳城集团状态和行动;这个选择定向的搜索,定向搜索无法保证效率,搜索一定要保证深
度;深度搜索意味着在多个太阳城集团步长上进行的搜索,增强学习(RL)需要在几个太阳城集团步骤设
置,有效的实体需要考虑多个太阳城集团步长之后的反馈值,即有效的搜索需要考虑既不立即反
馈,也不立即获得太阳城集团;为了说明这种区别,考虑一个简单的确定链{s-3,…,s+3}从状态s0开
始,确定性行动“左”和“右”,所有状态都有零反馈,除了最左边的状态s-3,已知反馈值∈>0,
最右边的s3状态未知;为了从s0三步内达到奖励反馈状态或获取太阳城集团状态;实体必须计划在
几个太阳城集团步长一致的策略。
5.基于权利要求书1所述的深度搜索测试,其特征在于,为了突出深度搜索的必要性,
进行深度搜索测试,环境可以通过长度N>3的链来描述,代理重置为初始状态s2之后活动的
每一段持续N+9步,考虑两个特征映射:


在{0,1}N中,获得的结果φtherm在所有DQN变种中更好的泛化,当它已经成功地完成了
一百集最佳反馈值为10,该算法已经成功地学习了最佳的政策,对于每个链的长度,我们跑
了2000个学习算法跨越三个步长。
6.基于权利要求书1所述的自举DQN驱动深度搜索,其特征在于,自举DQN直接采用样本
值函数,所以不需要进一步的规划步骤,该算法和PRLSVL类似,但采用了神经网络代替线性
值函数,自举代替高斯采样;线性设置的分析表明,这种非线性的方法可以很好地工作,只
要分布{Q1,…,QK}保持随机性;自举DQN依赖网络的权值随机初始化获得优先诱导的多样
性,初始的多样性足够维持不同的归纳和新的以及看不见的大而深的神经网络状态,通过
使用人工先验数据维持多样性;
自举DQN不需要任何单一网络QK在每一步初始化选择“正确”的政策,只需要用多样化的
方式概括网络到行动,网络使它的状态达到为止;只要一个“头”K的
则自举TD可以返回这个信号s=1,通过目标网络带动深度搜索。
7.基于权利要求书1所述的学习环境,其特征在于,通过50个游戏学习环境评价算法,
事实上,许多游戏是结构化的,自举DQN达到峰值性能大致和DQN相似,改进的深度搜索近似
人类的方式,通过学习显著提高累积反馈,遵循网络架构和基准的设置,网络结构和DQN的
卷积结构相同,除了我们在卷积层之后分裂10个独立的自举“头”。
8.基于权利要求书1所述的生成在线自举DQN,其特征在于,生成在线自举DQN样本计算
有效的方式,为了保持计算成本与DQN有可比性,我们专注于两个关键问题:需要多少自举
“头”,我们应该如何通过梯度的共享网络;对不同“头”K,更多“头”数导致更快的学习,当K
值增加到10之后数量继续增加,学习效率的增加不太明显,我们选择K=10;共享的网络体
系结构允许我们通过反向传播训练这个组合网络,K网络“头”有效共享卷积网络增加了这
部分的网络学习率,在一些游戏中,这会导致早熟和次优收敛,最终选用最好的梯度1/K的
正常化,但这也导致早期学习较慢。
9.基于权利要求书1所述的自举DQN驱动,其特征在于,自举DQN驱动在一些游戏中进行
有效搜索,对于相同数量的游戏体验,自举DQN的性能表现一般优于DQN的∈-贪婪算法搜
索,在游戏中DQN表现良好,自举DQN通常表现的更好。
10.基于权利要求书9所述的性能表现,其特征在于,自举DQN比DQN学得快,自举DQN提
高了大部分游戏的最后得分,然而,有效的搜索真正的好处意味着自举DQN比DQN通过学习
累积的反馈按数量级要好的多。

关 键 词:
一种 基于 DQN 增强 学习 深度 搜索 方法
  专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
太阳城集团本文
本文标题:一种基于自举DQN的增强学习深度搜索方法.pdf
链接地址:http://zh228.com/p-6019718.html
太阳城集团我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

copyright@ 2017-2018 zhuanlichaxun.net网站版权所有
经营许可证编号:粤ICP备17046363号-1 
 


收起
展开
葡京赌场|welcome document.write ('');