基于集成的多深度确定性策略梯度的无人驾驶策略研究

  • 基于集成的多深度确定性策略梯度的无人驾驶策略研究已关闭评论
  • 28 views
  • A+
所属分类:AGV设计资料
摘要

随着人工智能的迅速发展,无人驾驶成为了当今学术界与工业界备受追捧的研究热点,其相关技术研究可以减缓或消除传统人类驾驶存在的交通事故频发、交通拥堵严重等问题,对于解决传统汽车工业无法避免的问题极具现实意义。本文将深度强化学习技术应用于虚拟仿真环境下车辆的无人驾驶研究,提出了一种无人驾驶控制策略学习的方法。本文基于深度确定性策略梯度(DDPG)算法,针对其训练不稳定、训练时间长的弊端,提出了用于无人驾驶控制策略学习的集成的多深度确定性策略梯度(AMDDPG)算法。该算法首先通过多DDPG结构,结合两种不同的训练模式,并行地学习多个次优的子策略,然后使用策略集成的方法对多个次优子策略进行集成,得到最终的控制策略。多DDPG的结构融合了中央经验回放池技术,有效地打破训练数据之间的关联性,提高了数据的利用率。为快速验证AMDDPG算法用于无人驾驶控制策略学习的可行性与有效性,并避免真车实验成本高与安全性无法保障等各种弊端,本文基于所设计的算法与TORCS仿真平台,搭建了无人驾驶控制策略研究的仿真系统,并根据对受控制车辆的快速行驶、弯道刹车和靠近车道中轴线等行为的期望,提出了多个乘积项累积的回报函数形式,通过极大化回报值的方式约束受控制车辆的行为。本文最后进行虚拟环境下的无人驾驶汽车仿真实验,并对学习而得的集成策略进行性能的测试。实验数据表明,相对于原始DDPG算法,本文所设计的AMDDPG算法对无人驾驶控制策略的学习过程更稳定,可以把训练时间降低56.7%。此外,实验数据验证了集成策略的性能表现优于子策略的结论,并证明了集成策略较强的泛化能力,最后基于实际应用条件得出了用于策略集成的合适的子策略数量范围为3-10个。经由仿真环境中的结果表明,本文所设计的算法能有效地用于无人驾驶控制策略的学习,本文所使用的研究思路是有效可行的。

论文目录

摘要
Abstract
第1章 绪论
1.1 选题背景
1.2 研究的目的及意义
1.3 国内外研究现状分析
1.3.1 无人驾驶的国内外研究现状
1.3.2 深度强化学习的国内外研究现状
1.4 论文主要研究内容与创新点
1.4.1 论文主要研究内容
1.4.2 论文创新点
1.5 论文章节安排
第2章 深度强化学习理论基础
2.1 深度学习理论基础
2.1.1 神经网络的结构
2.1.2 神经网络的训练
2.1.3 深度学习模型
2.2 强化学习方法
2.2.1 强化学习框架与基本概念
2.2.2 基于值函数的强化学习方法
2.2.3 基于策略梯度的强化学习方法
2.3 基于深度学习的强化学习
2.3.1 深度Q网络算法(DQN)
2.3.2 深度确定性策略梯度算法(DDPG)
2.4 本章小结
第3章 集成的多深度确定策略梯度算法设计
3.1 集成的多深度确定性策略梯度(AMDDPG)算法
3.1.1 多个深度确定性策略梯度的集成学习结构
3.1.2 策略集成分析
3.1.3 中央经验回放池技术
3.1.4 训练模式与算法描述
3.2 本章小结
第4章 无人驾驶仿真系统架构设计
4.1 TORCS仿真平台简介
4.2 仿真环境的接口设计
4.3 仿真环境状态信息
4.4 仿真车辆的控制指令
4.5 无人驾驶仿真系统架构
4.6 本章小结
第5章 实验与结果分析
5.1 实验的软硬件环境
5.2 网络结构层次设计
5.3 回报函数设计
5.4 网络权重预训练
5.5 实验结果分析
5.5.1 学习曲线
5.5.2 训练时间
5.5.3 子策略集成的效果
5.5.4 集成策略的泛化性能
5.5.5 子策略数量对集成策略的影响
5.6 本章小结
第6章 总结与展望
6.1 研究总结
6.2 研究展望
参考文献
致谢
作者简历及攻读学位期间发表的学术论文与研究成果

抱歉,此资源仅限赞助会员下载,请先
注意:本站资源多为网络收集,如涉及版权问题请及时与站长联系QQ:2766242327,我们会在第一时间内与您协商解决。如非特殊说明,本站所有资源解压密码均为:agvba.com。
weinxin
微信公众号
agvba是一个分享AGV知识和agv案例视频的网站。