一种因式 SARSA(λ) 激励学习算法

一种因式 SARSA(λ) 激励学习算法

一、一个因素化SARSA(λ)激励学习算法(论文文献综述)

张文旭[1](2018)在《基于一致性与事件驱动的强化学习研究》文中提出强化学习是一种重要的机器学习方法,通过试错的方式来求解问题,具有学习结构简单,自适应性强等特点,在机器博弈、机器人自主导航和市场决策等领域显示出很大的发展潜力,为解决智能系统知识获取的瓶颈问题提供了一个可行之法。论文围绕如何提高强化学习的效率这一科学问题,从强化学习过程中智能体间的通信方式、强化学习的算法结构和强化学习的策略搜索方式三个方面着手进行研究,建立了分布式局部可观测马尔科夫过程、多智能体强化学习和局部通信之间的理论纽带,为发展基于事件驱动思想的强化学习理论打下了基础。针对大规模多智能体应用中的观测局部性和不确定性问题,围绕分布式局部可观测马尔科夫模型,提出一种基于一致性协议的多智能体强化学习算法。对于一个分布式学习环境,强化学习的要素在局部观测情况下往往难以进行有效描述,且每一个独立智能体的学习行为都受其队友的影响。所提算法利用一致性协议使所有智能体对观测环境达成共识,剔除了重复观测生成的部分策略;针对智能体感知能力有限并随空间变化的特性,引入观测可信度来评估智能体对当前观测的可靠程度。仿真实验表明,观测可信度可以提高团队对观测目标的共识程度,基于一致性协议的学习算法减小了多智能体的策略空间,加快了学习速度。针对多智能体强化学习过程中通信与计算资源消耗大的问题,提出一种基于事件驱动的多智能体强化学习算法。传统的强化学习算法需要周期性的通信和策略搜索,造成了部分不必要的通信和计算资源消耗。所提算法根据智能体观测信息的变化率定义触发函数,使通信和策略搜索间歇性地进行,整体学习过程由周期性转变为非周期性。仿真实验表明,事件驱动的方式可以减少通信和策略遍历次数,降低了通信和计算资源消耗。对一些收敛速度要求不高的学习问题,以收敛速度为代价来减少通信和计算资源的消耗是可取的思路。针对如何平衡启发式强化学习中策略搜索范围与学习速度的关系问题,提出一类基于事件驱动的启发式强化学习算法。首先,针对启发式学习中先验知识获取程度不明确问题,设计了基于事件驱动的先验知识获取判断机制。对于启发式学习过程,从自身的经历获取先验知识是启发式函数的一种设计方法,先验知识的优劣往往决定了搜索的速度与解的好坏。所提算法利用智能体学习步数和Q值表F范数的变化率两种方式设计触发函数,使先验知识的获取过程由固定方式转变为灵活方式;其次,针对启发式学习以约束策略搜索范围为代价提高学习速度的问题,提出了一种基于事件驱动的启发式强化学习算法。根据智能体观测信息的变化情况设计触发函数,使智能体选择性地对学习过程进行启发,在保证一定学习速度的情况下扩大了策略搜索范围。仿真实验表明,智能体可以更有效地从自身经历中获取先验知识,且更好地平衡启发式学习中最优策略与收敛速度的关系。

诸葛程晨[2](2018)在《复杂环境下的地面无人车辆路径规划算法研究》文中研究说明地面无人车辆是一种能够在各种地面环境中自主行驶的智能车辆,是机器人研究领域中的重要分支,涉及机械、光学、电子信息、计算机科学与技术、人工智能及自动化等多学科领域,其发展对国防、社会、经济和科学技术具有重大的影响。地面无人车辆面对的环境基本要素包含了地表状况(如覆盖介质、植被、平顺度、障碍等),天气和光照条件,电磁、交通信号以及声音等因素。复杂环境则意味着环境信息可能是部分或者完全未知,并且可能是杂乱、动态变化的。倘若再加上传感器技术和环境感知算法的局限性,那么地面无人车辆便需要在一个不完备、不确切,甚至是存在矛盾的环境模型中做出规划决策,这对其核心技术之一“路径规划”的灵活应变能力提出了较高的要求。本文首先介绍了国内外地面无人车辆的发展现状,然后对常用的路径规划及算法进行了归纳总结;在此基础上,结合我国“十二五”地面无人车辆在复杂环境中自主规划的工程需要,在以下三个方面开展工作:(1)部分环境信息未知情况下的静态避障算法。(2)无道路约束时的动态避障算法。(3)缺少道路模型时的非结构化道路路径规划算法。论文的主要创新性工作如下:(1)在考虑了地面无人车辆的非完整性运动学模型基础上,提出了基于模糊Q学习的改进Morphin算法。通过构造多层Morphin搜索树,扩展了地面无人车辆在未知区域内的搜索方向,提高了其灵活避障的能力。同时构建可通行率、安全性和目标趋向性三个评估函数对搜索树评估,并利用模糊Q学习来对评估函数的加权因子进行学习,使得地面无人车辆具备动态行为能力。实验表明,该算法能够有效提高地面无人车辆的局部避障能力。(2)建立了一种碰撞检测模型——碰撞检测圆,并提出了一种基于碰撞时间直方图的动态避障算法。利用碰撞检测模型计算出车辆所有可行驶方向上会与障碍物发生碰撞的时间并构造出碰撞时间直方图。在此基础上,设计了行为规划模块以及速度规划模块,在两者综合决策下得到车辆当前规划的执行转向角以及速度。仿真对比实验验证了本文算法在复杂动态环境中有效性。(3)针对非结构化道路两侧障碍物信息通常隐含了道路边界的特点,提出了一种基于栅格地图以及SVM的局部路径规划算法。该算法利用非线性SVM在栅格地图上提取出安全路径,然后将连续多帧安全路径投影至同一局部坐标系下,再使用RANSAC算法来估计道路模型。最后结合地面无人车辆自身状态优化得到最终规划路径。该算法能够有效地从局部栅格地图中提取道路,以弥补基于视觉的道路检测算法性能在受到恶劣光照、天气影响时的不足。

陈恒[3](2013)在《嵌入式软件状态监测与自恢复技术研究》文中研究指明随着计算机技术与微电子技术的高速发展,人们对嵌入式系统的应用已经普及到社会的各个角落。伴随着嵌入式软件复杂性的不断提高,嵌入式系统自身的隐患也越来越多,嵌入式软件在运行的过程中一旦出现系统故障或软件失效,将很难完成使命,甚至有可能对用户造成巨大的财产损失。因此,对嵌入式软件可靠性的研究,已经成为当下的热门研究方向。本文以VxWorks下的嵌入式软件为研究对象,对嵌入式软件状态监测与自恢复技术进行研究。论文的主要工作如下:首先,阐述了嵌入式软件状态监测与自恢复技术的国内外研究现状,简要的介绍了本课题的研究背景及意义,给出了论文的主要研究内容;主要介绍了嵌入式软件自恢复相关技术,包括介绍了嵌入式软件自恢复的必要性和研究过程中存在的主要问题;分别讲述了两种常用的嵌入式软件自恢复策略以及各自的优缺点;详细介绍了软件自恢复策略中最常用的修复技术——微重启技术。其次,分别从嵌入式系统性能和嵌入式软件行为两个方面对嵌入式的软件状态监测方法进行了研究。在系统性能监测方法研究方面,分别对系统内存可用量、任务自身的运行状态、CPU和任务堆栈的占用情况四个指标的监测方法进行了深入研究;同时提出了一种嵌入式软件衰老趋势分析的方法;并利用最小二乘法进行曲线拟合,采用了一种基于阈值的嵌入式软件失效时间估计方法。在软件行为监测方法研究方面,运用了一种构建软件行为树的方法来进行软件行为监测,并介绍了软件行为树中节点的分类、构建软件行为树的方法和软件行为树中行为的匹配规则。再次,结合VxWorks操作系统自身的特点,提出了一种适合嵌入式软件的嵌套式自恢复策略;分别介绍了基于系统性能监测的嵌入式软件自恢复策略和基于软件行为监测的嵌入式软件自恢复策略的详细流程。在第三章嵌入式软件状态监测结果的基础上,用所选择的监测指标构建状态空间;根据所选择指标的异常状态所对应的修复行为,构建动作空间,给出了修复动作评价模型;采用SARSA(λ)算法进行自恢复决策规则强化学习,在此基础上采用了一种基于规则的嵌入式软件自恢复决策方法。最后,对前面提出的嵌入式软件状态监测方法和嵌入式软件自恢复策略进行实验验证,证实了方法的有效性和可行性;最后通过比较,证明了本文采用的嵌套式自恢复策略的优越性。

吴俊[4](2012)在《提高RoboCup执行效率的激励学习算法研究》文中研究说明当前,机器人足球比赛已经成为人工智能领域的一个研究热点。它融合了人工智能、智能控制、实时视觉等多科学知识。机器人足球比赛可以看作是一个典型的智能系统,与此同时又为智能系统的理论研究和实践测试提供了一个合适的检验平台。然而实体的机器人足球比赛对硬件的条件的要求相当高,往往在一定程度上限制了机器人足球比赛的迅速发展。为了检验各种智能算法能否很好地应用到机器人足球比赛,因此很有必要开发机器人足球仿真比赛平台。通过标准的实验仿真平台,大大加快了智能体系统在模拟现实对抗环境中各种理论和算法的深入研究。因此机器人足球仿真比赛成为智能机器人领域主要研究方面之一。本文主要研究的工作如下:首先,对机器人足球比赛仿真平台模型和应用做深入的研究,这是建立机器人足球队的最根本工作。然后,分析微软轮式足球平台MSRS 5vs5和机器人小车的相关技术,并详细地提出了该平台具体使用方法、比赛相关规则和机器人小车动力学的知识。其次,较为全面地分析和整理了激励学习的理论框架和最新进展。把理论上已有发展的Swarm激励学习算法,成功地应用到机器人足球仿真比赛的射门、带球和截球等技术动作当中,以达到融合人工经验和在线学习的目的。最后,Swarm激励学习算法应用到机器人足球比赛仿真平台MSRS 5VS5的比赛策略中,进行了比赛环境的离散化、动作函数和奖赏函数的设计。通过仿真比赛检验实验数据和结果。通过与采用Sarsa学习算法的球队在进球能力、截球能力、学习能力方面进行比较,验证Swarm学习算法的优越性。

刘飞[5](2012)在《强化学习在足球机器人仿真中的应用》文中提出机器人足球的研究涉及了人工智能、机器人学、计算机视觉及智能控制等多个领域,是目前机器人研究中的一个热点。由于机器人足球具有分布性、实时性、动态性、异步性等特点,使其成为分布式人工智能研究的一个标准的平台。仿真足球机器人比赛相对于实体比赛而言有不需要昂贵的高性能设备、环境要求低等优点,仿真比赛可以从软件来模拟实体比赛,学者可以将更多的算法应用于该平台,从而检验这些算法的优劣。强化学习不需要具备先验的知识,它可以直接通过与环境的交互来获取知识,从而改变策略。由于强化学习具有不需要环境模型、能够处理噪声的干扰和随机性的特性,当状态空间很大的时候也可以通过状态压缩、函数近似等方法来解决。所以强化学习在足球机器人中得到了很广泛的应用。本文首先对足球机器人的研究背景和现实意义进行了简单的介绍,并介绍了所使用的仿真平台。其次,研究了强化学习的基本原理,并研究了几种经典的强化学习算法,即瞬时差分算法、Q算法和SARSA算法。最后,将SARSA学习算法应用在单智能体仿真环境中,使用强化学习方法时需要考虑状态的离散化,动作函数的设计,奖赏函数的设计,动作选择的方法等方面。将一种改进的SARSA学习算法应用在多智能体环境中,使智能体的学习效率更高,并与SARSA算法的实验效果进行比对,验证了这种改进的算法的优越性。

王明明[6](2009)在《基于强化学习的机械臂控制研究》文中认为随着机器人在实际生活中的应用越来越广泛,人们对机器人的智能提出了新的要求。将强化学习应用到机械臂控制中,正在成为人工智能领域新的研究热点。强化学习主要是一个“怎样做”-“怎样使状态与动作映射”-“怎样最大化奖赏信号”的学习过程。强化学习不需要环境的完整模型,智能体通过与环境的交互不断学习,获得知识以完成任务,在人工智能方面特别是机器人控制方面得到越来越多的应用。本文主要研究机械臂控制问题,分析了现有学习方法,并将强化学习应用到机械臂控制上来。本文将研究对象系统学习模型通过一定的分析和简化,转化为一个平面4自由度的机械臂的学习系统,并对这个系统进行研究,将系统的环境状态变量细化,明确了系统变量和实际研究内容,同时对整个学习控制系统进行了简单的数学描述。针对强化学习收敛慢和容易出现“维度灾”缺点,将学习系统中的连续状态空间进行分析和处理,转化为离散的状态空间,以适合强化学习的应用;并分析系统的信度分配,重点分析了时间信度分配和结构信度分配,提出了解决方法。通过分析与对比几种主要强化学习方法,研究了强化学习模型和关键元素,找到适合本文使用的基本强化学习方法,结合两层强化学习思想,给出了本文系统的具体方法。在Windows操作系统下使用VC++2003.net编写了一个适合本文研究的仿真实验平台,对照实际环境分析了仿真实验的环境状态,并对算法的关键参数做了简单分析,进行了一般强化学习方法和本文所用强化学习方法的仿真实验,通过对比两种实验的结果,证明了强化学习方法的有效性以及本文方法的合理性。

戴帅[7](2009)在《基于因素化表示的强化学习方法研究》文中研究表明强化学习是随机环境中解决决策问题一种有效的方法。然而,在大状态空间,特别是在复杂随机状态下的应用领域,它仍然没有解决“维数灾难”的问题。目前,因素化强化学习作为强化学习在时间和空间上的扩展,已经被证明比强化学习更适合解决大状态随机控制问题,在机器人导航等方面有着广阔的应用前景。但是,目前的研究工作集中在学习前状态空间的前期处理,对学习过程缺乏深入研究。本文围绕强化学习前的状态空间的前期处理以及学习过程中值函数的值的存储和表示,对以下方面进行了研究和探讨:文章首先介绍了因素化学习的基本学习理论和研究进展,并对四种典型的强化学习算法作了分析比较,分析了它们的各自特点和适用情况,为后面的工作中算法的选择提供了基础。其次提出了改进的基于因素化表示的动态规划方法,针对动态规划方法中求解精确的Vπ值计算量复杂的问题,提出了改进的使用生成Vπ的线性近似值以获取算法的加速的方法;针对传统强化学习算法使用值函数Look-up表存储和表示值函数的值存在着的冗余度过高的问题,提出了决策树方法,并在后面的仿真实验中验证算法效果。最后提出了一种新的基于因素法方法的TD(λ)算法。其基本思想是状态因素化表示,通过动态贝叶斯网络(Dynamic Bayes Networks ,DBNs)表示Markov决策过程(Markov decision Process ,MDP)中的状态概率转移函数,结合决策树(decision tree)表示TD(λ)算法中的状态值函数的值,大大降低了状态空间的搜索与计算复杂度、以及数据的冗余度,因而适用于求解大状态空间的MDPs问题,对照实验证明了该表示方法是有效的。

薛丽华[8](2008)在《多智能体协作学习方法的研究》文中认为在多Agent系统中,由于环境是动态变化的,其他Agent的行为是未知的,所以多Agent系统及系统中的每个Agent应当具备学习或自适应能力。强化学习作为一种不需要环境模型的机器学习方法,现已成为多Agent系统的研究热点。与此同时,由于单个Agent的资源和能力的有限性,需要多个Agent之间的协作来共同完成任务。本文的主要研究工作包括以下几个方面:(1)论文首先介绍了Agent和多Agent系统的研究基础,然后分别围绕多Agent学习方法、多Agent协作机制和强化学习三个方面简要阐述了多Agent协作学习的基础知识。(2)将黑板模型、融合算法以及强化学习技术相结合,提出了一种改进的多智能体协作学习方法。其中,黑板是一块共享的存储区域,可以实现信息共享;融合算法用来对共享信息进行融合;强化学习技术利用融合结果进行动作选择。(3)追捕问题是一个多Agent系统,同时存在多Agent之间的协作与竞争,被广泛用来测试人工智能领域的学习算法。本文利用追捕问题对改进的多智能体协作学习方法进行实例分析与仿真验证。实验结果表明,该方法能够有效地提高多Agent系统中Agent的协作学习能力。

易良[9](2007)在《基于激励学习和人工势场法的机器人路径规划》文中提出近年来,随着应用要求不断增强,机器人技术得到了持续发展。作为一门高科技综合学科,机器人技术的发展延伸出了许多新的技术研究领域,也带动了这些领域的技术发展。其中,路径规划技术作为机器人系统中的一项关键技术,受到研究者们地一致关注。至今,随着机器人技术地不断发展,涌现出了一系列的新型路径规划方法。本文旨在结合激励学习方法和人工势场法,提出一种新的机器人路径规划方法。该方法利用激励学习理论中的奖赏函数建立势函数形成势场,然后从势场中提取奇异特征形成子目标点,再通过给予一定启发条件在线探索子目标,从而实现机器人路径规划。传统人工势场法中局部最小值问题一直是备受关注的问题。恰恰相反,本文方法中由于恰当利用局部最小值点形成子目标点,变弊为利,从而不存在此问题的困扰。仿真实验表明此方法有良好的可行性和有效性。

陈圣磊[10](2006)在《强化学习及其在MAS协同概念设计中应用的研究》文中认为强化学习是机器学习中一个重要的研究领域。它强调在与环境的交互中学习,通过环境对不同行为的评价性反馈信号来改变强化学习系统的行为选择策略以实现学习目标。相比于监督学习、动态规划等研究方法,强化学习不需要教师信号,也不需要环境的状态转移模型,因此对于求解复杂的优化决策问题具有广阔的应用前景。强化学习在理论和算法研究方面已经取得了许多成果,成为求解序列决策优化问题的一类有效方法。从现代产品设计的特点来看,不同领域、不同地域的专家协同完成设计任务,已经成为一种普遍的设计方式。同时,计算机网络技术的快速发展,也为异地协同设计提供了有力的支持。在实际需求和信息技术快速发展的推动下,产品协同设计已经成为产品设计领域的研究热点。然而,目前关于协同设计的研究主要集中在详细设计阶段,对协同概念设计研究较少。由于概念设计是设计过程中最重要、最具创造性的阶段,因此研究协同概念设计的相关理论与技术具有深远的意义。应用强化学习方法求解协同概念设计中的有关问题,是协同概念设计研究的一个新课题。本文主要研究了采用多步信息更新值函数的多步Q学习算法、能够有效平衡智能体(Agent)选择动作时面临的新知识探索与当前策略遵循的模拟退火Metropolis准则和能够提高经验利用率、加快收敛速度的最小二乘强化学习方法,构建了基于多智能体系统(MAS)的协同概念设计系统,并将强化学习应用到该系统的任务调度和方案优化中,旨在深化强化学习在理论与应用方面的研究,促进协同概念设计技术的发展。论文所做的主要工作和研究成果如下:首先,提出了基于模拟退火Metropolis准则的多步Q学习算法。针对经典的Q学习算法收敛速度慢的问题,从两个方面进行了改进:一是改进了一步更新策略,单纯的一步更新不能充分利用经验信息,因此提出了采用多步信息更新值函数的多步Q学习算法;二是在多步Q学习算法的动作选择中引入了模拟退火中的Metropolis准则,较好地解决了Agent选择动作时面临的新知识探索还是当前策略遵循的关键问题。其次,提出了离策略的最小二乘Q(λ)算法和在策略的最小二乘SARSA(λ)算法,以及各自的改进递推算法。针对经典的Q(λ)和SARSA(λ)算法存在的经验利用率低、收敛速度慢的问题,根据当前和多步的经验知识样本建立了状态—动作对值函数的最小二乘逼近模型,推导了逼近函数在一组基底上的权向量所满足的一组线性方程,从而提出了最小二乘Q(λ)和最小二乘SARSA(λ)算法。并且根据递推最小二乘参数估计方法,给出了各自的改进递推算法。由于最小二乘算法实际上是构造了强化学习问题的经验模型,因而能够加快收敛速度。再次,通过分析复杂产品协同概念设计过程的特点,提出了协同概念设计的集成模型,进而提出了基于MAS的协同概念设计系统的层次化联邦结构,设计了系统中管理Agent和设计Agent的结构。在这两类Agent中分别实现了任务调度、冲突消解、方案评价与优化、智能设计等功能。提出了适用于复杂产品概念设计的信念型承诺,给出了Agent的形式化表示,详细讨论了基于信念型承诺的Agent协作机制。该协同概念设计系统的建立为研究强化学习在其中的应用奠定了基础。最后,针对协同概念设计系统管理Agent中的任务调度和方案优化问题,提出了基于强化学习的求解方法。任务调度问题是协同设计的重要内容之一,目前的方法大多存在算法效率较低、收敛于局部最优解等缺点。本文建立了调度问题的马尔可夫决策过程(MDP)模型,从理论上证明了采用强化学习求解调度问题的可行性,给出了基于Q学习和Q(λ)学习的任务调度算法,从而为有向无环图(DAG)调度提供了一种新解法。现有的概念设计方案优化方法存在组合爆炸问题,因此难以对组合出来的方案逐一评价并获得最优方案解。本文引入了状态之间距离的概念,将方案优化问题建模为MDP模型,给出了基于Q学习的方案优化算法,应用实例表明了该方法的有效性。

二、一个因素化SARSA(λ)激励学习算法(论文开题报告)

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、一个因素化SARSA(λ)激励学习算法(论文提纲范文)

(1)基于一致性与事件驱动的强化学习研究(论文提纲范文)

摘要
Abstract
主要符号对照表
第1章 绪论
    1.1 课题的背景及意义
    1.2 多智能体的协调与协作
    1.3 不确定环境下的多智能体系统
    1.4 强化学习的策略空间与收敛速度
    1.5 论文的主要研究内容及章节安排
第2章 多智能体协作与学习模型
    2.1 引言
    2.2 强化学习原理
        2.2.1 MonteCarlo算法
        2.2.2 瞬时差分法
        2.2.3 Q-学习
        2.2.4 Sarsa算法
        2.2.5 Actor-Critic学习算法
        2.2.6 R-学习算法
    2.3 分布式强化学习原理
        2.3.1 分布式强化学习模型
        2.3.2 研究现况及存在的问题
    2.4 分布式马尔科夫决策模型
        2.4.1 分布式马尔科夫模型
        2.4.2 局部可观测的马尔科夫模型
        2.4.3 分布式局部可观测的马尔科夫模型
        2.4.4 研究现状与存在的问题
    2.5 多智能体一致性原理
        2.5.1 图论
        2.5.2 Gossip一致性算法
        2.5.3 离散一致性算法
    2.6 启发式强化学习原理
        2.6.1 盲目搜索与启发式搜索
        2.6.2 启发式强化学习
    2.7 本章小结
第3章 基于一致性的多智能体强化学习研究
    3.1 引言
    3.2 基于一致性的DEC-POMDP强化学习框架
        3.2.1 强化学习中的局部观测性和不确定性分析
        3.2.2 分布式多智能体强化学习模型设计
        3.2.3 多智能体强化学习一致性方案设计
    3.3 基于一致性的多智能体强化学习算法
        3.3.1 基于一致性的多智能体强化学习算法设计
        3.3.2 基于一致性的策略化简设计
    3.4 收敛性分析
    3.5 仿真实验
    3.6 本章小结
第4章 基于事件驱动的多智能体强化学习研究
    4.1 引言
    4.2 事件驱动原理
    4.3 强化学习的事件驱动模型与触发规则设计
        4.3.1 基于事件驱动的强化学习模型设计
        4.3.2 触发规则设计
    4.4 基于事件驱动的强化学习
        4.4.1 基于事件驱动的强化学习算法设计
        4.4.2 计算资源消耗分析
        4.4.3 算法收敛性分析
    4.5 仿真实验
    4.6 本章小结
第5章 基于事件驱动的启发式强化学习研究
    5.1 引言
    5.2 启发式加速强化学习方法
        5.2.1 启发式加速Q-学习
        5.2.2 基于状态回溯代价分析启发式Q-学习
        5.2.3 基于CaseBasedReasoning的启发式加速Q-学习
    5.3 基于事件驱动的启发式Q-学习设计
        5.3.1 基于事件驱动的HAQL算法
        5.3.1.1 触发函数设计
        5.3.1.2 算法设计
        5.3.1.3 仿真实验
        5.3.2 基于事件驱动的HASB-QL算法
        5.3.2.1 触发函数设计
        5.3.2.2 算法设计
        5.3.2.3 启发式函数分析
        5.3.2.4 仿真实验
        5.3.3 基于事件驱动的CB-HAQL算法
        5.3.3.1 触发函数设计
        5.3.3.2 案例设计
        5.3.3.3 算法设计
        5.3.3.4 仿真实验
    5.4 本章小结
结论
致谢
参考文献
攻读博士学位期间发表的论文及科研成果

(2)复杂环境下的地面无人车辆路径规划算法研究(论文提纲范文)

摘要
Abstract
1 绪论
    1.1 课题研究背景及意义
    1.2 地面无人车辆国内外研究现状
        1.2.1 国外研究进展
        1.2.2 国内研究进展
    1.3 路径规划技术概述
        1.3.1 环境表示
        1.3.2 全局路径规划
        1.3.3 局部路径规划
        1.3.4 智能优化算法
    1.4 论文的主要研究工作
        1.4.1 论文的主要成果及创新点
        1.4.2 论文的组织结构
2 基于改进Morphin的局部路径规划算法
    2.1 引言
    2.2 车辆模型
        2.2.1 非完整性车辆运动学模型
        2.2.2 闭环规划模块
    2.3 基于多层Morphin搜索树的局部路径规划算法
        2.3.1 Morphin算法原理
        2.3.2 多层Morphin搜索树
        2.3.3 路径评估
        2.3.4 收敛性证明
    2.4 基于模糊Q学习动态行为规划
        2.4.1 Q学习
        2.4.2 模糊Q学习
        2.4.3 动态行为学习实验
    2.5 实验结果与分析
        2.5.1 构造层数与性能分析
        2.5.2 不同层数搜索树实验对比
        2.5.3 算法对比
        2.5.4 实际测试
    2.6 小结
3 基于碰撞时间直方图的动态避障算法
    3.1 引言
    3.2 碰撞检测模型
    3.3 碰撞时间直方图
        3.3.1 碰撞时间直方图的计算
        3.3.2 速度规划
        3.3.3 行为规划
        3.3.4 收敛性证明
    3.4 实验结果与分析
        3.4.1 仿真实验
        3.4.2 实车实验
    3.5 小结
4 基于SVM-RANSAC的路径规划算法
    4.1 引言
    4.2 基于支持向量机的路径提取
        4.2.1 支持向量机原理
        4.2.2 非线性支持向量机
        4.2.3 支持向量机超平面轨迹
    4.3 基于距离传感器的路径规划算法
        4.3.1 栅格地图预处理与分类
        4.3.2 基于RANSAC的路径提取
        4.3.3 更新策略与最终路径生成
    4.4 实验结果与分析
        4.4.1 生成路径对比
        4.4.2 算法性能评估
        4.4.3 路径曲率分析
    4.5 小结
5 总结与展望
致谢
参考文献
攻读博士学位期间发表论文情况
攻读博士学位期间参加课题及资助基金

(3)嵌入式软件状态监测与自恢复技术研究(论文提纲范文)

摘要
Abstract
目录
第1章 绪论
    1.1 引言
    1.2 国内外研究状况
    1.3 本课题的研究背景和意义
    1.4 论文的主要工作和组织结构
第2章 嵌入式软件自恢复相关技术
    2.1 软件自恢复技术
        2.1.1 软件自恢复技术的必要性
        2.1.2 软件自恢复技术中存在的问题
    2.2 嵌入式软件自恢复策略
        2.2.1 基于时间的软件自恢复策略
        2.2.2 基于检测的软件自恢复策略
    2.3 微重启技术
        2.3.1 递归恢复过程
        2.3.2 重启树和重启群
        2.3.3 重启相关性
    2.4 本章小结
第3章 嵌入式软件状态监测方法研究
    3.1 嵌入式实时操作系统 VxWorks 概述
        3.1.1 VxWorks 实时操作系统的基本特点
        3.1.2 VxWorks 的常见异常
    3.2 嵌入式软件系统性能监测方法研究
        3.2.1 监测内存的占用情况
        3.2.2 监测任务的运行状态
        3.2.3 监测 CPU 的占用情况
        3.2.4 监测系统中任务堆栈的占用情况
        3.2.5 嵌入式系统性能变化趋势分析
        3.2.6 基于阈值的嵌入式系统失效时间估计
    3.3 嵌入式软件行为监测方法研究
        3.3.1 嵌入式软件行为树的节点分类
        3.3.2 构建软件行为树
        3.3.3 嵌入式软件行为树中行为匹配规则的制定
    3.4 本章小结
第4章 嵌入式软件自恢复策略研究
    4.1 嵌入式软件自恢复策略
        4.1.1 基于系统性能监测的嵌入式软件自恢复策略
        4.1.2 基于软件行为监测的嵌入式软件自恢复策略
    4.2 基于规则的软件自恢复策略决策方法
        4.2.1 软件自恢复的状态空间
        4.2.2 软件自恢复的动作空间
        4.2.3 软件自恢复动作效果评价模型
        4.2.4 软件自恢复策略的决策规则
        4.2.5 基于 SARSA(λ)算法的自恢复决策规则学习
    4.3 本章小结
第5章 实验及分析
    5.1 构建实验环境
    5.2 任务模型分析
    5.3 嵌入式软件状态监测方法实验
        5.3.1 监测内存的占用情况
        5.3.2 监测任务运行状态
        5.3.3 监测 CPU 的占用情况
        5.3.4 监测任务堆栈的占用情况
        5.3.5 监测软件行为
    5.4 本文设计的自恢复策略实验验证
        5.4.1 嵌入式软件自恢复决策方法的决策规则验证
        5.4.2 本文设计的嵌入式软件自恢复策略整体验证
    5.5 自恢复策略结果分析与比较
    5.6 本章小结
结论
参考文献
致谢

(4)提高RoboCup执行效率的激励学习算法研究(论文提纲范文)

摘要
ABSTRACT
第1章 绪论
    1.1 研究背景
        1.1.1 机器人足球的分类与发展状况
        1.1.2 机器人足球仿真赛研究现状
    1.2 研究目的和实际意义
    1.3 本文研究的主要内容
第2章 RoboCup 仿真系统
    2.1 机器人足球系统的结构及其工作原理
        2.1.1 机器人本体子系统
        2.1.2 视觉子系统
        2.1.3 决策子系统
        2.1.4 无线通讯子系统
    2.2 RoboCup 仿真平台介绍
        2.2.1 Soccer Server 介绍
        2.2.2 Soccer Client 介绍
        2.2.3 Soccer Monitor 介绍
        2.2.4 本文构建的仿真系统
    2.3 机器人足球比赛规则
        2.3.1 比赛时间和计分方法
        2.3.2 点球(Penalty-Kick)
        2.3.3 球门球(Goal-kick)
        2.3.4 争球(Free-kick)
    2.4 机器人小车技术
        2.4.1 机器人小车技术设计方法
        2.4.2 机器人小车技术决策
    2.5 机器人小车动力学
    2.6 本章小结
第3章 激励学习理论及其算法分析
    3.1 激励学习基本原理和模型
        3.1.1 基本原理
        3.1.2 激励学习模型
    3.2 激励学习的基础知识
        3.2.1 评价函数
        3.2.2 Markov 决策过程
    3.3 激励学习经典算法
        3.3.1 Q 学习算法
        3.3.2 Sarsa 学习算法
    3.4 Swarm 激励学习算法
        3.4.1 Swarm 算法分析
        3.4.2 Swarm 算法设计实现
    3.5 激励学习的其它典型算法
        3.5.1 R-学习算法
        3.5.2 瞬时差分算法 TD(Temporal Difference Algorithm)
    3.6 激励学习的应用
    3.7 本章小结
第4章 基于激励学习的比赛策略的应用研究
    4.1 仿真足球机器人赛场环境
    4.2 基本运动策略
        4.2.1 程序的接口 API 函数
        4.2.2 基本动作函数实现
    4.3 Swarm 学习的机器人技术动作的设计
        4.3.1 射门动作技术
        4.3.2 截球动作技术
        4.3.3 带球动作技术
    4.4 Swarm 学习奖赏函数的设计
    4.5 Swarm 学习在比赛决策中的应用
    4.6 Swarm 学习算法在 MSRS 平台的具体应用
    4.7 仿真实验及结果比较分析
    4.8 本章小结
第5章 总结与展望
参考文献
致谢
附录:(攻读硕士学位期间发表论文目录)
摘要
ABSTRACT

(5)强化学习在足球机器人仿真中的应用(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 机器人足球比赛的起源及发展
        1.1.1 FIRA 简介
        1.1.2 RoboCup 的发展
    1.2 足球机器人仿真的研究现状
    1.3 足球机器人研究的目的与意义
    1.4 本文研究的主要内容
第二章 MSRS 11vs11 足球机器人仿真比赛平台
    2.1 机器人足球系统简介
        2.1.1 机器人子系统
        2.1.2 视觉子系统
        2.1.3 决策子系统
        2.1.4 无线通讯子系统
    2.2 足球机器人仿真平台
        2.2.1 MSRS 仿真平台简介
        2.2.2 MSRS 仿真平台的结构
        2.2.3 MSRS 仿真平台模式
        2.2.4 比赛场地环境
    2.3 本章小结
第三章 强化学习
    3.1 强化学习的发展及研究现状
    3.2 强化学习的基本原理和模型
        3.2.1 基本原理
        3.2.2 强化学习模型
        3.2.3 马尔可夫决策过程(MDP)
    3.3 强化学习的几种经典算法
        3.3.1 瞬时差分算法 TD(Temporal Difference Algorithm)
        3.3.2 Q 学习算法
        3.3.3 SARSA 学习算法
        3.3.4 一种改进的 SARSA 学习算法
    3.4 强化学习的主要应用
    3.5 本章小结
第四章 基于强化学习的比赛策略的应用研究
    4.1 强化学习应用在单智能体的学习过程中
        4.1.1 仿真环境的离散化
        4.1.2 动作函数的设计
        4.1.3 Q 值的更新和动作选择的方式
        4.1.4 奖赏函数的设置
        4.1.5 仿真实验数据分析
    4.2 强化学习在 1VS1 对抗比赛中的应用
        4.2.1 仿真环境的离散化
        4.2.2 动作函数的设计
        4.2.3 奖赏函数的设计
        4.2.4 Q 值的更新和动作的选择
        4.2.5 仿真实验数据分析
    4.3 多智能体的学习
        4.3.1 任务描述
        4.3.2 智能体可以采取的动作
        4.3.3 状态变量的设置
        4.3.4 奖赏函数的设定
        4.3.5 仿真实验数据分析
    4.4 本章小结
第五章 结论与展望
参考文献
致谢
附录 A:(攻读硕士学位期间发表论文目录)
附录 B:(攻读硕士学位期间获得证书)
摘要
Abstract

(6)基于强化学习的机械臂控制研究(论文提纲范文)

摘要
Abstract
1 绪论
    1.1 课题的来源、目的及意义
    1.2 国内外研究现状
    1.3 本文的主要工作
2 机械臂控制系统分析
    2.1 机械臂模型简化
    2.2 机械臂控制系统结构与变量
    2.3 机械臂控制系统数学描述
    2.4 本章小结
3 机械臂控制系统的状态空间离散与信度分配
    3.1 机械臂控制系统状态空间的离散化
    3.2 机械臂控制系统的信度分配问题
    3.3 结合空间划分与信度分配的强化学习
    3.4 本章小结
4 基于强化学习的控制算法
    4.1 强化学习的关键元素
    4.2 强化学习主要算法分析
    4.3 多Agent 系统
    4.4 两层强化学习
    4.5 系统算法设计
    4.6 本章小结
5 仿真实验分析
    5.1 仿真实验介绍
    5.2 一般强化学习算法仿真实验
    5.3 两层强化学习仿真实验
    5.4 本章小结
6 总结与展望
    6.1 总结
    6.2 展望
致谢
参考文献

(7)基于因素化表示的强化学习方法研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 本课题的研究背景及意义
    1.2 本课题研究领域的研究动态
    1.3 本文的主要研究内容
    1.4 本文的组织结构
第二章 强化学习基本理论
    2.1 Markov 过程与强化学习
        2.1.1 Markov 过程
        2.1.2 强化学习模型与基本要素
    2.2 强化学习的几种常用算法
    2.3 瞬时差分算法
    2.4 因素化表示方法
    2.5 本章小结
第三章 因素化强化学习的研究
    3.1 动态贝叶斯网络
        3.1.1 贝叶斯网络
        3.1.2 动态贝叶斯网络
    3.2 决策树
        3.2.1 决策树的基本思想
        3.2.2 决策树学习的主要算法
        3.2.3 决策树的生成和剪枝
    3.3 因素化强化学习理论
        3.3.1 因素化的MDP 状态
        3.3.2 动态贝叶斯网络与MDP 模型
        3.3.3 决策树与MDP 模型
    3.4 本章小结
第四章 改进的基于因素化表示的动态规划方法
    4.1 动态规划方法简介
    4.2 决策树的运算
        4.2.1 决策树剪枝
        4.2.2 决策树扩充
        4.2.3 决策树合并
    4.3 决策树与DP
        4.3.1 基于决策树表示的值函数迭代算法描述
        4.3.2 基于决策树表示的值函数迭代
    4.4 改进的基于因素化表示的DP 方法
    4.5 算法实验与分析
    4.6 本章小结
第五章 基于因素化表示的TD 算法
    5.1 MDP 概述
    5.2 MDP 状态空间的精简
    5.3 因素化表示的TD(λ)算法中树的运算
    5.4 算法实现
    5.5 实验与分析
    5.6 本章小结
第六章 结论及展望
    6.1 全文总结
    6.2 研究工作展望
参考文献
致谢
附录A(攻读硕士学位期间发表论文情况)

(8)多智能体协作学习方法的研究(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 研究的背景及意义
    1.2 强化学习概述
        1.2.1 强化学习的发展历史
        1.2.2 强化学习的研究现状
    1.3 追捕问题概述
        1.3.1 追捕问题的发展背景
        1.3.2 追捕问题的相关研究
        1.3.3 追捕问题存在的问题
    1.4 论文研究内容及结构安排
        1.4.1 研究内容
        1.4.2 论文安排
第二章 多AGENT 系统
    2.1 AGENT 介绍
        2.1.1 Agent 的定义
        2.1.2 Agent 的基本特性
    2.2 多AGENT 系统概述
        2.2.1 多Agent 系统的定义及特性
        2.2.2 多Agent 学习的研究内容
        2.2.3 多Agent 协作机制
    2.3 本章小结
第三章 多AGENT 强化学习理论
    3.1 强化学习
        3.1.1 强化学习的基本原理和定义
        3.1.2 马尔可夫决策过程
        3.1.3 强化学习的基本要素
        3.1.4 经典的强化学习算法
        3.1.5 有待进一步研究的问题
    3.2 多AGENT 强化学习
        3.2.1 MARL 方法及其发展
        3.2.2 合作MARL
        3.2.3 基于对策或平衡解的MARL
        3.2.4 最佳响应MARL
        3.2.5 MARL 有待进一步解决的问题
    3.3 本章小结
第四章 改进的多AGENT 协作学习方法
    4.1 多AGENT 的信息共享机制
        4.1.1 信息共享机制
        4.1.2 实例分析
    4.2 黑板模型
    4.3 对手状态预测
        4.3.1 预测技术的提出
        4.3.2 对手状态预测函数
    4.4 改进的多AGENT 协作学习算法
        4.4.1 算法框架
        4.4.2 算法描述
        4.4.3 算法说明
    4.5 本章小结
第五章 追捕问题研究
    5.1 任务描述
    5.2 追捕流程图
    5.3 算法设计
        5.3.1 分解目标及确定子目标
        5.3.2 状态聚类
        5.3.3 动作选择策略
        5.3.4 设定奖赏值
        5.3.5 更新Q 值
    5.4 实验结果及其分析
    5.5 本章小结
第六章 结论与展望
    6.1 结论
    6.2 进一步的工作
参考文献
致谢
附录(攻读硕士学位期间发表的论文及参与的科研项目)

(9)基于激励学习和人工势场法的机器人路径规划(论文提纲范文)

摘要
ABSTRACT
第一章 绪论
    1.1 机器人路径规划的定义及其研究意义
    1.2 路径规划研究方法分类与比较
        1.2.1 常规路径规划方法
        1.2.2 智能路径规划方法
    1.3 国内外研究现状与趋势
    1.4 本文研究范围及基本结构
第二章 激励学习及其理论模型
    2.1 引言
    2.2 激励学习理论基础
        2.2.1 马尔可夫决策过程
        2.2.2 激励学习基本要素和理论模型
        2.2.3 激励学习相关算法
    2.3 激励学习基本步骤
    2.4 激励学习的发展现状与应用
        2.4.1 路径规划问题中的发展与应用
        2.4.2 激励学习的其他应用
        2.4.3 激励学习发展趋势
    2.5 本章小结
第三章 人工势场法理论及其应用分析
    3.1 人工势场法基本思想
    3.2 人工势场法避障模型分析
        3.2.1 传统势场函数定义
        3.2.2 势场法受力模型
    3.3 人工势场法优缺点分析
    3.4 人工势场法的发展与应用
    3.5 本章小结
第四章 机器人路径规划实施
    4.1 引言
    4.2 基于瞬时奖赏的改进势场函数定义
        4.2.1 引力势场函数定义
        4.2.2 斥力势场函数定义
        4.2.3 瞬时奖赏函数定义
        4.2.4 基于瞬时奖赏的综合势场函数表示
    4.3 根据特征奇异点建立子目标集
    4.4 路径规划策略控制
        4.4.1 启发式策略控制与算法分析
        4.4.2 其他策略控制
    4.5 本章小结
第五章 实验仿真结果与算法分析
    5.1 路径规划方法应用于多房间路径导航
        5.1.1 实验环境描述和数据预处理
        5.1.2 构建奇异点子目标集
        5.1.3 路径规划仿真结果
    5.2 多角度对比其他路径规划方法
    5.3 总结与展望
参考文献
致谢
附录A(攻读学位期间发表论文目录)
详细摘要

(10)强化学习及其在MAS协同概念设计中应用的研究(论文提纲范文)

摘要
ABSTRACT
目录
1.绪论
    1.1.课题背景与意义
    1.2.强化学习的基本原理及其与相关学科关系
        1.2.1.强化学习的基本原理
        1.2.2.强化学习研究的相关学科背景
    1.3.强化学习研究现状
        1.3.1.强化学习的发展历史
        1.3.2.经典的强化学习算法及其发展
        1.3.3.强化学习的应用研究
        1.3.4.有待进一步研究的问题
    1.4.基于MAS的协同概念设计研究现状
        1.4.1.协同概念设计的内涵
        1.4.2.MAS概述
        1.4.3.基于MAS的协同概念设计
    1.5.论文组织结构
    1.6.本文的主要成果和创新点
2.基于模拟退火Metropolis准则的多步Q强化学习
    2.1.引言
    2.2.MDP与动态规划
        2.2.1.MDP模型
        2.2.2.Bellman最优性原理
        2.2.3.值迭代与策略迭代
    2.3.强化学习的经典算法
        2.3.1.TD学习算法
        2.3.2.Q学习
        2.3.3.Q(λ)学习
        2.3.4.参数λ的意义
    2.4.多步Q强化学习算法
        2.4.1.算法提出
        2.4.2.算法分析
        2.4.3.k值的确定
        2.4.4.仿真试验
    2.5.基于Metropolis准则的多步Q强化学习算法
        2.5.1.模拟退火算法
        2.5.2.结合Metropolis准则的多步Q学习算法
        2.5.3.算法分析
        2.5.4.仿真实验
    2.6.本章小结
3.基于最小二乘的强化学习
    3.1.引言
    3.2.值函数逼近
        3.2.1.函数逼近的TD学习
        3.2.2.函数逼近的Q(λ)算法
    3.3.最小二乘Q(λ)强化学习方法
        3.3.1.最小二乘Q(λ)学习
        3.3.2.递推最小二乘Q(λ)学习
        3.3.3.算法分析
        3.3.4.仿真实验与结果分析
    3.4.最小二乘SARSA(λ)算法
        3.4.1.强化学习的SARSA(λ)算法
        3.4.2.最小二乘SARSA(λ)算法
        3.4.3.递推最小二乘SARSA(λ)学习
        3.4.4.仿真实验与结果分析
        3.4.5.最小二乘Q(λ)和SARSA(λ)算法的对比
    3.5.本章小结
4.基于MAS的协同概念设计系统研究
    4.1.引言
    4.2.协同概念设计的特点与模型
        4.2.1.协同概念设计的特点
        4.2.2.协同概念设计的集成模型
        4.2.3.基于MAS的协同概念设计系统的总体思想
    4.3.协同概念设计系统的Agent建模方法
    4.4.基于MAS的协同概念设计系统
        4.4.1.系统体系结构
        4.4.2.管理Agent
        4.4.3.设计Agent
    4.5.基于信念型承诺的Agent协作机制
        4.5.1.通用部分全局规划概述
        4.5.2.信念型承诺的提出
        4.5.3.基于信念型承诺的Agent协作机制
        4.5.4.基于信念型承诺的Agent协作在协同概念设计系统中的应用
    4.6.基于MAS的协同概念设计系统实现
    4.7.本章小结
5.强化学习在协同概念设计系统中的应用
    5.1.引言
    5.2.协同设计任务调度的强化学习方法研究
        5.2.1.任务调度问题的研究现状分析
        5.2.2.协同设计任务调度问题描述
        5.2.3.任务调度问题的MDP模型
        5.2.4.任度调度的强化学习算法
        5.2.5.应用实例与分析
    5.3.强化学习在协同概念设计方案优化中的应用
        5.3.1.方案优化问题的MDP模型
        5.3.2.基于强化学习的方案优化算法
        5.3.3.应用实例分析
    5.4.本章小结
6.结束语
致谢
参考文献
攻读博士学位期间发表和录用的论文

四、一个因素化SARSA(λ)激励学习算法(论文参考文献)

  • [1]基于一致性与事件驱动的强化学习研究[D]. 张文旭. 西南交通大学, 2018(10)
  • [2]复杂环境下的地面无人车辆路径规划算法研究[D]. 诸葛程晨. 南京理工大学, 2018(06)
  • [3]嵌入式软件状态监测与自恢复技术研究[D]. 陈恒. 哈尔滨工程大学, 2013(04)
  • [4]提高RoboCup执行效率的激励学习算法研究[D]. 吴俊. 长沙理工大学, 2012(09)
  • [5]强化学习在足球机器人仿真中的应用[D]. 刘飞. 长沙理工大学, 2012(10)
  • [6]基于强化学习的机械臂控制研究[D]. 王明明. 华中科技大学, 2009(02)
  • [7]基于因素化表示的强化学习方法研究[D]. 戴帅. 长沙理工大学, 2009(12)
  • [8]多智能体协作学习方法的研究[D]. 薛丽华. 长沙理工大学, 2008(01)
  • [9]基于激励学习和人工势场法的机器人路径规划[D]. 易良. 长沙理工大学, 2007(01)
  • [10]强化学习及其在MAS协同概念设计中应用的研究[D]. 陈圣磊. 南京理工大学, 2006(06)

标签:;  ;  ;  ;  ;  

一种因式 SARSA(λ) 激励学习算法
下载Doc文档

猜你喜欢