《电子技术应用》
您所在的位置:首页 > 人工智能 > 业界动态 > 美国陆军研究人员开发用于训练人工智能的创新框架

美国陆军研究人员开发用于训练人工智能的创新框架

2021-06-14
来源: 网电空间战
关键词: 人工智能

  微信图片_20210614195150.jpg

上面插图显示了一些使用 actor-critic 方法的学习方法。(左)具有共享奖励的独立学习者,(中)具有共享信息和共享奖励的独立学习者,(右)具有独立奖励的联合学习者。美国陆军

  美国陆军研究人员开发了一个开创性的框架,为协作多智能体系统的开发提供了基线。

  该框架在调查论文“利用集中训练的近期多智能体强化学习算法调查”中有详细介绍,该论文在 SPIE 数字图书馆中有特色。研究人员表示,这项工作将支持强化学习方法的研究,以开发协作多智能体系统,例如可以与未来士兵并肩工作的机器人团队。

  “我们认为潜在的信息共享机制在多智能体系统的集中学习中起着关键作用,但研究界对这种现象的研究有限,”美国陆军研究员兼计算机科学家皮尤什·K·夏尔马博士说,他来自美国陆军作战能力发展司令部( DEVCOM)陆军研究实验室。“我们对强化学习算法及其信息共享范式的最先进技术进行了这项调查,以此为基础询问有关多智能体系统集中学习的基本问题,以提高它们的协同工作能力。”

  Sharma 在该项目上的合作者包括 DEVCOM ARL 研究人员 Drs。Erin Zaroukian、Rolando Fernandez、Michael Dorothy、Derrik Asher 和 Anjon Basak,橡树岭联合大学奖学金计划的博士后研究员。

  这项对强化学习最先进技术的调查为寻求通过增强的信息共享机制(例如奖励功能或观察和状态空间共享)开发自主多智能体系统的研究人员建立了基线。

  由于复杂环境的动态特性,可能会受到维度灾难的影响,因此同时训练多个智能体更加困难;夏尔马说,代理越多,协调就越复杂。本文开发了一个框架来表征经常令人困惑且不易理解的关键信息共享参数。

  研究人员预测,集中训练可能是更快开发自主系统的解决方案,这些系统可以在未来灵活地与士兵一起工作。

  “一致、集中的训练可以使多智能体系统更可靠地协同工作,提高人工智能士兵的信任水平,”夏尔马说。“具体来说,我们专注于识别和表征最新集中式学习算法的基础数学框架。”

微信图片_20210614195154.jpg

  美国陆军研究人员开发了一个开创性的框架,为协作多代理系统的开发提供了基线。信用:Spc。艾德琳·威瑟斯彭

  他说,这样的数学模型可以提供一种途径来探索替代的集中学习技术,以衡量它们对学习率和紧急协作行为的影响。

  该调查在两个方面超越了先前的研究文献:

  创建强化学习算法最新技术的综合视图

  概述了一种描述集中学习期间共享信息的新方法

  研究人员专注于五到六年内发布的算法。由于这些算法是最新的,研究界还没有对它们进行广泛的探索。在出版时,他们没有找到全面的先前工作。

  研究人员试图对共享机制进行定义和分类,以实际共享什么而不是如何共享为导向。他们乐观地认为,他们已经发现了最近的强化学习技术中值得进一步研究的差距,这些差距可能会增强代理培训过程。

  研究人员表示,他们乐观地认为,这项调查将引发对机器学习问题空间的讨论和进一步探索,以训练自主多智能体系统。

  “随着商业行业对多代理系统协同工作的需求变得越来越普遍,例如亚马逊仓库机器人、英特尔在 2018 年冬季奥运会上的无人机展。也出现了对这些多代理系统技术的新兴需求,以协助陆军在协同战术行动中,”夏尔马说。“这份调查文件产生的研究可以实现可靠的协作人工智能的目标。”

  展望未来,团队感觉更有能力研究基于多智能体强化学习的方法的特定方面,这些方法以集中方式训练智能体。

  Sharma 说,集中式技术有一定的局限性,因此他们还将对现有的分散式学习技术进行实证分析。他们计划转向多智能体强化学习训练的建模和模拟,以验证和扩展智能体学习、行为和协调的理论。




电子技术图片.png


本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。