Speaker:
张蒙,自动化所
Inviter:
Title:
基于对手策略与演化学习的不完美信息博弈算法研究
Time & Venue:
2021.06.24 19:30-20:30 腾讯会议:390 972 660
Abstract:
以德zhou pu克为代表的大规模不完美信息博弈是现实世界中极为常见的一种博弈类型。近年来,国际上以美国卡耐基梅隆大学和加拿大阿尔伯塔大学为代表的研究机构围绕德zhou pu克这一大规模不完美信息博弈问题的优化求解取得了长足进步。但是,已有算法的相关技术实现细节并未完全公开,领域内缺乏与现有方法进行比较的公开基准。另外在算法层面,现有主流德zhou pu克AI算法存在依赖博弈树模型、算力消耗大、策略过于保守等问题。为解决上述问题,针对大规模不完美信息博弈研究领域缺少基准的问题,我们构建了以德zhou pu克为验证环境的大规模不完美信息博弈开放平台OpenHoldem。我们提出了一种轻量高效且能快速适应对手策略变化进而剥削对手的不完美信息博弈求解框架。该框架将演化学习方法和深度神经网络相结合,通过在线对手风格建模和种群策略集成使智能体能够适应对手策略的变化。在两人无限注德zhou pu克环境中的实验结果表明,在面对动态对手策略时本框架与已有方法相比能够大幅提升博弈性能。
※ 修改:·vinbo 于 Jun 24 01:36:55 2021 修改本文·[FROM: 68.183.194.*]
※ 来源:·水木社区
http://www.mysmth.net·[FROM: 202.121.181.*]
修改:vinbo FROM 68.183.194.*
FROM 202.121.181.*