AI研习丨专题:一种军棋计算机博弈的多棋子协同博弈方法

人工智能
后台-插件-广告管理-内容页头部广告(手机)

​​摘 要

协同博弈是军棋机器博弈的关键性技术。在军棋博弈不完全信息对弈中,面对棋子不同价值、不同位置和不同搭配所产生的不同棋力,传统的单子意图搜索算法,既缺少棋子的团体协同性和沟通性,也缺少欺骗性和引诱性等高级对抗能力。本文针对此问题,提出基于UCT搜索策略的高价值棋子筛选方法,形成为一种多棋子协同博弈方法,实现了多棋子协同对弈。实验证明,多棋子协同博弈方法优于单棋子军棋博弈方法。

关 键 字

机器博弈;军棋;协同博弈;Q学习算法;攻守平衡;维度灾难;UCT;高价值棋子

0 引言

机器博弈是人工智能领域重要的研究方向,通过训练计算机下棋来衡量机器的智能程度,具有人-机和机-机对弈两种形式,以谷歌Alpha Go战胜韩国围棋九段大师李世石、网络注册名为 Master大胜人类围棋线上高手,以及升级版Zero战胜中国围棋九段大师柯洁为标志性事件,使得围棋人-机博弈以机器取胜翻开了新篇章。但机机博弈仍然是人类探索的热点领域。

机器博弈分为完备信息机器博弈和非完备信息机器博弈。所谓完备博弈就是对弈各方能掌握全部对弈信息、各方的对弈信息完全透明,如中国象棋、围棋和五子棋等,如果博弈信息对博弈各方不是完全透明的,就是非完备信息博弈,如军棋、德州扑克、斗地主、桥牌等。非完备信息机器博弈存在诱导,欺诈等行为,使得计算机难以攻克。

在军棋机器博弈中,有从工兵、排长到司令的十类军人棋子,以及从地雷、炸弹到军旗的三类工具棋子,各类棋子作用不同、子力不同,即使是相同棋子,在不同位置和不同搭配情况下,其展现的战力也是不同的。因此,如何依据不同棋子的搭配,以及利用不同类型棋子的特有价值与灵活度,本文提出了多棋子协同方法,以此提升军棋机器博弈系统棋力。

1 多棋子协同策略

多棋子联合系统可利用先验知识,制定出目标和实行既定的规划,发挥出相应的技能。其研究注重于棋子间的密切群体活动,而不是个体能力的展现和发挥。多棋子系统的研究主要包括多棋子之间的协作、多棋子行动的规划以及反馈学习。

1 .1 多棋子联合定义

在军棋机器博弈过程中,棋子之间的关系是复杂多样的,多个棋子可能需要共同完成一个目标,棋子之间也可能存在需要合作完成的大目标,还可能存在单个棋子要完成的小目标。所以,在博弈的过程中,棋子之间也会发生冲突,仅仅考虑单个棋子作战产生的结果将不是最优。由此可见,多棋子需要能够在消除多方冲突的基础上产生最优组合结果,达到多个棋子行为的结果最优。

多棋子间的某种组合策略导致博弈过程中产生正的奖赏,这种组合棋子的策略趋势便会加强,强化学习为多个棋子的组合提供了鲁棒的学习方法,在没有人为干预的条件下,棋子通过在不同局面下不断更新组合获得最优的策略。

多棋子强化学习的关键问题是如何确定多棋子联合状态和协同动作。由于多棋子是同时选择动作,这样每个棋子是无法得知其他棋子的目的动作,所以就无法确定多棋子的协同动作。然而,对于模拟学习问题,可以根据MCTS模拟棋局,根据模拟结果结合强化学习制定棋子动作选择策略。因此,构建的多棋子强化学习系统由模拟预测单元和强化学习单元构成,其结构见图1。在多棋子强化学习系统中,模拟预测单元通过博弈树搜索结合MCTS模拟得到价值高的走步,并向学习单元提供其他棋子所选择的走步及预测结果,并基于此完成多智能强化学习算法,强化学习单元将积累的学习样例返回给动作预测单元来更新预测模型。

AI研习丨专题:一种军棋计算机博弈的多棋子协同博弈方法 AI研习丨专题:一种军棋计算机博弈的多棋子协同博弈方法 AI研习丨专题:一种军棋计算机博弈的多棋子协同博弈方法 AI研习丨专题:一种军棋计算机博弈的多棋子协同博弈方法 AI研习丨专题:一种军棋计算机博弈的多棋子协同博弈方法 AI研习丨专题:一种军棋计算机博弈的多棋子协同博弈方法

单子作战的军棋机器博弈系统,系统性能偏向于防守,缺乏多子合作主动出击作战的意识。加入多棋子联合作战策略的机器博弈系统能够结合不同棋子进行作战,增加了军棋博弈系统主动出击的作战意识。本文通过Q学习算法与传统的极大极小值算法系统、α-β算法系统、MCTS算法系统,以及UCT搜索算法系统各对打1000局 的主动出击意识平均值结果对比,如表1所示。

AI研习丨专题:一种军棋计算机博弈的多棋子协同博弈方法

Q学习算法系统相比于其他算法系统有明显的进攻意图,能够达到多棋子配合作战攻守兼备的效果。

针对系统中出现的“维数灾难”问题,本文针对此问题使用极大极小值、MCTS算法,以及 UCT算法分别进行活跃棋子激活,对局500局后, 在军棋机器博弈的69步范围内分别求得每步的平均搜索时间如图4所示。

AI研习丨专题:一种军棋计算机博弈的多棋子协同博弈方法

由图4可知,在未加激活算法时搜索的时间较长,比赛过程中容易导致超时判负的情况;加入激活算法后,搜索时间明显降低。

4 结束语

本文利用Q学算法优化迭代更新军棋计算机 博弈系统中多棋子协同矩阵,增加了多棋子协同作战的意识,增强了博弈系统主动出击诱导敌方的进攻趋势。利用部分重要棋子激活的方法解决了棋子数量巨大造成的“维度灾难”问题,使得搜索时间得到提升,避免了军棋计算机博弈系统在正式比赛过程中由于超时被判负的情况。未来 将考虑利用计算智能算法加入此系统,进一步优化多棋子协同矩阵。

(参考文献略)

AI研习丨专题:一种军棋计算机博弈的多棋子协同博弈方法

选自《中国人工智能学会通讯》

2020年 第10卷 第2期 机器博弈专题​​​​

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。