深度增强学习是否适合解决《掘地求升》这类游戏

nan.xiao

最近两天 Steam 夏季打折，又给 G 胖送了血汗钱，清理了一下心愿清单。

其中买了一个游戏叫做《和 Bennett Foddy 一起攻克难关》(Getting Over It with Bennett Foddy)，又称《掘地求升》。这是一个鼠标移动锤子创造支点攀越高峰的攀岩游戏，致敬了希腊神话中的西西弗斯。操作有亿点点难，但是掌握了一些技巧以后感觉还是可以向前推进的。当然，这个游戏设计的精华就在于也是可以倒退的……

那么问题来了：由于输入和游戏机制的特殊性，如使用鼠标，在合适的时机，选择特定支点，确定和旋转轴之间的距离，创造一个角动量来移动或跳跃，可以看成是一个状态空间大，连续动作空间，稀疏奖励的问题。深度增强学习是否适合求解这类游戏？如何设计奖励函数？