如何训练神经网络玩2048游戏？

jirinovo

我想训练神经网络玩2048游戏。我知道对于诸如2048之类的状态游戏，NN并不是一个不错的选择，但是我想实现，NN将像有经验的人一样玩游戏，即仅在三个方向上移动磁贴。

但我无法弄清楚如何自训练NN，因为我们不知道有效的输出。通常，例如在回归中，您知道正确的输出，并且可以计算损失（例如，均方误差）并更新权重。但在2048年有效输出基本上是未知的（当然你可以计算你可以移动各个方向，例如，与最高相差方向的比分score_after_move - previous_score将是我们有效的输出，但我认为这是没有办法的办法，以自我学习NN ）。那么可以为2048游戏定义损失函数吗？最好的是与众不同。

下一个问题是何时更新权重：在每个动作之后或更确切地说在一个完整的游戏（游戏结束）之后？

如果是很重要的：我的NN拓扑结构将是现在简单：

2D matrix of gaming board -> 2D matrix of input neurons -> 2D fully-connected hidden layer -> 1D 4-neuron layer

因此，每个图块将输入到第一层中的相应神经元（2D全连接层是否有特殊名称？）。来自最后一层的预期输出是长度为4的向量，例如[1、0、0、0]将为“向上”移动方向。

现在我已经实现了2048场比赛无头类（在Python / NumPy的），因为使用视觉输入很慢，也更多的工作要做。

PS也许我错误地想着NN学习这个游戏（或游戏一般）。随时给我一个更好的办法，我会理解。谢谢：）

编辑：强化学习似乎是这样。以下是一些有用的链接：

jirinovo

所以https://github.com/matthiasplappert/keras-rl似乎是最好的办法。您只能落实OpenAI健身环境API定义的一些方法。这些都是step()和reset()方法：https://github.com/matthiasplappert/keras-rl/blob/master/rl/core.py#L330

欲了解更多信息有来自一个答案keras-rl开发商：https://github.com/matthiasplappert/keras-rl/issues/38

当我2048游戏AI项目将完成，我将链接发送给源在这里（如果我不会忘记这样做:)）

编辑：这里是承诺链接到源，完全忘记了它：/ https://github.com/gorgitko/MI-MVI_2016

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-4

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

如何训练神经网络玩2048游戏？

如何训练神经网络玩2048游戏？

计算数据帧R中的字符串频率

Android Studio Kotlin：提取为常量

Excel 2016图表将增长与4个参数进行比较

获取并汇总所有关联的数据

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

将加号/减号添加到jQuery菜单

算术中的c ++常量类型转换

TYPO3：将 Formhandler 添加到新闻扩展

TreeMap中的自定义排序

如何开始为Ubuntu开发

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

无法使用 envoy 访问 .ssh/config

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

遍历元素数组以每X秒在浏览器上显示

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

尝试在Dell XPS13 9360上安装Windows 7时出错

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称