neat算法——本质就是遗传算法用于神经网络的自动构建

基于NEAT算法的马里奥AI实现

所谓NEAT算法即通过增强拓扑的进化神经网络（Evolving Neural Networks through Augmenting Topologies），算法不同于我们之前讨论的传统神经网络，它不仅会训练和修改网络的权值，同时会修改网络的拓扑结构，包括新增节点和删除节点等操作。
NEAT算法几个核心的概念是：

基因：网络中的连接
基因组：基因的集合
物种：一批具有相似性基因组的集合
Fitness：有点类似于增强学习中的reward函数
generation：进行一组训练的基因组集合，每一代训练结束后，会根据fitness淘汰基因组，并且通过无性繁殖和有性繁殖来新增新的基因组
基因变异：发生在新生成基因组的过程中，可能会出现改变网络的权重，增加突出连接或者神经元，也有可能禁用突触或者启用突触

下图我们展示了算法从最一开始简单的神经网络，一直训练到后期的网络

利用NEAT算法实现马里奥的只能通关的基本思想便是，利用上面NEAT算法的基本观点，从游戏内存中获取实时的游戏数据，判断马里奥是否死忙、计算Fitness值、判断马里奥是否通关等，从而将这些作为神经网络的输入，最后输出对马里奥的操作，包括上下左右跳跃等操作，如下图：

大多数该算法实现马里奥的智能通关都依赖于模拟器，运用lua语言编写相应脚本，获取游戏数据并操作马里奥。NeuroEvolution with MarI/O。实现效果图如下：

基于Deep Reinforcement Learning的马里奥AI实现

NEAT算法是相对提出较早的算法，在2013年大名鼎鼎的DeepMind提出了一种深度增强学习的算法，该算法主要结合了我们上面讨论的CNN和Q-Learning两种算法，DeepMind的研究人员将该算法应用在Atari游戏机中的多种小游戏中进行AI通关。
其基本算法核心便是我们之前介绍的CNN和增强学习的Q-Learning，游戏智能通关的基本流程如下图：

利用CNN来识别游戏总马里奥的状态，并利用增强学习算法做出动作选择，然后根据新的返回状态和历史状态来计算reward函数从而反馈给Q函数进行迭代，不断的训练直到游戏能够通关。研究人员在训练了一个游戏后，将相同的参数用在别的游戏中发现也是适用的，说明该算法具有一定的普遍性。下图反映了一个学习的过程

而同样的方法，将DRL应用在马里奥上，github上有一个开源的实现方式：aleju/mario-ai
其最终的实现效果图如下：

我们发现在CNN识别过程中，每4帧图像，才会进行一次CNN识别，这是识别速率的问题，图中曲线反映了直接回报函数和简介回报函数。

摘自：http://www.cnblogs.com/Leo_wl/p/5852010.html