A Basal Ganglia Network Centric Reinforcement Learning Model and Its Application in Unmanned Aerial Vehicle

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

IEEE Transactions on Cognitive and Developmental Systems, 2018

Abstract

　　强化学习为机器学习带来了灵活性和通用性，而它们大多是数学优化驱动的方法，缺乏认知和神经证据。为了提供更多认知和神经机制驱动的基础并验证其在复杂任务中的适用性，我们开发了以基底神经节(BG)网络为中心的强化学习模型。与现有的BG建模工作相比，本文的独特之处在于：1) 考虑了眶额皮层(OFC)。OFC在决策中至关重要，因为它负责奖励表征，并且在控制学习过程中至关重要，而大多数以BG为中心的模型不包括OFC；2）为了弥补数值记忆的不准确，提出了精确编码，使工作记忆系统在学习过程中记住重要的数值。该方法结合了向量卷积和按位存储的思想，对于精确值存储是高效的；和 3）对于信息编码，Hodgkin-Huxley模型用于获得对具有大量离子活性的动作电位的更具生物学可信度的描述。为了验证所提出模型的有效性，我们将该模型应用于3-D环境中的无人机(UAV)自主学习过程。实验结果表明，我们的模型能够赋予无人机在环境中自由探索的能力，并且具有与Q学习算法相当的学习速度，而我们模型的主要进步在于它具有扎实的认知和神经基础。

Index Terms—Basal ganglia (BG) network, brain-inspired intelligence, precise encoding, reinforcement learning model, unmanned aerial vehicle (UAV) autonomous learning.

I. INTRODUCTION

II. MOTIVATIONS AND PREVIOUS WORK

A. Motivations

B. Neuroanatomy of Basal Ganglia Circuitry

C. Rate Coding Model of the Basal Ganglia

III. METHODS

A. Hodgkin–Huxley Model

B. Orbitofrontal Cortex in the Reinforcement Learning Model

C. Precise Encoding for Working Memory

D. Basal Ganglia Centric Reinforcement Learning Model

IV. MODEL APPLICATION: UAV REINFORCEMENT LEARNING IN UNKNOWN 3-D ENVIRONMENT

A. UAV’s Coordinate System and Distance Measurement

B. State and Action Space

C. Reward Space

V. EXPERIMENTS

A. Precise Encoding

B. Hodgkin–Huxley Model-Based Basal Ganglia Action Selection Process

C. UAV Reinforcement Learning for Autonomous Obstacle Avoidance

VI. CONCLUSION