Explainable Reinforcement Learning Through a Causal Lens

发表时间：2019（AAAI 2020）
文章要点：这篇文章通过构建一个图结构，来解释为啥agent要做/不做某个动作。具体来说就是先把某个问题给抽象成一个图结构，定义状态动作回报等关键信息的节点和边，然后在训练RL的时候也顺便用数据来训练这个图。训练完了之后，就根据图用深度优先搜索去找，做某个动作或者不做某个动作最后导致的结果是啥，然后就说一定程度上对RL的策略做了解释。
总结：这个文章也太晦涩了，不知道在说什么，里面太多心理学的词汇，比如Causal Lens，minimally complete，structural equations，task prediction，5-point Likert Explanation Satisfaction Scale，其实方法和RL关系不大。
疑问：只知道个大概意思，其实不是很懂怎么去构造图的，也不懂怎么去训练的。structural causal model需要人为构造吗，那如果问题太复杂或者我们对问题并不完全了解，该怎么去构造？structural equations具体指的是什么，怎么去学的？DAG是啥？
5-point Likert Explanation Satisfaction Scale是啥？文章还说如果图太大，找不到complete的解释，所以就去找minimal explanations，不知道这两的定义是啥，也不知道具体咋找的。