why gate 输入 input

gate 之所以也要以 input 作为输入，就是因为他要去判断，针对当前的输入数据，哪个 expert 表现的更好。一种 'stack model' 的感觉。

softmax真的好嘛

使用 softmax 起到了 weighted_sum stack 多模型的效果。

但是从实践和paper的说法，因为 softmax 有 exp的操作，会让 gate 输出的分数之间差距越来越大，最后就只让一个 expert 起到作用，即“极化”现象。

论文里面的操作是加入 dropout。我还想过，gradient clip，去掉 softmax 直接用 linear 映射，以及调整 learning rate。

几个任务对应几个 gate，于是，不同任务可以有完全不同的 experts 组合方式。

reference: http://www.adeveloperdiary.com/data-science/deep-learning/neural-network-with-softmax-in-python/

Reference: https://t.cj.sina.com.cn/articles/view/2674405451/9f68304b01900tidf