为什么bert的input三个embedding需要相加

为何要把三个embedding相加

见https://www.zhihu.com/question/374835153/answer/1080315948

简单的来说就是是向量的大小,方向,语义多样化

原文地址:https://www.cnblogs.com/gaowenxingxing/p/13862757.html