为什么bert的input三个embedding需要相加 为何要把三个embedding相加 见https://www.zhihu.com/question/374835153/answer/1080315948 简单的来说就是是向量的大小,方向,语义多样化