Self-attention_P2
从这一排 vector 得到 ,跟从这一排 vector 得到 ,它的操作是一模一样的.要强调一点是,这边的 到 ,它们并不需要依序產生,它们是一次同时被计算出来的
怎麼计算这个 ?我们现在的主角,就变成
-
把 乘上一个 matrix,变成
-
然后接下来根据 ,去对到 这四个位置,都去计算 attention 的 score
- 把 跟 做个这个 dot product
- 把 跟 也做个 dot product
- 把 跟 也做 dot product
- 把 跟 也做 dot product,得到四个分数
-
得到这四个分数以后,可能还会做一个 normalization,比如说 softmax,然后得到最后的 attention 的 score,那我们这边用 表示经过 normalization 以后的attention score
-
接下来拿这四个数值,分别乘上
- 把 乘上
- 把 乘上
- 把 乘上