Attention 中的Query, Keys, Values

Attention 中的query, keys, values

计算attention的过程可以看成在(key,value) pairs中查询query:

在Seq2Seq模型中,query是decoder当前的状态,所有的key是encoder每一步的hidden state。计算align score的过程就可以看成计算query和key的相似度。把这些相似度作为权重,计算encoder的所有hidden state的按权重求和,得到context vector。所以在Seq2Seq模型中,value和key是同一个东西。但是从 query, keys, values 的角度看attention更具有启发性。