Attention Is All Your Need¶

关于Attention的定义¶

Attention函数可以看做是一个映射，从 query && key-value对的集合 -> output 的映射 。其中 query, key, value, output 均是向量。

由 key & key 算出一个归一化的常量，然后用这个常量在对应的value上加权；加权后的结果相加，就是output .

两种常见的attention¶

一种是 additive attention (Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. CoRR, abs/1409.0473, 2014.), 另一种是 dot-product(multiplicative) attention.

尽管加法attention和点积attention有理论上相同的复杂度，但是点积attention在实际中更快，更省内存；因为它可以用矩阵乘法来高度优化！

当query和key的维度比较小时，加法attention与点积attention效果类似；但是当其维度较大时，加法attention就比不带scale的点积attention好！猜测是因为当维度大时，点积结果的magnitude很大，从而进入到softmax函数的极度低梯度的范围。所以，为了抵消这个影响，我们用 $ sqrt d_k $ 来缩放这个magnitude.

为什么magnitude会很大？是因为 query, key 都是均值为0，方差为1的独立随机变量，它们的点积 $ q dot k = sum_{i=1}^{d_k} q_i k_i $ 就是一个均值为0，方差为的 $ d_k $ 的结果。

这也解释了为什么要除以 $ sqrt d_k $：这样方差又成了1 ？？

Multi-Head Attention¶

传统的attention，就是在 query, key, value 上直接算一个加权结果。Multi-Head attention, 则是将用多个映射，分别将 query, key, value 单独映射为多个表示 [ (query_1, key_1, value_1), (query_2, key_2, value_2), ...]，再在映射的结果上分别算attention，得到 [output1, output2, ...], 最后把这些output拼接后做一个映射，得到最终的output；

好处就是，允许模型联合地去关注输入的不同位置的不同子空间的表示。这个是单个的attention所不能做到的。

其实还是好理解，就类比与 CNN 的多个filter吧。

实际种，用的一个矩阵来分别映射query，key，value；而且，映射后的维度为原始维度除以head的数量，这样其实整体的运算量不变。