注意力模型是深度學習中經常使用的一項技術。如同他的名字一般,注意力模型會學習資料中關鍵的部分,並加強其學習權重。這能讓在訓練多層數模型時,梯度穩定且提升模型的性能,針對翻譯、圖像或是語音處理都有良好的效果。
在基本的注意力模型架構中,主要有三個關鍵的要素:Query、Key 和 Value。Query可以被視為模型的問題,是紀錄了目前模型對於資料和解答間關聯性強弱的向量。Key 是和訓練資料相關的向量,比如詞語或圖像中的特徵。在模型訓練中的第一步便是將Query和Key向量進行相似度計算,可能透過加法或是內積,並得到兩者的相似分數。這組分數會再透過Softmax函數,轉換為總和為1的權重。最後將實際的輸入數據Value和權重加權後則能產生最終的輸出。