Attention model 注意力模型

S.E. Digital Pathology System Attention model 注意力模型

Attention model 注意力模型

6th Jan 2025 介紹 1 minute

注意力模型是深度學習中經常使用的一項技術。如同他的名字一般，注意力模型會學習資料中關鍵的部分，並加強其學習權重。這能讓在訓練多層數模型時，梯度穩定且提升模型的性能，針對翻譯、圖像或是語音處理都有良好的效果。

在基本的注意力模型架構中，主要有三個關鍵的要素：Query、Key 和 Value。Query可以被視為模型的問題，是紀錄了目前模型對於資料和解答間關聯性強弱的向量。Key 是和訓練資料相關的向量，比如詞語或圖像中的特徵。在模型訓練中的第一步便是將Query和Key向量進行相似度計算，可能透過加法或是內積，並得到兩者的相似分數。這組分數會再透過Softmax函數，轉換為總和為1的權重。最後將實際的輸入數據Value和權重加權後則能產生最終的輸出。

download

Previous Post Next Post

Attention model 注意力模型

Related Posts

Popular Tags