注意力模型是深度學習中經常使用的一項技術。如同他的名字一般,注意力模型會學習資料中關鍵的部分,並加強其學習權重。這能讓在訓練多層數模型時,梯度穩定且提升模型的性能,針對翻譯、圖像或是語音處理都有良好的效果。
在基本的注意力模型架構中,主要有三個關鍵的要素:Query、Key 和 Value。
Query(Q) 可以被視為模型的「提問」,是紀錄了目前模型對於資料和解答間關聯性強弱的向量。
Key (K) 是和訓練資料相關的向量,比如詞語或圖像中的特徵。在模型訓練中的第一步便是將Query和Key向量進行相似度計算,可能透過加法或是內積,並得到兩者的相似分數。這組分數會再透過函數如Softmax,轉換為總和為1的權重。
Value (V) 最後的實際輸入數據。和權重加權後則能產生最終的輸出,用於後續模型層的處理。
可以先閱讀 CLAM
注意力模型能夠幫助標註影像中最重要的部分,特別適用於WSI影像的訓練。由於WSI影像中組織的分佈不均且結構複雜,注意力模型可以幫助模型聚焦於真正關鍵的組織或細胞,提升影像分析的準確性。