What is ‘self-attention’ in transformer models?

Question

AI Fundamentals — Medium

What is ‘self-attention’ in transformer models?

Accepted Answer

Self-attention in transformer models allows each element in a sequence to consider all other elements, enabling the computation of context-aware representations.