Почему LSTM идет раньше self-attention?

В большом количестве примеров для задачи классификации текстов слой self-attention идет после слоя RNN/LSTM/GRU. Чем может быть мотивирован данный порядок? Кажется, что self-attention обладает преимуществом при обработке последовательностей (особенно длинных), что позволит вначале перевзвесить эмбеддинги слов, а затем уже обработать их с помощью слоев с памятью.


Ответы (0 шт):