Почему LSTM идет раньше self-attention?

Автор вопроса: PolarNight

В большом количестве примеров для задачи классификации текстов слой self-attention идет после слоя RNN/LSTM/GRU. Чем может быть мотивирован данный порядок? Кажется, что self-attention обладает преимуществом при обработке последовательностей (особенно длинных), что позволит вначале перевзвесить эмбеддинги слов, а затем уже обработать их с помощью слоев с памятью.

Источник

БЛОГ НА HUSL

Почему LSTM идет раньше self-attention?

Ответы (0 шт):