Есть ли у сеток трансформеров скрытые состояния?

Автор вопроса: Victor Telnov

Имеют ли сетки трансформеры скрытые состояния между итерациями, или нет? Т.е. они считают результат только на основе входных данных, или же еще используют скрытые состояния с предыдущих шагов. Если нет, то получается, что GPT сетки могут генерировать текст только на основе доступного окна данных, а все что дальше, того они не знают о контексте. Это так?

А если есть таковые состояния, то как их можно получить после вычислений и установить/заменить для новой итерации своим кодом для PyTorch?

Источник

БЛОГ НА HUSL

Есть ли у сеток трансформеров скрытые состояния?

Ответы (0 шт):