Есть ли у сеток трансформеров скрытые состояния?
Имеют ли сетки трансформеры скрытые состояния между итерациями, или нет? Т.е. они считают результат только на основе входных данных, или же еще используют скрытые состояния с предыдущих шагов. Если нет, то получается, что GPT сетки могут генерировать текст только на основе доступного окна данных, а все что дальше, того они не знают о контексте. Это так?
А если есть таковые состояния, то как их можно получить после вычислений и установить/заменить для новой итерации своим кодом для PyTorch?