Может ли нейросеть стабильно сходиться на обучаемых значениях, и не сходиться на тестовых?

Я использую сети LSTM вместе с большим датасетом.

Датасет - большое количество временных измерений. При этом loss, абсолютная ошибка и среднеквадратичная ошибка на обучаемых данных уменьшаются стабильно, с каждой эпохой, а на тестовых не уменьшаются вообще.

Т.е. речь не идет о переобучении. Такое вообще возможно (с точки зрения логики работы, ведь датасет условно однороден, т.е. если нейронная сеть аппроксимирует обучающую выборку, должна аппроксимировать и тестовую)? При этом это не зависит от размера датасета - на разных длиннах обучающей/тестовой выборки ситуация повторяется

Или я где-то накосячил с получением обучающего и тестового набора? Спасибо.

P.S. Визуально на графиках условная повторяемость прослеживается


Ответы (1 шт):

Автор решения: Сергей

Это все равно переобучение - сеть запоминает примеры, но не работает на тестах (=хорошее обучение и плохая работа с тестовыми последовательностями).

Три варианта, почему она переобучается (а в рекомендованном порядке применения):

  1. Излишняя информационная емкость. а) Попробуйте уменьшить количество слоёв/нейронов. б) Попробуйте уменьшить последовательность до минимума.
  2. Вообще не та архитектура (не та сеть выбрана - рекуррентная сеть хороша, но не на все случаи жизни). Какая задача поставлена?
  3. Неудачный датасет. Посмотрите методы предобработки и примените их.

По терминологии: "обучающие" примеры - не "обучаемые".

→ Ссылка