Может ли нейросеть стабильно сходиться на обучаемых значениях, и не сходиться на тестовых?
Я использую сети LSTM вместе с большим датасетом.
Датасет - большое количество временных измерений. При этом loss, абсолютная ошибка и среднеквадратичная ошибка на обучаемых данных уменьшаются стабильно, с каждой эпохой, а на тестовых не уменьшаются вообще.
Т.е. речь не идет о переобучении. Такое вообще возможно (с точки зрения логики работы, ведь датасет условно однороден, т.е. если нейронная сеть аппроксимирует обучающую выборку, должна аппроксимировать и тестовую)? При этом это не зависит от размера датасета - на разных длиннах обучающей/тестовой выборки ситуация повторяется
Или я где-то накосячил с получением обучающего и тестового набора? Спасибо.
P.S. Визуально на графиках условная повторяемость прослеживается
Ответы (1 шт):
Это все равно переобучение - сеть запоминает примеры, но не работает на тестах (=хорошее обучение и плохая работа с тестовыми последовательностями).
Три варианта, почему она переобучается (а в рекомендованном порядке применения):
- Излишняя информационная емкость. а) Попробуйте уменьшить количество слоёв/нейронов. б) Попробуйте уменьшить последовательность до минимума.
- Вообще не та архитектура (не та сеть выбрана - рекуррентная сеть хороша, но не на все случаи жизни). Какая задача поставлена?
- Неудачный датасет. Посмотрите методы предобработки и примените их.
По терминологии: "обучающие" примеры - не "обучаемые".