Почему для обучения полносвязной сети мне нужно много эпох?

Видел, что большим нейросетям в общем нужно для обучения меньше 100 эпох.

Для той, что я написал вручную нужно несколько тысяч

введите сюда описание изображения И еще мой learning_rate заметно больше стандартных для обучения.

Кажется, что я неправильно её реализовал, но как показывает accurancy - она нормально учится. (обучал на digit - recognizer)

Какие могут быть причины?


Ответы (0 шт):