Почему для обучения полносвязной сети мне нужно много эпох?
Видел, что большим нейросетям в общем нужно для обучения меньше 100 эпох.
Для той, что я написал вручную нужно несколько тысяч
И еще мой learning_rate заметно больше стандартных для обучения.
Кажется, что я неправильно её реализовал, но как показывает accurancy - она нормально учится. (обучал на digit - recognizer)
Какие могут быть причины?