Не могу понять как реализовывается функция ошибки в нейросетях

Всем доброго дня! Я начинающий в области нейросети. Не много запутался в теории. У меня нейросеть с несколькими входными нейронами, 1 внешним слоем и с несколькими выходными нейронами. Имеется датасет с числами. При реализации обратного распространения ошибки я прогонял все 1000 датасетов, суммируя ошибку каждого выходного нейрона, а потом разделили эти ошибки на 1000. То есть, у меня есть 1000 цифр для обучения и 10 наблюдений(выходных нейронов для классификации цифр от 0-9) и я суммировал ошибки каждого выходного нейрона отдельно, то есть все 1000 ошибок, которые выглядели как sqrt(Ожидаемое предсказание-то что получилось при прямом распространении). И потом, получив этот вектор из 10 ошибок, я начинал реализовывать обратное распространение ошибки, считать градиенты. Так вот вопрос, данный подход как я понял только для модели где 1 выходной нейрон? А где несколько выходных нейронов, то не надо усреднять таким образом среди всех 1000 обучающихся прогонок? Извините, если вопрос показался не понятен и слишком огромным, попытался объяснить как мог. Спасибо, за понимание.


Ответы (0 шт):