Правильно ли я понимаю одно из преимуществ сверточной нейронной сети над обычной для классификации изображений
В глубоком обучении новичок, не судите строго. Так допустим я хочу использовать обычную нейронную сеть для классификации изображений, человек ли это или нет.
Картинка всего имеет допустим 680 пикселей. На нейроны входного слоя поступают значение пикселей, нейроны скрытого слоя же, выявляют некоторые черты лица, и нейрон отмеченный зеленым цветом допустим отвечает за поиск носа.(допустим)
И допустим при обучении этой нейронной сети, большинство пикселей на которых был расположен нос это пиксели 50-75(допустим), это значит, что веса между нейронами 50-75 входного слоя и нейроном скрытого слоя отвечающий за нос(зеленый) намного больше чем между другими нейронами входного слоя и этим нейроном скрытого слоя.
В таком случае если мы будем хотим классифицировать картинку, которую нейронная сеть раньше не видела, на которой нос находится на других пикселях, допустим 220-245 , в таком случае веса между нейронами 220-245 и нейроном скрытого слоя отвечающего за нахождение носа будут не подходить.
И правильно ли я понимаю, что в этом как раз таки большое преимущество сверточной нейронной сети и использования в ней фильтров, над обычной для классификации изображений?
Ответы (1 шт):
Немного не так. Вообще если смотреть практическую составляющую, а именно преимущества, то это очевидно скорость операции; это происходит потому, что, условно, мы сворачиваем картинку 512х512 на 32x32; из-за этого в полносвязном слое необходимо находить меньше параметров, а значит, что и искать их можно будет быстрее. Если возвращаться к вашей теории, то необходимо заметить, что свёртка и правда позволяет "разделять влияние" будто бы как на все нейроны, но нужно заметить, что такого понятия, как "этот вес отвечает чётко за этот пиксель" нет именно потому, что изображение сворачивается, и нейрон уже получит на вход результат математических операций над несколькими соседними пикселями.
UPD: Не забудьте о необходимости иметь более широкую выборку при использовании CNN, потому что, как я сказал ранее, нейроном анализируется не один пиксель, а несколько в некоторой степени.
