Обучение модели по распознаванию динамических жестов
хочу создать нейросеть способную распознавать динамические жесты в режиме реального времени. Решил остановиться на модели GRU вместе с моделью Mediapipe, Mediapipe нужен для автоаннотирования. Если что Медиапайп это библиотека от Гугла включающая в себя обученную модель для обнаружения рук на изображении(в реальном времени, на видео, фото, неважно), и расставление ключевых точек на кистях рук. Для обучения хочу использовать видео которые запишу сам, на разные устройства, записывать разных людей(друзья, знакомые, одноклассники). В качестве входных данных в нейросеть подаются ключевые точки из медиапайпа. Я новичок в написании нейросетей, и у меня есть некоторые вопросы, такие как: В качестве данных для обучения все видео должны быть с одинаковой частотой кадров и одинаковой длительности? Если нет, то как тогда обучать на них модель(можете, пожалуйста, привести различные ссылки, гайды, если таковые имеются, но я найти не сумел :( , Слышал только про какой то паддинг, если он подходит, то напишите это, пожалуйста. Далее, я хотел бы распознавать одноручные и двуручные жесты. Есть вопрос, могут ли по этому поводу возникнуть проблемы, так как в кадре может присутсвовать главная рука, которая и выполняет жест, и лишняя. Как определять лишнюю руку? В целом, это все вопросы на данный момент, буду очень благадарен, за полученный ответ.