Исследователи Санкт-Петербургского федерального исследовательского центра РАН (СПб ФИЦ РАН) разработали интеллектуальный программный комплекс, который распознаёт управляющие жесты по видео. Такое решение можно использовать для дистанционного управления цифровыми системами и «умной» электроникой. Используемый набор алгоритмов искусственного интеллекта обеспечивает более высокую точность по сравнению с существующими коммерческими аналогами.
Сегодня технологии искусственного интеллекта (ИИ) активно внедряются в самые разные сферы жизни человека. ИИ-сервисы ускоряют обработку больших объёмов данных, повышают точность решений, оптимизируют процессы и открывают новые возможности для бизнеса, науки и повседневной жизни.
Одна из важных задач на пути дальнейшего внедрения ИИ-сервисов в жизнь человека — научить системы корректно распознавать весь спектр разнородной информации от пользователя: не только текст и речь, но также мимику, жесты и другие невербальные проявления.
В частности, одним из важных направлений, над которой в России работают специалисты крупнейших IT-компаний, является распознавание управляющих жестов (кивок, большой палец, отрицательное покачивание головой и прочие), которые активно используются в повседневной жизни, при переговорах и организации работ. Это особенно важно в случае интеллектуальных систем, где, например, случайное нажатие реальной кнопки может повлиять на безопасность работы или в условиях работы человека в виртуальной реальности. Поэтому сейчас подобные решения активно внедряются в коммерческое программное обеспечение с использованием технологий ИИ.
«Мы разработали программное обеспечение, позволяющее по видео распознавать широкий спектр управляющих жестов, которые в повседневной жизни и на работе активно использует каждый человек. Условно говоря, когда пользователь захочет позвонить или поставить „лайк“ под фото в соцсети, ему достаточно показать в камеру большой палец. Кроме того, в медицине или на пищевом производстве дистанционное управление оборудованием при помощи жестов поможет обеспечить высокий уровень гигиеничности», — поясняет старший научный сотрудник kаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Дмитрий Рюмин.
Разработанное в СПб ФИЦ РАН программное обеспечение (ПО) автоматически распознаёт 34 наиболее часто используемых управляемых жеста (включая отсутствие жеста), среди которых можно, например поставить «лайк», позвонить по телефону, поставить точку, выбрать предмет, а также знак «rock», принятый в музыкальной рок-культуре. Достаточно включить ПО на ноутбуке или компьютере и показать жест на камеру.
Масштабный корпус для обучения распознавания жестов содержал более одного миллиона изображений людей различного пола, возраста и национальности. Эти данные находятся в открытом доступе для исследователей всех стран мира.
Программное обеспечение исследователей действует в несколько этапов. Система сначала определяет на картинке человека, затем находит его руки. Для повышения качества распознавания используется сравнительно новая технология — нейросетевая модель, которая позволяет получать трёхмерную карту глубины изображения. Она помогает определять жесты даже в условиях, когда фон сливается с руками человека. Эта технология позволила добиться рекордной точности распознавания жестов — более 99,6 %.
«Наша система может использоваться как самостоятельный интерфейс управления цифровыми помощниками, а также как компонент мультимодальных приложений, которые взаимодействуют с пользователем через речь, текст, эмоциональные проявления и другие каналы», — отмечает стажёр-исследователь СПб ФИЦ РАН Сергей Федчин.
Исследование поддержано грантом РНФ (№ 24-71-00083). Программное обеспечение получило свидетельство о государственной регистрации.
Источник: пресс-служба СПб ФИЦ РАН.