Исследователи инженерной школы Тандон Нью-Йоркского университета разработали новую технологию искусственного интеллекта, позволяющую изменять видимый возраст человека на изображениях, сохраняя при этом его уникальные идентификационные признаки, что является значительным шагом вперед по сравнению со стандартными моделями искусственного интеллекта, которые могут заставить людей выглядеть моложе или старше, но не сохраняют их индивидуальные биометрические идентификаторы.
В статье, опубликованной на сервере предварительной печати arXiv и которая будет представлена на конференции IEEE International Joint Conference on Biometrics (IJCB), Судипта Банерджи, первый автор статьи и доцент-исследователь кафедры компьютерных наук и инженерии (CSE), и коллеги подготовили тип генеративная модель искусственного интеллекта — модель скрытой диффузии — позволяет “знать”, как выполнить возрастную трансформацию с сохранением идентичности.
Чтобы сделать это, Банерджи, работая с кандидатом наук CSE Говиндом Митталом и аспирантом Амеей Джоши под руководством Чинмая Хегде, доцента CSE, и Насира Мемона, профессора CSE, преодолел типичную проблему в такого рода работе, а именно собрал большой набор обучающих данных, состоящий из изображений, которые показывайте отдельных людей на протяжении многих лет.
Вместо этого команда обучила модель небольшому набору изображений человека, а также отдельному набору изображений с подписями, указывающими возрастную категорию изображаемого человека: ребенок, подросток, молодой взрослый, среднего возраста, пожилой или немолодой. В этот набор вошли снимки знаменитостей, сделанные на протяжении всей их жизни.
Модель изучила биометрические характеристики, по которым можно было идентифицировать людей из первого набора. Изображения с возрастными подписями научили модель взаимосвязи между изображениями и возрастом. Затем обученную модель можно было бы использовать для имитации старения или замедления старения путем указания целевого возраста с помощью текстовой подсказки.
Исследователи использовали метод под названием “DreamBooth” для редактирования изображений человеческого лица путем постепенной модификации их с помощью комбинации компонентов нейронной сети. Метод включает добавление и удаление шума — случайных вариаций или возмущений — к изображениям с учетом лежащего в их основе распределения данных.
Этот подход использует текстовые подсказки и метки классов для управления процессом создания изображений, уделяя особое внимание сохранению специфических деталей и общему качеству изображения. Для точной настройки модели нейронной сети используются различные функции потерь, и эффективность метода демонстрируется с помощью экспериментов по созданию изображений человеческого лица с возрастными изменениями и контекстуальными вариациями.
Исследователи протестировали свой метод на других существующих методах возрастной модификации, попросив 26 добровольцев сопоставить сгенерированное изображение с реальным изображением этого человека, а также с ArcFace, алгоритмом распознавания лиц. Они обнаружили, что их метод превзошел другие методы, снизив частоту неправильных отклонений до 44%.