Главное:
- Компания ByteDance представила новую AI-модель под названием INFP, позволяющую оживлять статичные изображения с помощью звука.
- Модель автоматически определяет роли собеседников и генерирует реалистичные видеопереписки, учитывая мимику и движения.
- ByteDance создала специальную базу данных DyConv, которая включает более 200 часов разговоров для тренировки системы.
Что такое модель INFP и как она работает
Новая модель INFP (Interactive, Natural, Flash and Person-generic) от компании ByteDance революционизирует подход к видеообщению. Она способна брать статичные портретные фотографии и буквально «оживлять» их, делая так, чтобы они говорили и реагировали на звуковые входы. Одной из ключевых особенностей INFP является ее способность автоматического определения ролей в разговоре. Это избавляет пользователей от необходимости вручную назначать, кто будет говорить, а кто слушать, что упрощает процесс создания диалогов и делает его более естественным.
Технология делится на два этапа: во-первых, система анализирует множество видео для изучения движений головы и мимики, что позволяет ей улавливать нюансы общения. Во-вторых, при помощи «motion guider» система сопоставляет звуковые волны с движениями, что создает более плавную и реалистичную анимацию. Интересно, что подобные подходы в AI уже не новость, однако их интеграция в создание разговоров между статичными изображениями открывает совершенно новые горизонты для популяризации таких технологий.
Создание уникальной базы данных DyConv
Для успешного обучения модели ByteDance разработала уникальную базу данных под названием DyConv. В ней собрано более 200 часов реальных разговоров, что является значительным достижением по сравнению с известными аналогами, такими как ViCo и RealTalk. DyConv предлагает не только более широкий спектр человеческих эмоций, но и высокое качество видеоизображения, что делает его идеальным инструментом для тренировки INFP.
Эта база данных позволит значительно улучшить точность синхронизации движений губ с речью, а также добавить уникальные черты лица каждого собеседника, что в свою очередь будет способствовать созданию максимально естественного результата. По данным исследований, использование таких технологий может привести к увеличению уровня вовлеченности пользователей, что важно для платформ, где визуализация занимает ключевую роль.
Этические и будущие перспективы технологии
Несмотря на потенциал, связанный с моделью INFP, разработчики осознают возможные риски, такие как злоупотребление технологиями для создания фальшивых видеозаписей. В связи с этим ByteDance намерена ограничить доступ к своей технологии в исследовательских учреждениях, что, по мнению экспертов, является правильным шагом в соблюдении этических норм.
На данный момент INFP функционирует только с аудиоинформацией, однако команда активно работает над расширением функционала до работы с изображениями и текстом. Их амбициозная цель — разработать системы, которые смогут анимировать не только лица, но и целые фигуры, тем самым поднимая планку для использования AI в сфере цифрового общения и создания контента. С учетом того, что TikTok и CapCut уже являются популярными платформами, у ByteDance есть все шансы на успешную интеграцию этой инновации.
Добавить комментарий