Вебинары Разобраться в IT Реферальная программа
Программирование Аналитика Дизайн Маркетинг Управление проектами
05 Янв 2025
3 мин
9

ByteDance представила новую AI-модель, которая оживляет статичные изображения с помощью звукового сопровождения

ByteDance создала AI-систему INFP, которая оживляет статичные портреты, позволяя им говорить и реагировать на звуки в реальном времени.

Главное:

  • Компания ByteDance представила новую AI-модель под названием INFP, позволяющую оживлять статичные изображения с помощью звука.
  • Модель автоматически определяет роли собеседников и генерирует реалистичные видеопереписки, учитывая мимику и движения.
  • ByteDance создала специальную базу данных DyConv, которая включает более 200 часов разговоров для тренировки системы.

Что такое модель INFP и как она работает

Новая модель INFP (Interactive, Natural, Flash and Person-generic) от компании ByteDance революционизирует подход к видеообщению. Она способна брать статичные портретные фотографии и буквально «оживлять» их, делая так, чтобы они говорили и реагировали на звуковые входы. Одной из ключевых особенностей INFP является ее способность автоматического определения ролей в разговоре. Это избавляет пользователей от необходимости вручную назначать, кто будет говорить, а кто слушать, что упрощает процесс создания диалогов и делает его более естественным.

Технология делится на два этапа: во-первых, система анализирует множество видео для изучения движений головы и мимики, что позволяет ей улавливать нюансы общения. Во-вторых, при помощи «motion guider» система сопоставляет звуковые волны с движениями, что создает более плавную и реалистичную анимацию. Интересно, что подобные подходы в AI уже не новость, однако их интеграция в создание разговоров между статичными изображениями открывает совершенно новые горизонты для популяризации таких технологий.

Создание уникальной базы данных DyConv

Для успешного обучения модели ByteDance разработала уникальную базу данных под названием DyConv. В ней собрано более 200 часов реальных разговоров, что является значительным достижением по сравнению с известными аналогами, такими как ViCo и RealTalk. DyConv предлагает не только более широкий спектр человеческих эмоций, но и высокое качество видеоизображения, что делает его идеальным инструментом для тренировки INFP.

Эта база данных позволит значительно улучшить точность синхронизации движений губ с речью, а также добавить уникальные черты лица каждого собеседника, что в свою очередь будет способствовать созданию максимально естественного результата. По данным исследований, использование таких технологий может привести к увеличению уровня вовлеченности пользователей, что важно для платформ, где визуализация занимает ключевую роль.

Этические и будущие перспективы технологии

Несмотря на потенциал, связанный с моделью INFP, разработчики осознают возможные риски, такие как злоупотребление технологиями для создания фальшивых видеозаписей. В связи с этим ByteDance намерена ограничить доступ к своей технологии в исследовательских учреждениях, что, по мнению экспертов, является правильным шагом в соблюдении этических норм.

На данный момент INFP функционирует только с аудиоинформацией, однако команда активно работает над расширением функционала до работы с изображениями и текстом. Их амбициозная цель — разработать системы, которые смогут анимировать не только лица, но и целые фигуры, тем самым поднимая планку для использования AI в сфере цифрового общения и создания контента. С учетом того, что TikTok и CapCut уже являются популярными платформами, у ByteDance есть все шансы на успешную интеграцию этой инновации.

Добавить комментарий