Главное:
- Исследователи Гонконгского университета науки и технологии представили открытую модель для генерации музыки под названием YuE.
- Модель может создавать музыкальные композиции продолжительностью до пяти минут с согласованной структурой.
- YuE работает в мультиязычном режиме, позволяя генерировать тексты песен на нескольких языках одновременно.
Что такое YuE и как она работает?
Новая разработка под названием YuE является открытой нейросетью для генерации музыки, разработанной командой исследователей из Гонконгского университета науки и технологии. Данная модель является бесплатным аналогом знаменитой Suno и предназначена для создания инструментальных треков и песен. Используя инновационный подход и языковую модель LLaMA, YuE способна генерировать композиции длительностью до пяти минут, сохраняя при этом музыкальную структуру и без значительных искажений текста.
Создатели YuE столкнулись с рядом проблем в области генерации музыки на основе текстов. Например, часто наблюдается неудачное сочетание слов и мелодии, где композиция искажается в угоду ритму. YuE интегрирует улучшенный аудиотокенизатор, который отвечает за более точное понимание семантики, а также применяет текстовые цепочки мыслей для работы с контекстом. Бытует мнение, что использование трехступенчатого метода обучения позволяет значительно увеличить масштабируемость модели.
Технические характеристики и требования
Для работы YuE требуется устройство с достаточно мощной видеопамятью. Высокие системные требования могут стать тем препятствием, которое ограничит доступ многих интересующихся. Например, для генерации одного куплета и одной версии припева нужно около 24 ГБ памяти, а при запуске более четырех сессий — не менее 80 ГБ. Время, необходимое для генерации 30 секунд музыки на графических процессорах, колеблется от 150 до 360 секунд в зависимости от используемого оборудования (Nvidia H800 или RTX 4090).
Эти высокие системные требования открывают интересный аспект — несмотря на впечатляющие результаты, доступность подобных технологий остается ограниченной для многих исследователей и музыкантов. По мере развития машинного обучения мы, возможно, увидим оптимизацию этих моделей, что позволит снизить ресурсоемкость.
Будущее генерации музыки с YuE
YuE не только предлагает возможности для создания музыки, но и делает это на различных языках. Это означает, что пользователи могут генерировать песни с текстами сразу на нескольких языках, что значительно расширяет границы творчества и доступности. Можно ожидать, что модель будет активно использоваться в различных сферах, от кино до рекламы и музыкальной индустрии.
Работа и результаты исследования команды YuE обещают открыть новые горизонты как для профессиональных музыкантов, так и для любителей. Код проекта доступен на GitHub с инструкциями по запуску и советами по его использованию. Это дает возможность каждому желающему попробовать себя в роли композитора, используя современные технологии и инструменты машинного обучения.
Тем не менее, как и в любых других сферах использования ИИ, важно учитывать юридические и этические аспекты. Генерация музыки с помощью алгоритмов должна учитывать авторские права и творческие права людей. Это все еще остаётся важным вопросом, который необходимо обсудить в будущем для устойчивого развития этой технологии.
Добавить комментарий