Главное:
- Stability AI выпустила новую модель Stable Diffusion 3.5 Large с 8 миллиардами параметров.
- Модель основана на архитектуре Multimodal Diffusion Transformer (MMDiT) и использует три предобученных текстовых энкодера.
- Stable Diffusion 3.5 Large доступна для бесплатного использования с ограничениями для коммерческих организаций.
Обновление Stable Diffusion
Недавно Stability AI представила Stable Diffusion 3.5 Large, последнюю версию своей модели генерации изображений на основе текстовых запросов. Эта модель, обладающая удивительными 8 миллиардами параметров, значительно улучшает качество генерируемых изображений по сравнению с предыдущими версиями. Архитектура Multimodal Diffusion Transformer (MMDiT) гарантирует более высокую скорость обработки и точность.
Модель включает три предобученных текстовых энкодера: OpenCLIP-ViT/G, CLIP-ViT/L и T5-xxl. Это позволяет системе учитывать контекст и создавать более детализированные и соответствующие изображения. Например, использование T5-xxl обеспечивает возможность более обширного контекстного анализа, что особенно важно для сложных сцен.
Качество генерации изображений
По отзывам пользователей недостатками стабильной диффузии 3.5 Large остаются проблемы с анатомической согласованностью изображений, хотя качество фотореализма и эстетики значительно улучшилось. Проверки показывают, что новинка в большинстве случаев переигрывает предыдущую версию, хотя иногда уступает аналогам, таким как FLUX.
Из интересных фактов, издержки на генерацию изображений в режиме реального времени при использовании Deep Learning моделей сократились на 30% за последние два года, что, несомненно, позволяет более широкой аудитории использовать эти технологии. Это, в свою очередь, стимулирует развитие креативной индустрии.
Лицензирование и доступность
Согласно условиям лицензии Stability Community License, модель может использоваться бесплатно как для исследовательских, так и для коммерческих целей при условии, что годовой доход организации не превышает 1 миллиона долларов. Для более крупных организаций необходимо будет получить коммерческую лицензию, что демонстрирует намерение компании сохранить баланс между доступностью технологий и защитой собственных интересов.
Важным аспектом является возможность локального запуска модели с помощью инструментов, таких как ComfyUI и Diffusers. Это открывает путь для разработчиков настраивать и улучшать модель под свои нужды, что способствует дальнейшему развитию коммьюнити вокруг Stable Diffusion.
Добавить комментарий