Главное:
- Компания Alibaba представила новую модель QVQ-72B-Preview, предназначенную для визуального мышления.
- QVQ показывает результаты лучше, чем предшественница Qwen2-VL-72B-Instruct и сопоставимые с закрытыми моделями, такими как o1 от OpenAI.
- Модель продолжает развиваться и требует улучшений в области безопасности и стабильности.
Революция в визуальном мышлении
Недавно команда исследователей из Alibaba анонсировала новую открытая модель QVQ-72B-Preview, которая, как утверждается, является конкурентом таких крупных игроков, как OpenAI и Google в области визуального мышления. Эта модель имеет возможность анализировать изображения и проводить выводы на основе полученных данных, что делает её актуальной для задач, требующих высокого уровня рассуждений.
QVQ-72B-Preview основана на более старой модели Qwen2-VL-72B, но получила дополнительные возможности в плане обработки информации. Примечательно, что пользователи могут взаимодействовать с моделью, предоставляя не только изображения, но и текстовые инструкции. Модель отвечает с учетом уровня уверенности, что добавляет прозрачности в процесс анализа.
Тесты и достижения
При тестировании качества работы QVQ использовались четыре критерия, включая задачи визуальной информации на уровне колледжа и более сложные математические графики. Интересно, что в этих тестах модель показала результаты, которые, как утверждается, сопоставимы с закрытыми моделями, такими как o1 от OpenAI и Claude 3.5 Sonnet. Это показывает, насколько значительно продвинулись технологии в вопросах визуального восприятия и анализа данных.
Стоит отметить, что, несмотря на впечатляющие результаты, команда Qwen признала наличие определенных ограничений в работе модели. Например, она может непредсказуемо переключаться между языками или теряться в циклах рассуждений, что вызывает аналогичные проблемы и у некоторых соперников.
Будущее AI и QVQ
Разработка QVQ является частью амбициозного проекта по созданию «всезнающей и интеллектуальной модели», которая может справляться с разнообразными научными задачами на уровне экспертов в различных областях. Кроме того, доступность исходного кода и возможность тестирования модели на платформе Hugging Face могут способствовать дальнейшим исследованиям и улучшениям в сфере визуального мышления.
В заключение, надо заметить, что появление QVQ-72B-Preview является важным шагом в направлении глобальных достижений в области искусственного интеллекта и открывает новые горизонты для применения технологий машинного обучения в различных сферах. Это только подчеркивает необходимость дальнейших исследований и разработок для создания более надежных и эффективных моделей.
Добавить комментарий