Вебинары Разобраться в IT Реферальная программа
Программирование Аналитика Дизайн Маркетинг Управление проектами
26 Дек 2024
2 мин
3

Qwen представила QVQ: новый соперник OpenAI и Google в области визуального мышления

Главное:

  • Компания Alibaba представила новую модель QVQ-72B-Preview, предназначенную для визуального мышления.
  • QVQ показывает результаты лучше, чем предшественница Qwen2-VL-72B-Instruct и сопоставимые с закрытыми моделями, такими как o1 от OpenAI.
  • Модель продолжает развиваться и требует улучшений в области безопасности и стабильности.

Революция в визуальном мышлении

Недавно команда исследователей из Alibaba анонсировала новую открытая модель QVQ-72B-Preview, которая, как утверждается, является конкурентом таких крупных игроков, как OpenAI и Google в области визуального мышления. Эта модель имеет возможность анализировать изображения и проводить выводы на основе полученных данных, что делает её актуальной для задач, требующих высокого уровня рассуждений.

QVQ-72B-Preview основана на более старой модели Qwen2-VL-72B, но получила дополнительные возможности в плане обработки информации. Примечательно, что пользователи могут взаимодействовать с моделью, предоставляя не только изображения, но и текстовые инструкции. Модель отвечает с учетом уровня уверенности, что добавляет прозрачности в процесс анализа.

Тесты и достижения

При тестировании качества работы QVQ использовались четыре критерия, включая задачи визуальной информации на уровне колледжа и более сложные математические графики. Интересно, что в этих тестах модель показала результаты, которые, как утверждается, сопоставимы с закрытыми моделями, такими как o1 от OpenAI и Claude 3.5 Sonnet. Это показывает, насколько значительно продвинулись технологии в вопросах визуального восприятия и анализа данных.

Стоит отметить, что, несмотря на впечатляющие результаты, команда Qwen признала наличие определенных ограничений в работе модели. Например, она может непредсказуемо переключаться между языками или теряться в циклах рассуждений, что вызывает аналогичные проблемы и у некоторых соперников.

Будущее AI и QVQ

Разработка QVQ является частью амбициозного проекта по созданию «всезнающей и интеллектуальной модели», которая может справляться с разнообразными научными задачами на уровне экспертов в различных областях. Кроме того, доступность исходного кода и возможность тестирования модели на платформе Hugging Face могут способствовать дальнейшим исследованиям и улучшениям в сфере визуального мышления.

В заключение, надо заметить, что появление QVQ-72B-Preview является важным шагом в направлении глобальных достижений в области искусственного интеллекта и открывает новые горизонты для применения технологий машинного обучения в различных сферах. Это только подчеркивает необходимость дальнейших исследований и разработок для создания более надежных и эффективных моделей.

Добавить комментарий