Alibaba представила открытую модель Qwen, способную обрабатывать 1 миллион входных токенов.

Пройдите тест, узнайте какой профессии подходите

Содержание

Вконтакте

Одноклассники

Скопировать ссылку

Команда Qwen от Alibaba представила новые модели Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M, способные обрабатывать до миллиона токенов.

Иван Дигиталов

Автор статьи

Главное:

Компания Alibaba представила модели Qwen2.5 с открытым исходным кодом, способные обрабатывать до 1 миллиона токенов.

Новые модели демонстрируют скорость обработки данных от трех до семи раз быстрее традиционных методов.

В тестах они показали точность, превышающую результаты аналогичных моделей в сложных задачах.

Инновации Китая в области искусственного интеллекта

Команда Qwen от Alibaba представила две новые модели в рамках своего семейства Qwen2.5 — Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M. Эти модели выделяются на фоне конкуренции своей способностью обрабатывать контекстные окна длиной до 1 миллиона токенов. Для сравнения, многие существующие модели работают с заметно меньшими объемами данных, что ограничивает их применение в сложных сценариях.

Обработка данных в таких объемах позволяет Qwen сравнивать с наиболее мощными системами, применяемыми в сфере искусственного интеллекта сегодня. Скорость, с которой эти модели обрабатывают данные, также имеет значительное значение для эффективного решения задач, связанных с обработкой информации. В частности, использование редкого внимания фокусируется лишь на ключевых фрагментах текста, что делает процесс значительно более трудозатратным.

Тестирование и результаты

Тестирование моделей Qwen2.5 показало, что они эффективно справляются с поиском информации в больших текстовых объемах, что полезно для задач, требующих извлечения конкретных данных. По результатам тестов моделей Qwen2.5 на задачах RULER, LV-Eval и LongbenchChat, модели с 1 миллионом токенов достигли высокой точности при работе с последовательностями длиной более 64 000 токенов. Особенно модель Qwen2.5-14B поразила своей производительностью, набрав более 90 баллов в тестах, что свидетельствует о её преимуществах перед аналогами, такими как GPT-4.

Несмотря на привлекательность больших контекстных окон, важно учитывать, что они не всегда обоснованно превосходят другие архитектуры, такие как системы RAG, которые используют внешние базы данных. Эти системы могут работать быстрее и эффективнее, даже при использовании меньших объемов данных в контексте.

Доступность и будущее

Alibaba позволяет пользователям тестировать новые модели Qwen через интерфейс Qwen Chat, что сопоставимо с использованием ChatGPT, что открывает доступ к последним достижениям в области искусственного интеллекта. Это может значительно изменить конкурентный ландшафт, так как китайские технологии начинают соперничать с American AI провайдерами, предлагая аналогичные функции по более низким ценам.

С учетом статистики, число пользователей, заинтересованных в использовании передовых технологий анализа данных и искусственного интеллекта, постоянно растёт. Модели Qwen2.5 предоставляют новые возможности для исследователей и компаний, работающих с большим объемом информации. Появление моделей с открытым исходным кодом создаёт идеальные условия для дальнейших разработок в области ИИ, что может привести к открытию новых горизонтов в анализе и обработке данных.

Пройди тест: кто я в IT

Alibaba представила открытую модель Qwen, способную обрабатывать 1 миллион входных токенов.

Инновации Китая в области искусственного интеллекта

Тестирование и результаты

Доступность и будущее

Добавить комментарий

Ещё по теме