Компания Allen AI представила открытую модель Tülu 3 405B, способную конкурировать с ведущими решениями на рынке

Пройдите тест, узнайте какой профессии подходите

Содержание

Вконтакте

Одноклассники

Скопировать ссылку

Институт Аллена представил языковую модель Tülu 3 405B, сопоставимую с DeepSeek V3 и GPT-4o, благодаря новому обучающему методу RLVR.

Иван Дигиталов

Автор статьи

Главное:

Институт искусственного интеллекта Аллена (AI2) запустил новую языковую модель Tülu 3 405B с открытым исходным кодом.

Модель отвечает за более 405 миллиардов параметров и демонстрирует сравнимую или большую производительность, чем DeepSeek V3 и GPT-4o.

Уникальный метод обучения под названием RLVR позволяет модели выдавать проверяемые правильные ответы, особенно в области математики.

Прорыв в области языковых моделей

Недавно Институт искусственного интеллекта Аллена (AI2) представил свою новую языковую модель — Tülu 3 405B. Эта модель, основанная на Llama 3.1, обладает более чем 405 миллиардами параметров. Важно отметить, что модель создана с использованием метода обучения, называемого «обучение с подкреплением с проверяемыми вознаграждениями» (RLVR). Этот подход помогает системе лучше справляться с математическими задачами и выдает точно проверяемые ответы.

Согласно команде AI2, данный метод позволил значительно улучшить производительность Tülu по сравнению с другими аналогичными моделями, включая DeepSeek V3 и GPT-4o. Действительно, результаты этого исследования подчеркивают эффективность RLVR, учитывая, что он отвечает не просто за количество, а за качество и надежность выдаваемой информации.

Технические достижения и сложности

Процесс обучения Tülu 3 405B требовал значительных вычислительных ресурсов. Команда AI2 использовала 32 вычислительных узла, соединенных вместе с 256 графическими процессорами. Каждый этап обучения занимал 35 минут, что требует не только высокого уровня координации, но и значительных технических навыков.

В процессе работы над моделью возникали особенности, которые редко обсуждаются в других компаниях, разрабатывающих аналогичные технологии. Постоянные технические трудности требовали от команды креативного подхода и развития обходных решений, таких как использование вспомогательной модели меньшего размера для управления нагрузкой.

Доступность и потенциал модели

Пользоваться новой моделью Tülu 3 405B можно будет через AI2 Playground, а исходный код доступен на GitHub. Это открывает новые горизонты для разработчиков и исследователей в сфере искусственного интеллекта. Открытая модель с ее мощными возможностями может стать отличной основой для создания еще более умных приложений, делающих акцент на точности и верификации выдаваемых данных.

Интересно отметить, что такие крупные языковые модели становятся все более доступными для широкой аудитории, что, в свою очередь, стимулирует исследовательскую и практическую активность в различных областях, включая образование, рекламу и даже научные исследования. Технология с открытым исходным кодом позволяет пользователям адаптировать и развивать модель в соответствии с потребностями своих проектов, что должно привести к еще большему количеству инноваций.

Пройди тест: кто я в IT

Компания Allen AI представила открытую модель Tülu 3 405B, способную конкурировать с ведущими решениями на рынке

Прорыв в области языковых моделей

Технические достижения и сложности

Доступность и потенциал модели

Добавить комментарий

Ещё по теме