Главное:
- Институт искусственного интеллекта Аллена (AI2) запустил новую языковую модель Tülu 3 405B с открытым исходным кодом.
- Модель отвечает за более 405 миллиардов параметров и демонстрирует сравнимую или большую производительность, чем DeepSeek V3 и GPT-4o.
- Уникальный метод обучения под названием RLVR позволяет модели выдавать проверяемые правильные ответы, особенно в области математики.
Прорыв в области языковых моделей
Недавно Институт искусственного интеллекта Аллена (AI2) представил свою новую языковую модель — Tülu 3 405B. Эта модель, основанная на Llama 3.1, обладает более чем 405 миллиардами параметров. Важно отметить, что модель создана с использованием метода обучения, называемого «обучение с подкреплением с проверяемыми вознаграждениями» (RLVR). Этот подход помогает системе лучше справляться с математическими задачами и выдает точно проверяемые ответы.
Согласно команде AI2, данный метод позволил значительно улучшить производительность Tülu по сравнению с другими аналогичными моделями, включая DeepSeek V3 и GPT-4o. Действительно, результаты этого исследования подчеркивают эффективность RLVR, учитывая, что он отвечает не просто за количество, а за качество и надежность выдаваемой информации.
Технические достижения и сложности
Процесс обучения Tülu 3 405B требовал значительных вычислительных ресурсов. Команда AI2 использовала 32 вычислительных узла, соединенных вместе с 256 графическими процессорами. Каждый этап обучения занимал 35 минут, что требует не только высокого уровня координации, но и значительных технических навыков.
В процессе работы над моделью возникали особенности, которые редко обсуждаются в других компаниях, разрабатывающих аналогичные технологии. Постоянные технические трудности требовали от команды креативного подхода и развития обходных решений, таких как использование вспомогательной модели меньшего размера для управления нагрузкой.
Доступность и потенциал модели
Пользоваться новой моделью Tülu 3 405B можно будет через AI2 Playground, а исходный код доступен на GitHub. Это открывает новые горизонты для разработчиков и исследователей в сфере искусственного интеллекта. Открытая модель с ее мощными возможностями может стать отличной основой для создания еще более умных приложений, делающих акцент на точности и верификации выдаваемых данных.
Интересно отметить, что такие крупные языковые модели становятся все более доступными для широкой аудитории, что, в свою очередь, стимулирует исследовательскую и практическую активность в различных областях, включая образование, рекламу и даже научные исследования. Технология с открытым исходным кодом позволяет пользователям адаптировать и развивать модель в соответствии с потребностями своих проектов, что должно привести к еще большему количеству инноваций.
Добавить комментарий