Главное:
- Google анонсировал новый метод обучения языковых моделей AI под названием SALT.
- Метод позволяет значительно уменьшить время обучения и повысить производительность моделей.
- SALT использует меньшие модели в качестве учителей для обучения крупных языковых моделей.
- Результаты показали улучшение точности на конкретных задачах, что делает этот подход особенно интересным для организаций с ограниченными ресурсами.
Инновационный подход к обучению AI
Искусственный интеллект продолжает эволюционировать, и сейчас на передний план выходит новая методология обучения, разработанная командой Google Research и DeepMind. Этот метод, получивший название SALT (Small model aided large model training), обещает революционизировать подход к тренировке языковых моделей. Основная идея заключается в том, чтобы использовать меньшие модели как учителей для крупных моделей, что, по сути, предоставляет возможность учить большие модели быстрее и эффективнее.
Метод SALT сокращает время обучения до 28%, раскрывая новые горизонты в области оптимизации ресурсов и повышения производительности. Таким образом, это не просто набор новых технологий, но и концепция, способная изменить правила игры в обучении искусственного интеллекта.
Принципы работы метода SALT
Метод SALT работает в два этапа, что делает его особенно эффективным. Сначала большая языковая модель обучается за счет меньшей, используя процесс дистилляции знаний. В отличие от традиционного подхода, где большие модели обучают меньшие, здесь меньшие модели обучают большие, давая им не только свои ответы, но и уверенность в их правильности.
На втором этапе обучения большая модель переходит к стандартным методам обучения, что позволяет ей не только усваивать базовые принципы, но и накапливать практический опыт на уровнях сложности, где меньшая модель уже демонстрирует уверенные результаты. Так как меньшая модель предварительно обучена на простых, но надежных данных, большая модель учится быстрее и точнее.
Практическое применение и перспективы
Методы SALT были протестированы на моделях различного размера. Например, использование модели с 1,5 миллиарда параметров для обучения модели с 2,8 миллиардами параметров доказало свою эффективность: большая модель достигла целевых показателей производительности всего за 70% времени по сравнению с обычными методами обучения.
Полученные результаты в математических задачах показали увеличение точности с 31,84% до 34,87%, а в задачах на понимание прочитанного — с 63,7% до 67%. Эти цифры подчеркивают роскошное качество обучения нового подхода и открывают горизонты для организаций с меньшими вычислительными мощностями, давая им возможность создавать конкурентоспособные языковые модели.
Метод SALT, а затем и его усовершенствованная версия SALTDS, способна существенно расширить доступ к технологиям AI, сделав их доступными для разнообразных организаций, которые стремятся интегрировать современные решения в свою работу, не имея при этом огромных вычислительных ресурсов. Это, безусловно, шаг в сторону повышения эффективности и доступности технологий искусственного интеллекта.
Добавить комментарий