Главное:
- Китайская компания Deepseek представила свою языковую модель V3 с рекордным количеством параметров – 671 миллиард.
- Модель показала превосходные результаты в задачах логического мышления и программирования, обойдя известных конкурентов, таких как GPT-4 и Claude-3.5-Sonnet.
- Обучение модели заняло 2.788 миллиона часов и обошлось в 5.576 миллионов долларов, используя всего 2000 графических процессоров.
Инновации в архитектуре и обучении
Недавно китайская компания Deepseek представила свою новую языковую модель V3, которая стала самой мощной среди открытых языковых моделей в Китае. Важным моментом в этой модели является использование архитектуры Mixture-of-Experts (MoE), которая предполагает активацию 37 миллиардов параметров из общего числа в 671 миллиард для обработки каждого токена. Это значительное улучшение по сравнению с предыдущей версией V2, которая имела 236 миллиардов параметров.
Важной деталью является тот факт, что обучение V3 потребовало обработки 14.8 триллионов токенов, что почти в два раза больше, чем для V2. Несмотря на такие колоссальные объемы данных, Deepseek смог добиться значительной эффективности, используя всего 2000 GPU, что подчеркнуло преимущества оптимизации их алгоритмов и аппаратного обеспечения. Эффективность данной модели также отразилась на скорости обработки – 60 токенов в секунду, что в три раза быстрее, чем у предыдущей версии.
Результаты тестирования и производительность
При выходе на рынок, Deepseek-V3 уже продемонстрировала впечатляющие результаты в различных тестах, включая математический тест MATH 500, где она показала 90,2% точности. Это делает ее одной из лучших моделей в решении задач логического мышления и программирования, опережая такие системы, как GPT-4 и Claude-3.5-Sonnet. В контексте растущего интереса к AI, статистика показывает, что компании все больше инвестируют в обучение и разработку архитектур для улучшения функциональности нейросетей.
По информации на текущий момент, разные параметры API на V3 также находятся на уровне V2, что позволяет пользователям испытать новую модель, не увеличивая свои затраты сразу после выхода. Однако, это состояние будет действовать только до 8 февраля, после чего пользователи столкнутся с новым тарифом.
Перспективы и планы на будущее
Компания Deepseek, основанная всего в прошлом году, уже делает амбициозные шаги в развитии своей технологии искусственного интеллекта. Они планируют улучшить свою архитектуру и преодолеть ограничения, которые предоставляет трансформер, а также открыто заявляют о намерении развивать общие искусственные интеллекты (AGI). В ближайших планах стоит продолжение разработок специализированных моделей для более узких задач, что позволит повысить эффективность применения их технологий в различных секторах.
Как показывают текущие тенденции, открытые языковые модели становятся все более актуальными, так как они предоставляют доступ к мощным инструментам для разработчиков и исследователей, что, в свою очередь, открывает новые горизонты в мире технологий. Основная идея заключается в том, чтобы пользователи могли модифицировать, воспроизводить и применять языковые модели на практике, придерживаясь определенных ограничений, которые защищают эти технологии.
Добавить комментарий