Главное:
- Компания Anthropic разработала новый метод защиты больших языковых моделей от взломов, называемый «конституционными классификаторами».
- Новая система позволяет модели Claude 3.5 Sonnet отклонять более 95% попыток взлома.
- Исследователи активно тестируют метод, приглашая хакеров для поиска уязвимостей системы.
Новый уровень защиты больших языковых моделей
Anthropic, конкурент OpenAI, недавно представила инновационную систему защиты своих больших языковых моделей (LLM). Спустя два года после появления таких моделей, как ChatGPT, стало очевидным, что они уязвимы для взломов, которые могут привести к генерации вредоносного контента. Выход нового метода «конституционных классификаторов» — это важный шаг в направлении повышения безопасности.
Как показали тесты, вероятность успешного взлома модели Claude 3.5 Sonnet без защиты достигала 86%. Однако внедрение нового классификатора значительно снизило этот показатель до всего 4,4%. Все это подчеркивает эффективность предложенной системы, которая, при этом, приносит лишь небольшое увеличение вычислительных затрат — на 23,7%.
Концепция конституционных классификаторов
Конституционные классификаторы работают на основе концепции, которая соответствует принципам человеческих ценностей. Это означает, что они опираются на набор правил, которые помогают определить, какой контент является безопасным, а какой — потенциально опасным. При создании нового метода защиты исследователи использовали 10 000 подсказок для взлома, что позволило им наладить классики, способные эффективно различать вредный и безопасный контент.
Важно отметить, что больше 185 хакеров были привлечены для тестирования системы, и за два месяца ни один из них не смог провести универсальный взлом. Это говорит о том, что, несмотря на наличие некоторых уязвимостей, защита действительно эффективна. Участники использовали различные стратегии, такие как перефразирование и увеличение длины запроса, чтобы обойти защиту.
Будущее защиты LLM
Системы, подобные «конституционным классификаторам», поднимают вопросы о будущем защиты больших языковых моделей. Несмотря на то, что исследователи признают, что полностью предотвратить все возможные взломы нельзя, детали их работы показывают значительный прогресс в области обеспечения безопасности. Такие усовершенствования помогут уменьшить риски, связанные с использованием нейросетей, и гарантировать более безопасную работу моделей, что является критически важным в условиях быстро развивающейся технологии.
Таким образом, разработка Anthropic становится значимой в обеспечении безопасности и защищенности искусственного интеллекта, что является важным шагом в эволюции технологий и их интеграции в различные сферы нашей жизни.
Добавить комментарий