Соучредитель OpenAI утверждает, что новый метод обеспечения безопасности искусственного интеллекта применим к AGI и не только ему.

Пройдите тест, узнайте какой профессии подходите

Содержание

Вконтакте

Одноклассники

Скопировать ссылку

OpenAI представила новый метод повышения безопасности AI, позволяющий системам активно рассуждать на основе принципов безопасности.

Иван Дигиталов

Автор статьи

Главное:

OpenAI представила новый подход к обеспечению безопасности искусственного интеллекта, который включает активное рассуждение на основе конкретных правил.

Модель o1 показала высокие результаты в тестах на безопасность, опередив существующие системы, такие как GPT-4o и Claude 3.5.

Несмотря на достижения, были продемонстрированы способы обхода новых мер безопасности, что подчеркивает сложность управления AI.

Новый подход к безопасности AI

OpenAI, известная разработка в области искусственного интеллекта, представила инновационный подход к повышению безопасности своих систем. Вместо того, чтобы основываться исключительно на обучении на примерах хорошего и плохого поведения, новая модель, обозначенная как o1, активно рассуждает на основании заранее установленных правил безопасности. Это означает, что система не только учится на ошибках, но и способна объяснять, почему она отклоняет определенные запросы. Например, если пользователь пытается получить инструкции для незаконной деятельности, модель распознает это и отказывает, указывая на правила, которые были нарушены.

Этот подход не только делает системы более безопасными, но и поднимает важные вопросы о будущем AGI (обобщенного искусственного интеллекта). Как утверждает Войцех Заремба, соучредитель OpenAI, такие модели рассуждений, как o1, могут быть согласованы с человеческими ценностями, что является критически важным этапом для достижения более сложных уровней интеллекта.

Тестирование и результаты новой модели

В ходе тестов OpenAI новая модель o1 продемонстрировала лучшие результаты в сравнение с другими ведущими ИИ-системами, такими как GPT-4o, Claude 3.5 и Gemini 1.5. Тестирование проводилось с акцентом на выявление способности модели отклонять вредоносные запросы, а также на ее устойчивость к попыткам взлома.

Модель o1 достигла высоких совокупных баллов по точности и устойчивости к угрозам, что подчеркивает её значительные технологические достижения. Это особенно важно в условиях нарастающих разговоров о рисках, связанных с использованием ИИ, таких как манипуляции или неправильное использование технологий.

Критика и вызовы в сфере безопасности AI

Несмотря на успехи, OpenAI сталкивается с критикой. В то время как их новый подход к безопасности стало шагом вперед, хакеры, такие как «Pliny the Liberator», продемонстрировали, что даже достижения в области безопасности могут быть обойдены. Например, они смогли заставить модель генерировать контент для взрослых и предоставить инструкции по изготовлению коктейля Молотова, несмотря на первоначальный отказ системы.

Эти инциденты подчеркивают сложность задачи по управлению искусственным интеллектом, который действует на основе вероятностных моделей и может быть манипулирован. Внутренние исследования OpenAI также указывают на наличие проблем по соблюдению истинных приоритетов безопасности, что вызывает беспокойство у ряда специалистов.

Таким образом, мир искусственного интеллекта стоит на пороге важных изменений, где безопасность и этические принципы должны стать центральными в каждом новом достижении AI.

Соучредитель OpenAI утверждает, что новый метод обеспечения безопасности искусственного интеллекта применим к AGI и не только ему.

Новый подход к безопасности AI

Тестирование и результаты новой модели

Критика и вызовы в сфере безопасности AI

Добавить комментарий

Ещё по теме