Вебинары Разобраться в IT Реферальная программа Тесты
Программирование Аналитика Дизайн Маркетинг Управление проектами
30 Янв 2025
2 мин
1

Чат-бот Deepseek не смог пройти тест на фактчекинг, как и другие подобные системы.

Тестирование китайского чат-бота Deepseek показало, что он плохо распознает фейковые новости, ошибаясь в 83% случаев.

Главное:

  • Чат-бот Deepseek провалил тест на фактчекинг, не распознав 83% дезинформации.
  • Модель демонстрирует уровень ошибок для распознавания ложных утверждений на уровне 17%.
  • Ведущие системы ИИ, такие как ChatGPT-4o и Claude, показывают лучшие результаты с 62% ошибок.

Результаты теста на фактчекинг

Недавнее исследование компании Newsguard выявило, что китайский чат-бот Deepseek заметно уступает другим самым популярным системам в способности распознавать и оспаривать дезинформацию. В ходе тестирования, основанного на 300 подсказках, Deepseek не смог identificar ложную информацию в 83% случаев. Это, безусловно, вызывает серьезные опасения о надежности этой языковой модели, особенно учитывая, что она была протестирована без доступа к интернету и на данных, актуальных лишь до октября 2023 года.

Стоит учитывать, что уровень ошибок других популярных моделей, таких как ChatGPT-4o и Claude, составил 62%. Эти данные подчеркивают важность контекста и источника для результативности систем ИИ. Однако критическим остается вопрос: как пользователи могут доверять системам, которые обладают такими пробелами в обработке информации?

Где Deepseek показывает свои слабости

Deepseek показал, что в 30% случаев он активной поддерживает ложные утверждения и 53% случаев вообще избегает отвечать на вопросы. Это указывает на значительные проблемы в его алгоритмах обработки информации. Самыми негативными были результаты, когда система не справлялась с задачей предоставления корректных ответов; она исправила неверную информацию только в 17% случаев, что ставит её на третье худшее место среди протестированных систем.

Попутно стоит отметить, что Deepseek, как и другие чат-боты, может быть уязвим к манипуляциям с подсказками, что делает его удобным инструментом для распространения дезинформации. Представьте себе ситуацию, когда упоминается фактический неверный отчет. В одном из примеров Deepseek принял за правду информацию о том, что Россия ежемесячно производит 25 ракет «Орешник», тогда как реальная цифра составляет 25 ракет в год.

Проблемы и вызовы для искусственного интеллекта

Такой низкий уровень корректности в ответах не только поднимает вопросы о самих моделях, но и о том, как они могут использоваться в дальнейшем. Совсем недавно Newsguard выявила тенденцию роста фейковых новостных сайтов, созданных искусственным интеллектом, что усугубляет проблему дезинформации. Важным аспектом является то, что условия использования Deepseek возлагают ответственность за проверку фактов на пользователя, что, по сути, делает их защиту от дезинформации достаточно притянутой.

Таким образом, проблема, наблюдаемая у Deepseek, становится не просто локальной, а глобальной; она является частью гораздо более широкой дискуссии о безопасности и надежности искусственного интеллекта в нашем быстро меняющемся информационном пространстве. В связи с этим будет важным не только разрабатывать более совершенные модели, но и формировать у пользователей критическое мышление в отношении потребляемого контента.

Добавить комментарий