Тесты Протестировать код
Программирование Аналитика Дизайн Маркетинг Управление проектами

Самая большая скидка в году

Учите любой иностранный язык с выгодой
Узнать подробнее
15 Окт 2024
2 мин
37

Исследование Apple обнаружило слабые места в LLM от OpenAI, Google и Meta*

Пройдите тест, узнайте какой профессии подходите

Учёные Apple ставят под сомнение интеллектуальные способности крупных языковых моделей, утверждая, что они лишь демонстрируют сложное сопоставление

Главное:

  • Исследование Apple поставило под сомнение интеллектуальные способности языковых моделей от OpenAI, Google и Meta.
  • Модели показывают «сложное сопоставление шаблонов», а не истинное логическое мышление.
  • Новый тест, GSM-Symbolic, выявил критические недостатки в понимании математических концепций моделями.

Недостатки современных LLM: изучаем исследования Apple

Недавнее исследование, проведенное учеными из компании Apple, бросает серьезный вызов популярному мнению о возможностях крупных языковых моделей (LLM), таких как ChatGPT от OpenAI, модели от Google и Meta. Несмотря на ряд успешных примеров, исследования показывают, что эти модели не могут похвастаться полноценным логическим мышлением. Основное заключение участников эксперимента заключается в том, что они опираются на «сложное сопоставление шаблонов», а не на реальное понимание материала.

Одним из ключевых тестов для оценки способностей LLM является GSM8K, однако его чрезмерная популярность создала риск, что модели могли быть обучены на этих данных. Это может искажать представление о реальных способностях ИИ. Исследователи разработали новый тест, GSM-Symbolic, чтобы избежать этой проблемы. Тест сохраняет суть традиционных задач, меняя при этом переменные, чтобы проверить, могут ли модели обрабатывать новые данные.

Проблемы с точностью и логикой

В ходе испытаний более 20 моделей, включая OpenAI o1, GPT-4o и другие, ученые обнаружили, что точность моделей значительно снижалась при изменении даже несущественных переменных. Например, добавление незначительных деталей, которые не влияли на решение, приводило к существенному падению точности. Модель OpenAI показала наименьшие отклонения — 17,5%, в то время как другие модели, такие как Microsoft Phi 3, теряли до 65% точности.

В одном из тестов, где была использована задача, содержащая "кажущиеся важными, но на деле несущественные" данные, было показано, что модели не распознают речь. Это подчеркивает, что современные LLM не понимают смысл текста, а работают на уровне математических операций.

Необходимость критического подхода к ИИ

Исследование подчеркивает необходимость более скептического подхода к действительным успехам в области искусственного интеллекта. Несмотря на то, что Apple конкурирует с такими гигантами, как Google и OpenAI, результаты этого исследования показывают, что текущие модели имеют значительные недостатки.

Важно помнить, что среди нас существуют предвзятости, когда речь заходит об ИИ. Мы часто склонны приписывать технологиям человеческие качества и способности, которые они на самом деле не имеют. В свете новых данных становится ясно, что необходимо более критически оценивать возможности языковых моделей и развивать технологии таким образом, чтобы стремиться к истинному разуму, а не просто к удачному шнурованию шаблонов.

Как вы относитесь к выводам данного исследования? Ваше мнение может оказать влияние на будущее развития методов искусственного интеллекта!

Добавить комментарий