Главное:
- Международная команда исследователей разработала новый бенчмарк HLE для тестирования возможностей AI.
- Тест включает 3000 сложных вопросов, 42% из которых касаются математики.
- Результаты показывают, что современные модели AI справляются менее чем с 10% задач.
- Эксперты подвергают сомнению полезность подобных тестов для оценки истинных возможностей AI.
Новый испытательный тест для искусственного интеллекта
Недавнее исследование, проведенное международной группой экспертов, представило новый бенчмарк под названием «Последний экзамен человечества» (HLE). Этот тест разработан для выявления текущих ограничений больших языковых моделей (LLM), таких как GPT и других решений AI. Участие в проекте принимали около 1000 экспертов из 500 учреждений в 50 странах мира. Исследователи начали с объемного пула из 70 000 вопросов, из которых только 3 000 оказались актуальными и доступны для AI после доработки и проверки.
Удивительно, но несмотря на впечатляющие достижения в технологической области, данные теста показывают, что многие ведущие модели, включая GPT-4 и Gemini, смогли правильно ответить лишь на 3,3% и 6,2% вопросов соответственно. Это подчеркивает сложности, с которыми сталкиваются даже самые современные системы AI в решении задач, требующих более глубокого анализа и знаний.
Сложные задачи, низкие результаты
Одним из самых интересных аспектов нового теста является его структура, включающая широкий спектр академических дисциплин: от математики и информатики до экологии и лингвистики. Как показывает практика, даже при успешной производительности на существующих тестах, таких как GPQA и MATH, современные модели демонстрируют нестабильные результаты на HLE. Ошибки калибровки достигают рекордных 80%, что указывает на то, что AI зачастую проявляет самоуверенность, неправильно оценивая свои ответные способности.
Этот бенчмарк создает дискуссию о том, как правильно оценивать AI. Даже если к 2025 году модели AI смогут повысить свою результативность до 50% по этому тесту, это не станет доказательством наличия истинного интеллекта. По сути, тест оценивает только умения в академической среде, игнорируя более сложные и творческие аспекты работы AI в реальном мире.
Скептицизм в отношении «окончательных тестов»
Некоторые эксперты высказывают сомнения относительно целесообразности данного подхода к оценке возможностей AI. Суббарао Камбхампати, бывший президент Ассоциации по развитию искусственного интеллекта, утверждает, что такая оценка не отражает ни истинной природы человечества, ни потенциальных способностей AI развиваться. Более того, Андрей Карпаты, бывший разработчик OpenAI, подчеркивает, что решение практических задач значительно сложнее, чем простая демонстрация запоминания фактов.
Нельзя игнорировать тот факт, что размер подобных тестов вызывает много споров. Модели AI могут показывать высокие результаты в строго определенных областях, при этом сталкиваясь с трудностями в действиях, которые человеческий интеллект выполняет с легкостью. Следовательно, возможно, что для успешной оценки AI, исследования должны сосредоточиться на практических примерах и реальных задачах, а не статических бенчмарках.
Таким образом, данный тест под названием HLE не только служит индикатором текущих слабых мест AI, но и открывает дискуссию о том, как лучшие практики в области тестирования могут способствовать развитию программных решений для будущего.
Добавить комментарий