Комментировать

Лучшие модели ИИ не смогли пройти тест Humanity’s Last Exam, разработанный научным сообществом

Ученые разработали тест, который послужит мерилом прогресса искусственного интеллекта. На сегодняшний день лучшие современные модели искусственного интеллекта способны правильно ответить лишь на менее 10% вопросов.

«Последний экзамен человечества» (Humanity’s Last Exam) — так назвали исследователи технологий свой тщательно разработанный тест. Тест призван оценить, насколько мощным сегодня является искусственный интеллект. Как сообщает New York Times, известные модели искусственного интеллекта от OpenAI до Google пока еще не справляются с этим тестом.

«Последний экзамен человечества» был разработан двумя организациями: Scale AI и Центром безопасности ИИ (CAIS), которые базируются в Сан-Франциско и предлагают наборы данных для обучения ИИ. CAIS — некоммерческая организация, которая занимается разработкой так называемых бенчмарков, т. е. стандартов для искусственного интеллекта.

Тест был создан с использованием сложной процедуры и призван стать своего рода репрезентативным срезом накопленных знаний человечества. Он охватывает области естественных наук, математики, а также различные гуманитарные дисциплины.

1000 экспертов из 50 стран задали вопросы по своим областям специализации. Из 70 000 вопросов, составленных таким образом, 13 000 были подвергнуты проверке экзаменаторами-людьми, в результате чего было определено 3 000 тестовых вопросов, которые затем вошли в финальный тест.

Вопросы сложные. Они варьируются от задач обработки текста до распознавания изображений, где ИИ должен оценивать диаграммы и графики. В качестве примера на домашней странице теста приведен перевод надписи на римской могиле.

Чтобы расшифровать надписи, ИИ должен не только знать латынь, но и быть знакомым с общепринятыми сокращениями на таких надгробиях. Другим примером является очень конкретный подробный вопрос о строении мышц колибри.

По-видимому, эти вопросы все еще выходят за рамки «общего знания» большинства моделей ИИ. Среди прочих были протестированы GPT-4o и o1 от OpenAI, Gemini 1.5 Pro от Google и Claude 3.5 Sonnet от Anthropic.

Все они смогли правильно ответить менее чем на 10% вопросов при прохождении теста. Лучший результат показала модель o1 (9,1% правильных ответов). А, например, Gemini ответил правильно лишь на 6% вопросов.

Также измерялась степень, в которой модели ИИ давали неверные ответы, не подвергая их сомнению. Для всех из них этот показатель составил более 80%, и в более чем 90% случаев искусственный интеллект не проявил никакой неопределенности, давая неверные ответы.

Исследователи предполагают, что к концу года результаты значительно улучшатся. Однако это не обязательно означает общее усовершенствование моделей ИИ, а может просто произойти из-за того, что правильные ответы были запомнены без понимания.

Исследователи также подчеркивают, что «Последний экзамен человечества» не содержит вопросов, требующих творческого подхода для решения.

Источник: Overclockers

#технологии #искусственный интеллект
Комментировать

Комментарии

Комментировать

Вам может быть интересно

49
#цифровизация

«Мозги» российской нейросети и триллионы рублей от ИИ. О чем говорил Мишустин в Алма-Ате

Председатель правительства РФ рассказал об экономическом эффекте от внедрения технологий ИИ в России, отличии российской нейросети от западной ChatGPT и российских предложениях для зарубежных партнеров
30
#цифровизация

«Ростелеком» представил технологии для «умного» кампуса в НГУ

"Ростелеком" представил инновационное комплексное решение по проектированию и строительству "умных" кампусов. Презентация состоялась в рамках рабочего визита министра экономического развития РФ Максима Решетникова в Новосибирский государственный университет (НГУ)
18
#технологии

«Умное стекло» в окнах заменит Wi-Fi

Замена произойдет при помощи солнечного света. Так, исследователи из Университета науки и технологий имени короля Абдуллы (ОАЭ) создали прототип оконного стекла, которое способно служить системой связи в солнечный день