Мультимодальные модели не преодолевают 50% точность в тесте на распознавание конкретных объектов

Бенчмарк WorldVQA показал, что даже лучшие модели — Gemini 3 Pro и Kimi K2.5 — набирают менее 50% при ответах на вопросы, требующие точного названия объекта. Модели также демонстрируют систематическую переоценку собственной уверенности.

Исследователи компании Moonshot AI представили эталонный набор данных WorldVQA для оценки способности мультимодальных моделей к точному распознаванию визуальных объектов. Набор включает 3500 пар «изображение-вопрос» в девяти категориях: природа, архитектура, культура, искусство, бренды, спорт, известные личности и другие. В отличие от существующих бенчмарков, WorldVQA строго разделяет задачу чистого распознавания объектов и логического рассуждения, проверяя фактические знания модели, а не её способность комбинировать информацию. Ответы требуют конкретики: например, указания точной породы собаки, а не просто слова «собака».
Наивысший результат среди открыто доступных моделей показал Google Gemini 3 Pro — 47,4%. За ним следует модель Moonshot AI Kimi K2.5 с результатом 46,3%. Claude Opus 4.5 от Anthropic набрал 36,8%, а GPT-5.2 от OpenAI — 28%. Даже более старая Gemini 2.5 Pro с результатом 30,8% превзошла последнюю. Ни одна из моделей не преодолела 50-процентный барьер точности.

Анализ по категориям выявил существенные пробелы в знаниях. Модели относительно хорошо справляются с вопросами о брендах и спорте, где данные широко представлены в интернет-корпусах. Однако в категориях «природа» и «культура» производительность резко падает: модели склонны использовать общие термины (например, «цветок») вместо указания конкретных видов. Исследование также выявило систематическую переоценку моделями собственной уверенности. Gemini 3 Pro демонстрировала уверенность на уровне 95% и выше в более чем 85% случаев, независимо от правильности ответа. Kimi K2.5 показала наилучшую самокалибровку, но её ошибка калибровки всё равно составила 37,9%, что указывает на отсутствие у моделей надёжного понимания границ своих знаний.

Для проверки обоснованности сложных вопросов исследователи использовали крупный справочный словарь. Анализ подтвердил, что сложность теста обусловлена реальным дефицитом знаний: чем реже объект встречается в реальных данных, тем хуже модели его распознают. По мнению авторов, WorldVQA является необходимым шагом для развития ИИ-агентов, поскольку ненадёжное распознавание объектов ограничивает их практическую полезность. Набор данных и скрипты оценки находятся в открытом доступе.

Результаты согласуются с другими исследованиями надёжности моделей. Например, бенчмарк AA Omniscience от Artificial Analysis показал, что только четыре из 40 моделей получили положительную оценку, при этом у лидера, Gemini 3 Pro, уровень ложных срабатываний составил 88%. Другое исследование продемонстрировало, что языковые модели неспособны адекватно оценивать сложность экзаменационных вопросов для людей, воспроизводя ошибки менее способных учеников — феномен, названный «проклятием знания».
© 09.02.2026
Контакты:
info@smartinfra.ru
105118, г. Москва,
ул. Буракова, 27 к3,
3 этаж, офис 322

© 2025