Мультимодальные модели не преодолевают 50% точность в тесте на распознавание конкретных объектов
Бенчмарк WorldVQA показал, что даже лучшие модели — Gemini 3 Pro и Kimi K2.5 — набирают менее 50% при ответах на вопросы, требующие точного названия объекта. Модели также демонстрируют систематическую переоценку собственной уверенности.