Google обновил Gemini возможностью активного взаимодействия с изображениями через цикл «думай, действуй, наблюдай»

Email: info@smartinfra.ru

Модель теперь не просто анализирует изображение, а генерирует и выполняет код для увеличения фрагментов, разметки объектов и извлечения данных из таблиц. Это повысило точность ответов на визуальные задачи на 5–10%.

Google представил масштабное обновление визуальных возможностей ИИ-модели Gemini, изменив её базовый принцип работы с изображениями. Вместо пассивного анализа целого кадра модель теперь использует агентный подход по циклу «думай, действуй, наблюдай». Это позволяет ей самостоятельно определять и выполнять последовательность операций, необходимых для более глубокого понимания сцены.

На практике модель, встретив на изображении мелкие или сложные для интерпретации детали, может программно сгенерировать и исполнить код для их детального изучения. К таким операциям относятся увеличение (зум) определённого фрагмента, обрезка области или интерактивная разметка объектов с помощью bounding box. Например, для точного подсчёта предметов на изображении Gemini сначала выделит каждый объект рамкой, присвоит ему номер и только затем предоставит итоговую цифру. Такой метод позволяет существенно снизить количество ошибок, вызванных визуальными галлюцинациями.

Отдельное внимание уделено обработке структурированных данных. При работе с таблицами, графиками и диаграммами модель перешла от интерпретации «на глаз» к точному извлечению числовых данных и последующему выполнению вычислений через сгенерированный код. Этот подход обеспечивает более строгие, проверяемые и воспроизводимые ответы, что критически важно для аналитических отчётов, образовательных задач и бизнес-аналитики.

По заявлению Google, нововведения повысили общее качество ответов модели на визуальные задачи на 5–10 процентных пунктов. Обновление уже доступно для разработчиков в AI Studio и Vertex AI, а также в потребительском приложении Gemini при активации режима Thinking (Размышление). Функциональность делает модель шагом ближе к статусу полноценного визуального агента, способного не просто описывать изображения, но и интерактивно исследовать их для решения конкретных задач.

Контакты:

info@smartinfra.ru
105118, г. Москва,
ул. Буракова, 27 к3,
3 этаж, офис 322