Институт Аллена открыл исходный код Molmo 2 — моделей для анализа видео и изображений

Исследовательская организация Ai2 опубликовала репозиторий с инструментами для обучения и развёртывания моделей, специализирующихся на трекинге объектов и покадровом логическом выводе. Доступны скрипты для претрейна, файнтюнинга, конвертеры в формат Hugging Face и Docker-образ.

Институт Аллена (Allen Institute for AI, Ai2) объявил о публикации полного исходного кода семейства моделей Molmo 2, ориентированных на задачи компьютерного зрения: анализ видео и изображений, отслеживание объектов (трекинг), подсчёт и покадровый логический вывод. Ранее модели демонстрировали передовые результаты в бенчмарках, но код был закрытым.
Открытый репозиторий включает полный набор инструментов для самостоятельного обучения и адаптации моделей. Разработчики и исследователи могут запускать претрейн и файнтюнинг на собственных данных, используя скрипты с поддержкой распределённого обучения на нескольких узлах. Также доступны утилиты для подготовки данных и оценки качества обученных моделей.

Для развёртывания предоставлены конвертеры чекпоинтов в стандартный формат Hugging Face, примеры инференса через библиотеки transformers и vLLM, легковесная утилита для офлайн-обработки графики, готовый Docker-образ и демонстрационное приложение на базе Gradio.

Публикация исходного кода позволяет компаниям и научным группам интегрировать высокоуровневый анализ видео в свои проекты без необходимости разрабатывать инфраструктуру с нуля, что ускоряет внедрение технологий компьютерного зрения в промышленные и исследовательские задачи.
© 05.03.2026
Контакты:
info@smartinfra.ru
105118, г. Москва,
ул. Буракова, 27 к3,
3 этаж, офис 322

© 2026