Учёные МГУ и ФИЦ ИУ РАН разработали нейросеть QiGSAN для распознавания малоразмерных объектов на снимках
Сотрудники НОШ «Мозг, когнитивные системы, искусственный интеллект» ВМК МГУ и ФИЦ ИУ РАН представили архитектуру QiGSAN — графово-сверточную модель, повышающую точность сегментации мелких объектов на аэрокосмических изображениях. Решение эффективно работает при ограниченных обучающих данных и показало рост F1-метрики на 48–64% по сравнению с современными аналогами.
Учёные Московского государственного университета и Федерального исследовательского центра информационных технологий и управления РАН разработали нейронную сеть QiGSAN (Quadtree-informed Graph Self-Attention Network) — новую графово-сверточную архитектуру, предназначенную для сегментации малоразмерных объектов на аэрокосмических снимках. Технология особенно актуальна в условиях, когда объекты занимают всего несколько пикселей: корабли на воде, сооружения в труднодоступных районах, элементы инфраструктуры на фоне сложного ландшафта.
Задача остаётся одной из самых сложных в компьютерном зрении: традиционные свёрточные сети теряют детализацию при анализе мелких фрагментов, а трансформеры требуют больших объёмов размеченных данных, которых зачастую нет. Особенно остро это проявляется в области дистанционного зондирования Земли, где доступ к высококачественным радиолокационным и оптическим снимкам с разметкой ограничен.
QiGSAN решает эту проблему за счёт комбинированной архитектуры: — Используется quadtree-структура для анализа изображения на разных уровнях масштаба; — На основе этой структуры формируется граф связей между участками; — Собственные механизмы самовнимания (self-attention) позволяют модели учитывать зависимости между удалёнными фрагментами, даже если они не смежны визуально; — Вероятностный подход к обучению снижает чувствительность к шуму и неопределённости, характерной для малых выборок.
Эффективность метода подтверждена теоретически — в статье доказана теорема о более быстром убывании функции потерь по сравнению с классическими CNN. Это позволяет модели достигать высокой точности даже при минимальном количестве размеченных примеров.
На практике QiGSAN была протестирована на открытых датасетах радиолокационных и оптических снимков, где задача — выделить корабли размером от 3 до 10 пикселей. Прирост F1-меры составил 48,6–63,9% по сравнению с современными архитектурами, включая U-Net, DeepLabv3+ и Vision Transformer. При этом объём обучающих данных был ограничен — менее 500 размеченных изображений, что типично для реальных проектов в обороне, экологии и промышленном контроле.
Преимущество QiGSAN — не только в точности, но и в интерпретируемости: модель показывает, какие участки изображения использовались для принятия решения. Это важно в критических системах, где требуется понимание логики вывода, а не просто результат.
Хотя изначально архитектура создавалась для обработки аэрокосмических снимков, её можно адаптировать для других задач: — в медицине — выявление микроскопических патологий на МРТ, КТ или гистологических срезах; — в промышленности — поиск дефектов на конвейере, где каждый брак может занимать доли пикселя; — в автономных системах — распознавание пешеходов, дорожных знаков и препятствий в условиях плохой видимости или низкого разрешения.
Модель не требует мощных GPU-кластеров для обучения — она эффективна на средних вычислительных ресурсах, что делает её доступной для научных и прикладных организаций без крупных инвестиций в инфраструктуру.
Работа опубликована в журнале Big Data and Cognitive Computing. Архитектура может быть использована как основа для создания специализированных систем автоматического анализа, работающих в условиях, где данные ограничены, а цена ошибки высока.