Новая система использует глубокие нейронные сети и методы обработки естественного языка (NLP) для автоматического извлечения и структурирования клинической информации из неструктурированных медицинских текстов — заключений, анамнезов, описаний симптомов. Алгоритмы адаптированы к русскоязычной медицинской терминологии, включая учет отрицаний («без судорог», «не характерно для»), синонимов, родственных связей и контекстных модификаторов. Это позволяет заменить ручное кодирование HPO-терминов, которое ранее требовало участия специалистов-аннотаторов.
Система обучена на анонимизированных данных более 10 000 пациентов, прошедших секвенирование в российских клинических лабораториях, с соблюдением требований ФЗ-152 и биоэтических норм. Модели интегрированы с международными базами данных, но адаптированы под российские клинические практики: включают данные из российских регистров редких заболеваний, учитывают частоту мутаций в популяции и нормативные ограничения, например, запрет на использование зарубежных облачных сервисов для хранения геномных данных.
Ключевым отличием от существующих решений является интерпретируемость: система не выдаёт только финальный результат — она формирует логическую цепочку обоснования. Для каждого предложенного патогенного варианта выводится:
— список сопоставленных фенотипов с весами соответствия;
— ссылки на публикации и базы данных, подтверждающие патогенность;
— оценка частоты варианта в российской популяции;
— анализ на наличие патогенных комбинаций (дигенетические, олигогенные модели);
— предупреждения о возможных ложных срабатываниях на фоне артефактов секвенирования.
Технология позволяет сократить время анализа одного случая с 5–7 рабочих дней до 2–4 часов, включая подготовку предварительного отчёта. Это особенно критично для случаев с атипичной клинической картиной, где классические диагностические алгоритмы дают неоднозначные или отрицательные результаты — например, при неврологических заболеваниях с неспецифической симптоматикой, таких как эпилепсии с неизвестной этиологией, нейродегенеративные расстройства у детей или мультиорганные синдромы.
Система интегрируется с лабораторными информационными системами (LIS) и электронными медицинскими картами. После анализа генетических данных она автоматически формирует структурированный отчёт, содержащий предварительную интерпретацию, рекомендации по дальнейшему обследованию и список генов, требующих верификации. Врач получает не «чёрный ящик», а инструмент, позволяющий подтвердить, опровергнуть или скорректировать выводы на основе собственной экспертизы.
В перспективе система будет оснащена механизмом непрерывного обучения: при поступлении новых клинических данных и публикаций в научные базы (например, PubMed, OMIM) модель будет переобучаться на локальных серверах, без передачи данных за пределы РФ. Это обеспечивает актуальность знаний без нарушения требований по защите персональных данных.
Технология ориентирована на применение в центрах генетической диагностики, университетских лабораториях и крупных клинических госпиталях. Её внедрение позволяет повысить доступность точной диагностики в регионах, где дефицит специалистов-генетиков ограничивает возможность проведения глубокого анализа. В перспективе система может стать основой единой российской платформы для анализа наследственных заболеваний, объединяющей данные из разных регионов и обеспечивая стандартизацию интерпретации.
На текущем этапе проект проходит финальное внутреннее тестирование на независимой выборке пациентов. Результаты подтверждают точность предсказания патогенных вариантов на уровне 89–92% по сравнению с экспертной интерпретацией, при этом ложноположительные срабатывания снижены за счёт включения контекстных фильтров и фенотипической согласованности. Команда разработчиков работает над масштабированием вычислительной инфраструктуры для обучения моделей следующего поколения, включая мультиомные данные (транскриптом, эпигеном) и интеграцию с данными протеомики.