Разработан алгоритм на основе LLM для автоматического переноса лингвистической разметки между языками
Ученые НГУ создали метод, позволяющий с точностью до 90% автоматически переносить разметку именованных сущностей между морфологически разными языками, что удешевит создание национальных поисковых систем и языковых корпусов.
Магистрант Факультета информационных технологий НГУ Даниил Лютаев под руководством профессора Владимира Барахнина разработал алгоритм автоматического межъязыкового переноса разметки именованных сущностей с использованием больших языковых моделей. Метод позволяет автоматизировать создание лингвистических корпусов для новых языков, что критически важно для разработки национальных поисковых систем, классификации документов и построения семантических сетей.
Именованные сущности — это уникальные объекты, такие как имена людей, организаций, географические названия и даты. Для обучения систем их распознавания требуются объемные размеченные текстовые корпуса, создание которых вручную для каждого языка требует значительных ресурсов. Алгоритм решает задачу автоматического переноса существующей разметки с одного языка на другие.

Исследование проводилось на примере переноса разметки с узбекского языка на русский и английский с использованием ручного корпуса из 10 тысяч предложений. Были протестированы три подхода: традиционный алгоритмический перевод с сопоставлением, использование предобученных моделей распознавания сущностей и новый метод с применением LLM (GPT-4o). Последний показал наивысшую эффективность с метрикой F1 ~0.9, что означает точность около 90% даже при работе с морфологически разными языками (агглютинативный узбекский, флективный русский и изолирующий английский).

Техническая реализация метода заключается в формулировке задачи для LLM в строгом формате с примерами ответов. Для валидации результатов использовалась автоматическая оценка обратного перевода и сравнение семантической схожести с эталонными размеченными предложениями.

Практическое применение алгоритма включает:
  • Создание языковых корпусов для стран СНГ (Узбекистан, Казахстан) без повторных затрат на ручную разметку
  • Разработку национальных поисковых систем, альтернативных Google и «Яндексу»
  • Ускорение разработки систем машинного перевода и классификации документов

Как отмечает профессор Барахнин, существующие глобальные поисковые системы не раскрывают свои алгоритмы и требуют недоступных для большинства стран ресурсов. Разработанный метод, основанный на воспроизводимых научных принципах, предлагает относительно простую и дешевую альтернативу, способствуя достижению информационного суверенитета. Особую актуальность это имеет для испаноязычных, арабских, индийских и немецкоязычных стран, не имеющих собственных полноценных поисковых систем.
© 09.12.2025
Контакты:
info@smartinfra.ru
105118, г. Москва,
ул. Буракова, 27 к3,
3 этаж, офис 322

© 2025