Именованные сущности — это уникальные объекты, такие как имена людей, организаций, географические названия и даты. Для обучения систем их распознавания требуются объемные размеченные текстовые корпуса, создание которых вручную для каждого языка требует значительных ресурсов. Алгоритм решает задачу автоматического переноса существующей разметки с одного языка на другие.
Исследование проводилось на примере переноса разметки с узбекского языка на русский и английский с использованием ручного корпуса из 10 тысяч предложений. Были протестированы три подхода: традиционный алгоритмический перевод с сопоставлением, использование предобученных моделей распознавания сущностей и новый метод с применением LLM (GPT-4o). Последний показал наивысшую эффективность с метрикой F1 ~0.9, что означает точность около 90% даже при работе с морфологически разными языками (агглютинативный узбекский, флективный русский и изолирующий английский).
Техническая реализация метода заключается в формулировке задачи для LLM в строгом формате с примерами ответов. Для валидации результатов использовалась автоматическая оценка обратного перевода и сравнение семантической схожести с эталонными размеченными предложениями.
Практическое применение алгоритма включает:
- Создание языковых корпусов для стран СНГ (Узбекистан, Казахстан) без повторных затрат на ручную разметку
- Разработку национальных поисковых систем, альтернативных Google и «Яндексу»
- Ускорение разработки систем машинного перевода и классификации документов
Как отмечает профессор Барахнин, существующие глобальные поисковые системы не раскрывают свои алгоритмы и требуют недоступных для большинства стран ресурсов. Разработанный метод, основанный на воспроизводимых научных принципах, предлагает относительно простую и дешевую альтернативу, способствуя достижению информационного суверенитета. Особую актуальность это имеет для испаноязычных, арабских, индийских и немецкоязычных стран, не имеющих собственных полноценных поисковых систем.