InfoWatch запатентовала технологию анализа выгрузок из баз данных с использованием регулярных выражений

Email: info@smartinfra.ru

ГК InfoWatch получила патент на способ автоматизированного анализа выгрузок из баз данных с применением регулярных выражений для выявления конфиденциальных данных в произвольных форматах. Технология повышает точность детектирования утечек, снижает нагрузку на ресурсы и работает с вариациями записи идентификаторов — например, телефонов, номеров паспортов, ИНН.

ГК InfoWatch получила патент на изобретение «Способ и система автоматизированного анализа выгрузок из баз данных с использованием регулярных выражений», выданный Федеральной службой по интеллектуальной собственности. Технология предназначена для обнаружения несанкционированного извлечения и передачи конфиденциальной информации, содержащейся в экспортированных данных — включая файлы, логи, сообщения и потоки, формируемые при выгрузке из СУБД.

Ранее патентованная технология компании позволяла фиксировать массовые выгрузки по статическим шаблонам. Новая разработка расширяет возможности за счёт применения регулярных выражений — математических шаблонов, описывающих структуру текстовых данных. Это позволяет выявлять конфиденциальные элементы, независимо от их формата записи.

Например, если в CRM-системе номера телефонов хранятся в формате 71230000000, система может обнаружить тот же номер в любом из следующих вариантов: 81230000000, 8 (123) 000-00-00, +7-123-000-00-00, (123) 000-00-00, 123.000.00.00 — и признать их идентичными с точки зрения содержания. Аналогично обрабатываются ИНН, ОГРНИП, номера паспортов, банковские реквизиты, адреса электронной почты и другие структурированные данные, представленные в нестандартной форме.

Технология не требует полной перестройки инфраструктуры — она интегрируется в существующие системы анализа трафика и выгрузок, работая на уровне текстовых потоков. При этом она снижает нагрузку на вычислительные ресурсы по сравнению с методами, основанными на машинном обучении или полном сканировании контента, поскольку использует лёгкие регулярные выражения, выполняемые в режиме реального времени.

Система особенно эффективна при анализе неформальных каналов передачи данных — например, переписки в мессенджерах, электронной почте, облачных хранилищах, где объём передаваемой информации может быть небольшим, но содержать критически важные данные: персональные сведения клиентов, коммерческие контракты, списки партнёров, данные по сделкам. В таких случаях традиционные DLP-системы, ориентированные на объём, часто пропускают утечки, а новая технология фокусируется на содержании — независимо от его объёма или формата.

Патент подтверждает, что решение представляет собой техническое изобретение, а не просто применение известного инструмента — регулярных выражений — в новой области. Это достигнуто за счёт специфической архитектуры: сочетания предварительной фильтрации выгрузок, динамического выбора паттернов на основе типа данных и оптимизации производительности при одновременной обработке множества шаблонов.

Разработка не заменяет существующие DLP-системы, а дополняет их, повышая точность обнаружения утечек в условиях неструктурированного или частично структурированного контента. Это особенно актуально для организаций, где данные хранятся в разнородных источниках и передаются через нестандартные каналы — например, в финансовых учреждениях, медицинских организациях, телеком-провайдерах и государственных структурах.

Патентное оформление является частью стратегии компании по защите интеллектуальной собственности и системному развитию технологий на основе глубокого анализа реальных сценариев утечек. Внедрение решения позволяет компаниям снижать риски, связанные с непреднамеренными или целенаправленными утечками, не увеличивая при этом сложность и стоимость инфраструктуры.

Контакты:

info@smartinfra.ru
105118, г. Москва,
ул. Буракова, 27 к3,
3 этаж, офис 322