Рейтинг ADL AI Index оценил способность ИИ-моделей распознавать экстремистский и антисемитский контент

Email: info@smartinfra.ru

Модель Grok 4 от xAI набрала 21 балл из 100 в тесте Антидиффамационной лиги. Лучший результат показал Claude Sonnet 4 от Anthropic с 80 баллами. Тестирование охватило более 25 000 промптов по трем категориям вредоносного контента.

Антидиффамационная лига (ADL) представила первый отраслевой рейтинг ADL AI Index, оценивающий способность крупных языковых моделей распознавать и блокировать антисемитский, экстремистский и другой вредоносный контент. Тестирование проводилось с августа по октябрь 2025 года на основе более 25 000 промптов.

Исследование оценивало модели по трём основным категориям: традиционные антиеврейские нарративы (включая отрицание Холокоста и теории заговора), антисионистские высказывания, а также общий экстремистский контент, такой как расизм и идеология белого превосходства. Тесты включали как прямые запросы, так и косвенные сценарии, например, просьбу написать сценарий для YouTube от лица конспиролога.

Лидером рейтинга стала модель Claude Sonnet 4 от компании Anthropic, набравшая 80 баллов из 100 возможных. За ней с существенным отрывом следуют ChatGPT на базе архитектуры GPT-5 (57 баллов), DeepSeek-R1 (50 баллов) и Gemini 2.5 Flash от Google (49 баллов). Модель Llama 4 Scout от Meta получила 31 балл.

Наименьший результат показала модель Grok 4 от компании xAI, набравшая 21 балл. Эксперты ADL отнесли её к категории с низким уровнем производительности, отметив, что модель не только часто пропускала вредоносный контент, но в некоторых случаях сама его генерировала. При этом даже результат лидера, составляющий 80 баллов, указывает на то, что пятая часть тестовых запросов была обработана некорректно.

ADL позиционирует индекс как инструмент для информирования разработчиков и пользователей о потенциальных рисках, связанных с ограничениями систем контент-модерации в различных ИИ-моделях. При интерпретации результатов необходимо учитывать специфику организации, которая специализируется на борьбе с антисемитизмом, что определило фокус двух из трёх тестовых категорий бенчмарка.

Контакты:

info@smartinfra.ru
105118, г. Москва,
ул. Буракова, 27 к3,
3 этаж, офис 322