Безопасность для LLM
#йцукен123
Кейс №3. Мониторинг токсичного контента в AI продуктах
01 Общий взгляд на проблему
Что такое недопустимый контент?
НА ВХОДЕ
jailbreak
Попытка украсть системные данные
Запросы на создание текста для использования в целях мошенничества
Нецензурная лексика
Внедрение вредоносного кода
НА ВЫХОДЕ
Нецензурная лексика
Сарказм
Порнография / эротика
Призыв к насилию
Инструкции по нарушению законодательства
Конфиденциальная информация
Нарушение авторских прав
Дезинформация
Саморазрушительное поведение
Реклама
…
А что есть на рынке?
Azure AI Content Safety
Holistic AI
Phospho
Nebuly
TrojAI
02 Углубляемся в решение
Как мы видим решение
Input filters
Input Request
LLM
LLM Result
Output filters
Basic modules:
- toxicity filter
- thematic detector
Критерии оценки
F1-score 0.95
Model Metrics
Recall 0.947
Precision 0.954
RPS
Service Availability
Service Metrics
Unique users
Business Metrics
Active users
Customer Retention Rate
03 Демо
Команда
Александр Козачук
Разработка
@apkozachuk
фото
Ярослав Коробко
ML
@LNSXT
фото
Александр Клакевич
Разработка / ML
@aklakevich
фото
Никита Щукин
ML
@K1kaaaa
фото
Полина Максимова
Аналитика
@maksimova_p
фото
Это изображение, автор: Неизвестный автор, лицензия: CC BY-SA
Особенности
Данные для обучения фильтров
Copyright
Erotic
Social engineering
System attack
Toxic
Интерпретируемость (multiclass)
Интерпретируемость(binary)