1 of 12

Безопасность для LLM

#йцукен123

Кейс №3. Мониторинг токсичного контента в AI продуктах

2 of 12

01 Общий взгляд на проблему

3 of 12

Что такое недопустимый контент?

НА ВХОДЕ

jailbreak

Попытка украсть системные данные

Запросы на создание текста для использования в целях мошенничества

Нецензурная лексика

Внедрение вредоносного кода

НА ВЫХОДЕ

Нецензурная лексика

Сарказм

Порнография / эротика

Призыв к насилию

Инструкции по нарушению законодательства

Конфиденциальная информация

Нарушение авторских прав

Дезинформация

Саморазрушительное поведение

Реклама

4 of 12

А что есть на рынке?

Azure AI Content Safety

Holistic AI

Phospho

Nebuly

TrojAI

5 of 12

02 Углубляемся в решение

6 of 12

Как мы видим решение

Input filters

Input Request

LLM

LLM Result

Output filters

Basic modules:

- toxicity filter

- thematic detector

7 of 12

Критерии оценки

F1-score 0.95

Model Metrics

Recall 0.947

Precision 0.954

RPS

Service Availability

Service Metrics

Unique users

Business Metrics

Active users

Customer Retention Rate

8 of 12

03 Демо

9 of 12

Команда

Александр Козачук

Разработка

@apkozachuk

фото

Ярослав Коробко

ML

@LNSXT

фото

Александр Клакевич

Разработка / ML

@aklakevich

фото

Никита Щукин

ML

@K1kaaaa

фото

Полина Максимова

Аналитика

@maksimova_p

фото

Это изображение, автор: Неизвестный автор, лицензия: CC BY-SA

10 of 12

Особенности

Данные для обучения фильтров

Copyright

Erotic

Social engineering

System attack

Toxic

11 of 12

Интерпретируемость (multiclass)

12 of 12

Интерпретируемость(binary)