1 of 28

LightHouse

analab

Кейс №3. Мониторинг токсичного контента в AI продуктах

2 of 28

Цели и идеи

3 of 28

Цель

Сервис для мониторинга нежелательных сценариев с LLM

4 of 28

Cloud/Enterprise решения

Мониторинг/Алертинг

Куда идем: разработка

Создать легко масштабируемый продукт

Модульность

5 of 28

Куда идем: продукт

Создать быстрый и простой в настройке сервис для мониторинга LLM

Скорость обработки

Простая интеграция с LLM

Интерпретируемость

6 of 28

Пользовательский путь

7 of 28

Пользовательский путь

Создал LLM продукт

8 of 28

Пользовательский путь

Создал LLM продукт

Вижу токсичный контент от модели/пользователей

9 of 28

Пользовательский путь

Создал LLM продукт

Вижу токсичный контент от модели/пользователей

Регистрируюсь в LIghthouse, получаю apikey

10 of 28

Пользовательский путь

Создал LLM продукт

Вижу токсичный контент от модели/пользователей

Регистрируюсь в LIghthouse, получаю apikey

Добавляю нужные мониторинги

11 of 28

Пользовательский путь

Создал LLM продукт

Вижу токсичный контент от модели/пользователей

Регистрируюсь в LIghthouse, получаю apikey

Добавляю нужные мониторинги

Вешаю мониторинг в коде за 10 секунд

12 of 28

Решение изнутри

13 of 28

Основные компоненты

Через UI сервиса пользователь получает отчеты и меняет настройки мониторинга своих продуктов

14 of 28

LightHouse Monitoring

Входной точкой LLM продукта является декоратор из библиотеки lighthouse-monitoring.

Установить библиотеку и поставить декоратор можно в течение минуты.

@LightHouseHandler(

input_param_name="user_input",

user_id_param_name="user_id",

api_key=os.environ['LH_API_KEY'],

address="http://THE.BEST.MONITORING",

)

15 of 28

LightHouse Monitoring

У этого компонента только одна задача:

передать данные проходящие через LLM продукт (промпты, ответы модели)

@LightHouseHandler(

input_param_name="user_input",

user_id_param_name="user_id",

api_key=os.environ['LH_API_KEY'],

address="http://THE.BEST.MONITORING",

)

16 of 28

LightHouse Server. Данные

Храним запросы, ответы и результаты проверок в разрезе сессий/пользователей/продукта

17 of 28

Без изменений в коде мы можем добавлять/убирать анализаторы и менять режим работы сервиса.

*В синхронном режиме мониторинг не будет пропускать неподходящие ответы.

LightHouse Server. UI

18 of 28

LightHouse Server. UI

Без изменений в коде мы можем добавлять/убирать анализаторы и менять режим работы сервиса.

И в этом же месте смотреть на все наши красивые графики.

19 of 28

LightHouse Server. Анализаторы

Каждый анализатор - отдельный endpoint, поэтому мы можем очень просто добавлять новые + застрахованы на случай если какой-то отвалится

20 of 28

LightHouse Server. Анализаторы

21 of 28

LightHouse Server. Анализаторы

Сейчас у нас уже есть

Анализатор на бан-ворды
Проверка входных ссылок
Анализатор токсичности
Bansequence
Bancode

22 of 28

LightHouse Server. Vaults

Vault - параметры анализатора

Мы можем хранить там:

Банворды
Системный промпт (чтобы проверять был ли лик)
Даты

Настройка через UI

23 of 28

LightHouse Server. Интерпретация

Для анализаторов предусмотрена возможность интерпретировать результаты проверок

На примере токсичности и банвордов мы добавили вывод слов на которые тригерится модель/анализатор

24 of 28

LightHouse Server. Alerts

Также мы можем подключить алерты к мессенджерам.

Через бота записываем пользователей которые хотят получать алерты по apikey.

Через API бота шлем алерты

25 of 28

Итоги и планы

26 of 28

Текущий

функционал

Интегрируемся с любыми LLM продуктами

Поддерживаем enterprise и self-hosted решение

Позволяем добавлять любые доп. анализаторы

Текущие анализаторы позволяют интерпретировать результаты

Доступен синхронный и асинхронный режим, алерты

27 of 28

Планы

Реализовать платформу на основе решения

Адаптировать модели джейлбрейка и инъекций под русский язык

Протестироваться на продуктах с большей нагрузкой

Улучшить надежность сервиса

Добавить еще больше анализаторов 🗿

28 of 28

Спасибо за внимание

Павел Кочкин

За неделю может закодить pytorch

@pavelkochkin1

Никита Матвеев

Больше схем богу схем

@matnikita

Шамиль Нуркаев

Требуется психолог после травли от LLM

@sfnurkaev

Марк Басов

Держит в бэклоге еще 1000 анализаторов

@morowenka