LightHouse
analab
Кейс №3. Мониторинг токсичного контента в AI продуктах
01
Цели и идеи
Цель
Сервис для мониторинга нежелательных сценариев с LLM
Cloud/Enterprise решения
Мониторинг/Алертинг
Куда идем: разработка
Создать легко масштабируемый продукт
Модульность
Куда идем: продукт
Создать быстрый и простой в настройке сервис для мониторинга LLM
Скорость обработки
Простая интеграция с LLM
Интерпретируемость
02
Пользовательский путь
Пользовательский путь
Создал LLM продукт
1
Пользовательский путь
Создал LLM продукт
Вижу токсичный контент от модели/пользователей
1
2
Пользовательский путь
Создал LLM продукт
Вижу токсичный контент от модели/пользователей
Регистрируюсь в LIghthouse, получаю apikey
1
2
3
Пользовательский путь
Создал LLM продукт
4
Вижу токсичный контент от модели/пользователей
Регистрируюсь в LIghthouse, получаю apikey
Добавляю нужные мониторинги
1
2
3
Пользовательский путь
Создал LLM продукт
4
Вижу токсичный контент от модели/пользователей
Регистрируюсь в LIghthouse, получаю apikey
Добавляю нужные мониторинги
Вешаю мониторинг в коде за 10 секунд
1
2
3
5
03
Решение изнутри
Основные компоненты
Через UI сервиса пользователь получает отчеты и меняет настройки мониторинга своих продуктов
LightHouse Monitoring
Входной точкой LLM продукта является декоратор из библиотеки lighthouse-monitoring.
Установить библиотеку и поставить декоратор можно в течение минуты.
@LightHouseHandler(
input_param_name="user_input",
user_id_param_name="user_id",
api_key=os.environ['LH_API_KEY'],
address="http://THE.BEST.MONITORING",
)
LightHouse Monitoring
У этого компонента только одна задача:
передать данные проходящие через LLM продукт (промпты, ответы модели)
@LightHouseHandler(
input_param_name="user_input",
user_id_param_name="user_id",
api_key=os.environ['LH_API_KEY'],
address="http://THE.BEST.MONITORING",
)
LightHouse Server. Данные
Храним запросы, ответы и результаты проверок в разрезе сессий/пользователей/продукта
Без изменений в коде мы можем добавлять/убирать анализаторы и менять режим работы сервиса.
*В синхронном режиме мониторинг не будет пропускать неподходящие ответы.
LightHouse Server. UI
LightHouse Server. UI
Без изменений в коде мы можем добавлять/убирать анализаторы и менять режим работы сервиса.
И в этом же месте смотреть на все наши красивые графики.
LightHouse Server. Анализаторы
Каждый анализатор - отдельный endpoint, поэтому мы можем очень просто добавлять новые + застрахованы на случай если какой-то отвалится
LightHouse Server. Анализаторы
Каждый анализатор - отдельный endpoint, поэтому мы можем очень просто добавлять новые + застрахованы на случай если какой-то отвалится
LightHouse Server. Анализаторы
Сейчас у нас уже есть
LightHouse Server. Vaults
Vault - параметры анализатора
Мы можем хранить там:
Настройка через UI
LightHouse Server. Интерпретация
Для анализаторов предусмотрена возможность интерпретировать результаты проверок
На примере токсичности и банвордов мы добавили вывод слов на которые тригерится модель/анализатор
LightHouse Server. Alerts
Также мы можем подключить алерты к мессенджерам.
Через бота записываем пользователей которые хотят получать алерты по apikey.
Через API бота шлем алерты
04
Итоги и планы
Текущий
функционал
Планы
Спасибо за внимание
Павел Кочкин
За неделю может закодить pytorch
@pavelkochkin1
Никита Матвеев
Больше схем богу схем
@matnikita
Шамиль Нуркаев
Требуется психолог после травли от LLM
@sfnurkaev
Марк Басов
Держит в бэклоге еще 1000 анализаторов
@morowenka