1 of 28

LightHouse

analab

Кейс №3. Мониторинг токсичного контента в AI продуктах

2 of 28

01

Цели и идеи

3 of 28

Цель

Сервис для мониторинга нежелательных сценариев с LLM

4 of 28

Cloud/Enterprise решения

Мониторинг/Алертинг

Куда идем: разработка

Создать легко масштабируемый продукт

Модульность

5 of 28

Куда идем: продукт

Создать быстрый и простой в настройке сервис для мониторинга LLM

Скорость обработки

Простая интеграция с LLM

Интерпретируемость

6 of 28

02

Пользовательский путь

7 of 28

Пользовательский путь

Создал LLM продукт

1

8 of 28

Пользовательский путь

Создал LLM продукт

Вижу токсичный контент от модели/пользователей

1

2

9 of 28

Пользовательский путь

Создал LLM продукт

Вижу токсичный контент от модели/пользователей

Регистрируюсь в LIghthouse, получаю apikey

1

2

3

10 of 28

Пользовательский путь

Создал LLM продукт

4

Вижу токсичный контент от модели/пользователей

Регистрируюсь в LIghthouse, получаю apikey

Добавляю нужные мониторинги

1

2

3

11 of 28

Пользовательский путь

Создал LLM продукт

4

Вижу токсичный контент от модели/пользователей

Регистрируюсь в LIghthouse, получаю apikey

Добавляю нужные мониторинги

Вешаю мониторинг в коде за 10 секунд

1

2

3

5

12 of 28

03

Решение изнутри

13 of 28

Основные компоненты

Через UI сервиса пользователь получает отчеты и меняет настройки мониторинга своих продуктов

14 of 28

LightHouse Monitoring

Входной точкой LLM продукта является декоратор из библиотеки lighthouse-monitoring.

Установить библиотеку и поставить декоратор можно в течение минуты.

@LightHouseHandler(

input_param_name="user_input",

user_id_param_name="user_id",

api_key=os.environ['LH_API_KEY'],

address="http://THE.BEST.MONITORING",

)

15 of 28

LightHouse Monitoring

У этого компонента только одна задача:

передать данные проходящие через LLM продукт (промпты, ответы модели)

@LightHouseHandler(

input_param_name="user_input",

user_id_param_name="user_id",

api_key=os.environ['LH_API_KEY'],

address="http://THE.BEST.MONITORING",

)

16 of 28

LightHouse Server. Данные

Храним запросы, ответы и результаты проверок в разрезе сессий/пользователей/продукта

17 of 28

Без изменений в коде мы можем добавлять/убирать анализаторы и менять режим работы сервиса.

*В синхронном режиме мониторинг не будет пропускать неподходящие ответы.

LightHouse Server. UI

18 of 28

LightHouse Server. UI

Без изменений в коде мы можем добавлять/убирать анализаторы и менять режим работы сервиса.

И в этом же месте смотреть на все наши красивые графики.

19 of 28

LightHouse Server. Анализаторы

Каждый анализатор - отдельный endpoint, поэтому мы можем очень просто добавлять новые + застрахованы на случай если какой-то отвалится

20 of 28

LightHouse Server. Анализаторы

Каждый анализатор - отдельный endpoint, поэтому мы можем очень просто добавлять новые + застрахованы на случай если какой-то отвалится

21 of 28

LightHouse Server. Анализаторы

Сейчас у нас уже есть

  • Анализатор на бан-ворды
  • Проверка входных ссылок
  • Анализатор токсичности
  • Bansequence
  • Bancode

22 of 28

LightHouse Server. Vaults

Vault - параметры анализатора

Мы можем хранить там:

  • Банворды
  • Системный промпт (чтобы проверять был ли лик)
  • Даты

Настройка через UI

23 of 28

LightHouse Server. Интерпретация

Для анализаторов предусмотрена возможность интерпретировать результаты проверок

На примере токсичности и банвордов мы добавили вывод слов на которые тригерится модель/анализатор

24 of 28

LightHouse Server. Alerts

Также мы можем подключить алерты к мессенджерам.

Через бота записываем пользователей которые хотят получать алерты по apikey.

Через API бота шлем алерты

25 of 28

04

Итоги и планы

26 of 28

Текущий

функционал

  • Интегрируемся с любыми LLM продуктами

  • Поддерживаем enterprise и self-hosted решение

  • Позволяем добавлять любые доп. анализаторы

  • Текущие анализаторы позволяют интерпретировать результаты

  • Доступен синхронный и асинхронный режим, алерты

27 of 28

Планы

  • Реализовать платформу на основе решения

  • Адаптировать модели джейлбрейка и инъекций под русский язык

  • Протестироваться на продуктах с большей нагрузкой

  • Улучшить надежность сервиса

  • Добавить еще больше анализаторов 🗿

28 of 28

Спасибо за внимание

Павел Кочкин

За неделю может закодить pytorch

@pavelkochkin1

Никита Матвеев

Больше схем богу схем

@matnikita

Шамиль Нуркаев

Требуется психолог после травли от LLM

@sfnurkaev

Марк Басов

Держит в бэклоге еще 1000 анализаторов

@morowenka