Эффективные метрики для оценки NLG на базе LLM
Алешина Эллина
Висков Василий
Илюхин Владислав
Кокуш Георгий
1/19
ИНСТРУКЦИИ
Вариант обложки 3, 2 докладчика
Содержание
2/19
01
02
03
Постановка задачи
Обзор области
Проделанная работа
04
Вывод
Пример слайда с содержанием презентации.
ИНСТРУКЦИИ
Постановка задачи
Общеизвестно, что генеративные задачи (машинный перевод, обобщение, перефразирование, генеративный контроль качества и т.д.) трудно поддаются оценке.
N-gramm’ы/Character-based (BLEU, Rouge) ->
->На основе моделей (BERTScore, COMET) ->
->✨ На базе LLM✨
Текущие SOTA метрики для оценки NLG:
Обе основаны на ✨GPT-4✨
Главные проблемы: a) GPT-4 очень вычислительно тяжелая (560 TFLOP для инференса, 1.8T параметров) и b) GPT-4 распространяется под 💸платным API💸 который ограничивает доступ и снижает воспроизводимость
Цель: создать эффективную и открытую альтернативу на базе LLM, приближенную по качеству к GPT-4
Тестовый датасет: тестовый сет с WMT22
Задачи:
a) просто использовать небольшие LLM (LLaMa/Falcon/Dolly + fine-tuning +дистилляция/квантизация, и т.д) вместо GPT-4
b) fine-tune LLM с регрессионной головой
c) внедрение высококачественных векторов представления текста (из sentence-transformers), помогающих LLM
3/19
Обзор области - метрики на основе LLM
G-EVAL
Аналогично GEMBA, было предложено zero-shot решение задачи оценки суммаризации.
Наилучшей LLM в zero-shot и в этом случае оказалась GPT-4
GEMBA
Авторы применили zero-shot подход к оценке переводов, опробовав множество различных LLM и промптов.
SoTA в задаче оценки переводов достигнута с помощью GPT-4
4/19
1. Large Language Models Are State-of-the-Art Evaluators of Translation Quality https://arxiv.org/pdf/2302.14520.pdf
2. G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment https://arxiv.org/pdf/2303.16634.pdf
Обзор области - промпты для zero-shot, GEMBA
5/19
Обзор области - метрика для оценки метрик
Коэффициент ранговой корреляции Кендалла
Метрика определяет зависимость между человеческой разметкой качества перевода и машинной, используя не сами значения метрик, а их ранги – то, как значения расположены друг относительно друга.
Для этого используется число согласованных (concordant) и несогласованных (discordant) пар.
Коэффициент принимает значение от -1 до 1(где -1 – связь отсутствует, 1 – идеальная корреляция)
6/19
Обзор области - наборы данных
Языковые пары: en-de, en-ru, zh-en
Обучающая выборка
Для обучения использовался DA-датасет с агрегацией WMT-наборов данных c 2017 по 2022 года
DA - экспертная оценка качества перевода в шкале 1-100
Размер обучающего датасета: 360k
Тестовая выборка
Для подсчета метрик был выбран MQM-датасет с WMT22.
MQM - метрика ручной оценки перевода, учитывающая критичность присутствующих в тексте ошибок.
Размер тестового датасета: 150k
7/19
WMT Metrics Shared Task https://wmt-metrics-task.github.io/
Модель LlaMa-2-chat с промптами GEMBA
Алешина Эллина
8/19
Модель | en-de | en-ru |
LlaMa-2-chat | 0.088 | -0.014 |
Модель LlaMa-2-chat с few-shot промтом
В начале промта подаются примеры оценок перевода
9/19
Модель | en-de | en-ru | zh-en |
LlaMa-2-chat | 0.083 | 0.053 | 0.107 |
Fine-tune LLM c LM и классификационной головами
Висков Василий
txt2txt
Использовалась сырая разметка DA
classification
Сырая разметка DA переводилась в домен меньшей мощности, “звездочки” (метка 1-3)
Использовалась сырая разметка DA
10/19
Модель | en-de | en-ru | zh-en |
1a | 0.012 | -0.004 | 0.001 |
1b | 0.024 | 0.016 | -0.001 |
2a | 0.041 | 0.025 | 0.002 |
3a | 0.061 | 0.082 | 0.001 |
Fine-tune LLM с регрессионной головой - архитектура
Подход: взять энкодер от мультиязычной LLM и дообучить его с регрессией в качестве декодера. На вход модели также подавались промпты в формате GEMBA(было опробовано несколько различных)
В качестве LLM была взята open-source мультиязычная модель mT0. Было проведено множество экспериментов с архитектурой выходной полносвязной сети.
Самая эффективная из опробованных архитектур:
Кокуш Георгий
Тренировочный датасет: 25k-подвыборка DA-датасета
11/19
Fine-tune LLM с регрессионной головой - train/loss графики
Эксперименты с различными промптами
Были протестированы SQM, DA и simple(упрощенный SQM).
Результат: SQM и DA промпты оказались практически одинаково эффективны, а simple оказался хуже
12/19
Fine-tune LLM с регрессионной головой - train/loss графики
Эксперименты с размерами моделей
Были опробованы base(580M) и large(1.2B) версии mT0.
Для оптимизации был использован адаптер LoRA.
Результат: LoRA очень негативно влияет на качество модели: переход от base к large версии не дает большого прироста
13/19
Fine-tune LLM с регрессионной головой - kendall-tau score
14/19
Модель | en-de | en-ru | zh-en |
GEMBA-GPT4-SQM | 0.380 | 0.388 | 0.398 |
COMET-22 | 0.368 | 0.400 | 0.428 |
MetricX XXL | 0.360 | 0.420 | 0.427 |
BLEURT-20 | 0.344 | 0.359 | 0.361 |
BERTScore | 0.232 | 0.192 | 0.396 |
BLEU | 0.196 | 0.140 | 0.145 |
mt0-base encoder+MLP(ours) | 0.258±0.013 | 0.267±0.004 | 0.257±0.017 |
LoRA mt0-large encoder+MLP(ours) | 0.185±0.002 | 0.219±0.003 | 0.157±0.005 |
LoRA mt0-base encoder+MLP(ours) | 0.178±0.003 | 0.198±0.004 | 0.215±0.002 |
Внедрение высококачественных векторов текста для помощи LLM
Илюхин Владислав
15/19
mT5: A massively multilingual pre-trained text-to-text transformer
( Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel)
Идея: добавить в промпт несколько специальных токенов, генерируемых более сложной моделью и содержащих много информации.
базовая модель
Language-agnostic BERT Sentence Embedding
( Fangxiaoyu Feng, Yinfei Yang, Daniel Cer, Naveen Arivazhagan, Wei Wang )
модель для инъекции
Внедрение высококачественных векторов текста для помощи LLM
Илюхин Владислав
16/19
2) Статистики эмбеддинга предложения
I)
II)
Внедрение высококачественных векторов текста для помощи LLM
Илюхин Владислав
17/19
Архитектура медленно учится из-за необходимости нескольких форвард-пассов большой модели перед форвард-пассом архитектуры
Несмотря на прирост качества, даже лучшая модель все еще часто не понимает, что от нее хотят
Не изображено: модель I-1 доучена до 1800 шагов, результат генерации справа
Выводы
Самый успешный подход – fine-tune LLM с регрессионной головой
Одна из SoTA метрик MetricX имеет именно такую архитектуру
Способы улучшения: взять больший размер энкодера без адаптеров, предобучить эмбеддинги на инструктивную задачу оценки, комбинировать SQM и DA промпты в тренировочном датасете
Подходы с txt2txt как в zero-shot, так и с дообучением не позволяют получить хоть сколько-то приемлемый результат
Рассмотрение разметки экспертов как меток классов также не позволяет успешно решить задачу оценки MT
“Природа” задачи требует специализированного подхода к ее решению (если только не >175B параметров для causal LM)
COMET-22 использовала как backbone base-версию XML-Roberta, которая в 70 раз меньше GPT3 и (почти наверное) в 700 раз меньше GPT4
Замена backbone на более успешный мультиязыковой кодировщик, спецификация на каждую конкретную языковую пару и улучшение качества обучающих данных - вероятный путь к успеху в решении задачи автоматической оценки MT (и не только)
18/19
19/19
Artificial Intelligence�Research Institute
airi.net
20
Если текст слева сложно прочесть из-за того, что буквы дублируются и наезжают друг на друга, значит на компьютере не установлен шрифт Inter.
Файл с шрифтом был выслан вместе с этим шаблоном. Обязательно перезагрузите MS Office, чтобы все заработало.��Инструкции по установке шрифтов �вы найдете в pdf «Установка шрифтов».
Перед работой с шаблоном проверьте, установлен ли �у вас фирменный шрифт Inter
Не забудьте удалить этот слайд �и предыдущие, если все получилось ☺
21
Как устроен шаблон
Создавайте новые слайды �и применяйте к ним правильный стиль.
Для этого нужно к каждому слайду применить опреде-ленный тип макета с помощью раздела «Макет» (вкладка меню «Главная»)
Титульные слайды на выбор
Слайд для содержания презентации
Слайд-разделитель
Слайд для важной фразы или вывода
Текстовые слайды для основного контента презентации
Закрывающий слайд
1
2
3
4
5
6
Полезные графические элементы
22
Чтобы разнообразить слайды, вы можете использовать дополнительные графические элементы.
символы
цифры
23
ИНСТРУКЦИИ
Вариант обложки 1
24
ИНСТРУКЦИИ
Вариант обложки 2
25
ИНСТРУКЦИИ
Вариант обложки 3
26
ИНСТРУКЦИИ
Вариант обложки 4
27
ИНСТРУКЦИИ
ИНСТРУКЦИИ
Вариант обложки 1, 2 докладчика
28
ИНСТРУКЦИИ
Вариант обложки 2, 2 докладчика
29
ИНСТРУКЦИИ
Вариант обложки 4, 2 докладчика
30
Разделитель с названием раздела.
Номер раздела можно указать по желанию.
ИНСТРУКЦИИ
Здесь разные паттерны из точек
31
32
33
34
35
36
37