1 of 37

Эффективные метрики для оценки NLG на базе LLM

Алешина Эллина

Висков Василий

Илюхин Владислав

Кокуш Георгий

1/19

ИНСТРУКЦИИ

Вариант обложки 3, 2 докладчика

2 of 37

Содержание

2/19

01

02

03

Постановка задачи

Обзор области

Проделанная работа

04

Вывод

Пример слайда с содержанием презентации.

ИНСТРУКЦИИ

3 of 37

Постановка задачи

Общеизвестно, что генеративные задачи (машинный перевод, обобщение, перефразирование, генеративный контроль качества и т.д.) трудно поддаются оценке.

N-gramm’ы/Character-based (BLEU, Rouge) ->

->На основе моделей (BERTScore, COMET) ->

->✨ На базе LLM✨

Текущие SOTA метрики для оценки NLG:

  • WMT22(Перевод) -> GEMBA
  • SummEval(Суммаризация) -> G-Eval

Обе основаны на ✨GPT-4✨

Главные проблемы: a) GPT-4 очень вычислительно тяжелая (560 TFLOP для инференса, 1.8T параметров) и b) GPT-4 распространяется под 💸платным API💸 который ограничивает доступ и снижает воспроизводимость

Цель: создать эффективную и открытую альтернативу на базе LLM, приближенную по качеству к GPT-4

Тестовый датасет: тестовый сет с WMT22

Задачи:

a) просто использовать небольшие LLM (LLaMa/Falcon/Dolly + fine-tuning +дистилляция/квантизация, и т.д) вместо GPT-4

b) fine-tune LLM с регрессионной головой

c) внедрение высококачественных векторов представления текста (из sentence-transformers), помогающих LLM

3/19

4 of 37

Обзор области - метрики на основе LLM

G-EVAL

Аналогично GEMBA, было предложено zero-shot решение задачи оценки суммаризации.

Наилучшей LLM в zero-shot и в этом случае оказалась GPT-4

GEMBA

Авторы применили zero-shot подход к оценке переводов, опробовав множество различных LLM и промптов.

SoTA в задаче оценки переводов достигнута с помощью GPT-4

4/19

1. Large Language Models Are State-of-the-Art Evaluators of Translation Quality https://arxiv.org/pdf/2302.14520.pdf

2. G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment https://arxiv.org/pdf/2303.16634.pdf

5 of 37

Обзор области - промпты для zero-shot, GEMBA

5/19

6 of 37

Обзор области - метрика для оценки метрик

Коэффициент ранговой корреляции Кендалла

Метрика определяет зависимость между человеческой разметкой качества перевода и машинной, используя не сами значения метрик, а их ранги – то, как значения расположены друг относительно друга.

Для этого используется число согласованных (concordant) и несогласованных (discordant) пар.

Коэффициент принимает значение от -1 до 1(где -1 – связь отсутствует, 1 – идеальная корреляция)

6/19

7 of 37

Обзор области - наборы данных

Языковые пары: en-de, en-ru, zh-en

Обучающая выборка

Для обучения использовался DA-датасет с агрегацией WMT-наборов данных c 2017 по 2022 года

DA - экспертная оценка качества перевода в шкале 1-100

Размер обучающего датасета: 360k

Тестовая выборка

Для подсчета метрик был выбран MQM-датасет с WMT22.

MQM - метрика ручной оценки перевода, учитывающая критичность присутствующих в тексте ошибок.

Размер тестового датасета: 150k

7/19

WMT Metrics Shared Task https://wmt-metrics-task.github.io/

8 of 37

Модель LlaMa-2-chat с промптами GEMBA

Алешина Эллина

8/19

Модель

en-de

en-ru

LlaMa-2-chat

0.088

-0.014

9 of 37

Модель LlaMa-2-chat с few-shot промтом

В начале промта подаются примеры оценок перевода

9/19

Модель

en-de

en-ru

zh-en

LlaMa-2-chat

0.083

0.053

0.107

10 of 37

Fine-tune LLM c LM и классификационной головами

Висков Василий

txt2txt

Использовалась сырая разметка DA

  1. LlaMa-2 (7B) в постановке текстовой генерации:
    1. LoRA (8, 32): attention-слои (Q, V)
    2. LoRA (16, 32): attention-слои (Q, K, V), обратный bottleneck-слой
  2. MT0-XXL-MT (13B) в постановке seq2seq
    • LoRA (8, 32): attention-слои (Q, V, O)

classification

Сырая разметка DA переводилась в домен меньшей мощности, “звездочки” (метка 1-3)

Использовалась сырая разметка DA

  • LlaMa-2 (13B) c классификационной головой:
    • LoRA (8, 32): attention-слои (Q, V)

10/19

Модель

en-de

en-ru

zh-en

1a

0.012

-0.004

0.001

1b

0.024

0.016

-0.001

2a

0.041

0.025

0.002

3a

0.061

0.082

0.001

11 of 37

Fine-tune LLM с регрессионной головой - архитектура

Подход: взять энкодер от мультиязычной LLM и дообучить его с регрессией в качестве декодера. На вход модели также подавались промпты в формате GEMBA(было опробовано несколько различных)

В качестве LLM была взята open-source мультиязычная модель mT0. Было проведено множество экспериментов с архитектурой выходной полносвязной сети.

Самая эффективная из опробованных архитектур:

Кокуш Георгий

Тренировочный датасет: 25k-подвыборка DA-датасета

11/19

12 of 37

Fine-tune LLM с регрессионной головой - train/loss графики

Эксперименты с различными промптами

Были протестированы SQM, DA и simple(упрощенный SQM).

Результат: SQM и DA промпты оказались практически одинаково эффективны, а simple оказался хуже

12/19

13 of 37

Fine-tune LLM с регрессионной головой - train/loss графики

Эксперименты с размерами моделей

Были опробованы base(580M) и large(1.2B) версии mT0.

Для оптимизации был использован адаптер LoRA.

Результат: LoRA очень негативно влияет на качество модели: переход от base к large версии не дает большого прироста

13/19

14 of 37

Fine-tune LLM с регрессионной головой - kendall-tau score

14/19

Модель

en-de

en-ru

zh-en

GEMBA-GPT4-SQM

0.380

0.388

0.398

COMET-22

0.368

0.400

0.428

MetricX XXL

0.360

0.420

0.427

BLEURT-20

0.344

0.359

0.361

BERTScore

0.232

0.192

0.396

BLEU

0.196

0.140

0.145

mt0-base encoder+MLP(ours)

0.258±0.013

0.267±0.004

0.257±0.017

LoRA mt0-large encoder+MLP(ours)

0.185±0.002

0.219±0.003

0.157±0.005

LoRA mt0-base encoder+MLP(ours)

0.178±0.003

0.198±0.004

0.215±0.002

15 of 37

Внедрение высококачественных векторов текста для помощи LLM

Илюхин Владислав

15/19

mT5: A massively multilingual pre-trained text-to-text transformer

( Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel)

Идея: добавить в промпт несколько специальных токенов, генерируемых более сложной моделью и содержащих много информации.

базовая модель

Language-agnostic BERT Sentence Embedding

( Fangxiaoyu Feng, Yinfei Yang, Daniel Cer, Naveen Arivazhagan, Wei Wang )

модель для инъекции

16 of 37

Внедрение высококачественных векторов текста для помощи LLM

Илюхин Владислав

16/19

  1. Ближайший по эмбеддингу к эмбеддингу предложения токен

2) Статистики эмбеддинга предложения

I)

II)

17 of 37

Внедрение высококачественных векторов текста для помощи LLM

Илюхин Владислав

17/19

Архитектура медленно учится из-за необходимости нескольких форвард-пассов большой модели перед форвард-пассом архитектуры

Несмотря на прирост качества, даже лучшая модель все еще часто не понимает, что от нее хотят

Не изображено: модель I-1 доучена до 1800 шагов, результат генерации справа

18 of 37

Выводы

Самый успешный подход – fine-tune LLM с регрессионной головой

Одна из SoTA метрик MetricX имеет именно такую архитектуру

Способы улучшения: взять больший размер энкодера без адаптеров, предобучить эмбеддинги на инструктивную задачу оценки, комбинировать SQM и DA промпты в тренировочном датасете

Подходы с txt2txt как в zero-shot, так и с дообучением не позволяют получить хоть сколько-то приемлемый результат

Рассмотрение разметки экспертов как меток классов также не позволяет успешно решить задачу оценки MT

“Природа” задачи требует специализированного подхода к ее решению (если только не >175B параметров для causal LM)

COMET-22 использовала как backbone base-версию XML-Roberta, которая в 70 раз меньше GPT3 и (почти наверное) в 700 раз меньше GPT4

Замена backbone на более успешный мультиязыковой кодировщик, спецификация на каждую конкретную языковую пару и улучшение качества обучающих данных - вероятный путь к успеху в решении задачи автоматической оценки MT (и не только)

18/19

19 of 37

19/19

Artificial Intelligence�Research Institute

airi.net

20 of 37

20

Если текст слева сложно прочесть из-за того, что буквы дублируются и наезжают друг на друга, значит на компьютере не установлен шрифт Inter.

Файл с шрифтом был выслан вместе с этим шаблоном. Обязательно перезагрузите MS Office, чтобы все заработало.��Инструкции по установке шрифтов �вы найдете в pdf «Установка шрифтов».

Перед работой с шаблоном проверьте, установлен ли �у вас фирменный шрифт Inter

Не забудьте удалить этот слайд �и предыдущие, если все получилось ☺

21 of 37

21

Как устроен шаблон

Создавайте новые слайды �и применяйте к ним правильный стиль.

Для этого нужно к каждому слайду применить опреде-ленный тип макета с помощью раздела «Макет» (вкладка меню «Главная»)

Титульные слайды на выбор

Слайд для содержания презентации

Слайд-разделитель

Слайд для важной фразы или вывода

Текстовые слайды для основного контента презентации

Закрывающий слайд

1

2

3

4

5

6

22 of 37

Полезные графические элементы

22

Чтобы разнообразить слайды, вы можете использовать дополнительные графические элементы.

символы

цифры

23 of 37

23

ИНСТРУКЦИИ

Вариант обложки 1

24 of 37

24

ИНСТРУКЦИИ

Вариант обложки 2

25 of 37

25

ИНСТРУКЦИИ

Вариант обложки 3

26 of 37

26

ИНСТРУКЦИИ

Вариант обложки 4

27 of 37

27

ИНСТРУКЦИИ

ИНСТРУКЦИИ

Вариант обложки 1, 2 докладчика

28 of 37

28

ИНСТРУКЦИИ

Вариант обложки 2, 2 докладчика

29 of 37

29

ИНСТРУКЦИИ

Вариант обложки 4, 2 докладчика

30 of 37

30

Разделитель с названием раздела.

Номер раздела можно указать по желанию.

ИНСТРУКЦИИ

Здесь разные паттерны из точек

31 of 37

31

32 of 37

32

33 of 37

33

34 of 37

34

35 of 37

35

36 of 37

36

37 of 37

37