1 of 32

Курс «Нейронные сети и их применение в научных исследованиях»

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

Федорова Александра

ОТиПЛ МГУ им. М.В. Ломоносова

22.06.23

2 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

  • Предмет исследования: автоматическая генерация общих вопросов и ответов на них в русском языке
  • Цели исследования:
    • расширение обучающих данных DaNetQA (Glushkova et al., 2020);
    • повышение качества предсказаний языковых моделей на задаче генерации ответов на общие вопросы в русском (англ. binary question answering)

3 of 32

Данные: DaNetQA (Glushkova et al., 2020)

  • Основа - BoolQ [Clark et al. 2019]: датасет, содержащий общие вопросы на английском языке.
  • Является первым датасетом на русском языке, охватывающим исключительно да-нет вопросы.
  • Представляет собой коллекцию триплетов вида «вопрос-текстовый фрагмент-ответ»;
  • Текстовые фрагменты: отрывки из страниц Википедии, в которых содержится информация, позволяющая модели сгенерировать ответ на вопрос;
  • Вторая версия насчитывает 1749, 821 и 805 примеров в обучающей, валидационной и тестовой выборках соответственно
  • Превалирующее число вопросов - вопросы с ответом «да» (соотношение в обучающей выборке 61% к 39%)

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

4 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

  • Задачи курсовой работы:
    • изучить архитектуру современных нейросетевых моделей для классификации (BERT, RoBERTa) и генерации (GPT) текста;
    • изучить метод для донастройки предобученных моделей на конкретную задачу в условиях ограниченного количества размеченных данных – p-tuning;
    • реализовать два способа генерации общих вопросов и расширить обучающую выборку DaNetQA;
    • донастроить BERT и RoBERTa на задачу генерации ответа на общие вопросы
  • Скрипты, сгенерированные данные и обученные модели выложены в репозитории: https://github.com/alexandrafedorova14/Russian_Binary_QA_with_synthetic_data

5 of 32

BERT VS GPT

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

BERT: Bidirectional Encoder Representations from Transformers

GPT: Generative Pre-trained Transformer

Рис. 1 Архитектура нейросетевых моделей семейства BERT (Devlin et al., 2019)

Рис. 2 Архитектура нейросетевых моделей семейства GPT (Radford et al., 2018)

6 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

Предобучаемые языковые модели

  • BERT, RoBERTa и GPT - предобучаемые (англ. pre-training) нейросетевые модели => в результате данного этапа модель «вырабатывает» определенные параметры, которые затем используются для настройки модели для решения других задач.
  • Как адаптировать выученные параметры для решения определенной задачи?
    • тонкая настройка (англ. fine-tuning): верхние слои модели дополнительно обучаются на размеченном датасете под конкретную NLP-задачу;
    • zero-shot обучение (англ. zero-shot learning) (Radford et al., 2019): на вход модели подается подводка (англ. prompt):

translate from english to french: John loves Mary

    • few-shot обучение (англ. few-shot learning) (Brown et al., 2020): модели на вход подается несколько примеров в заданном шаблоне:

Review: This movie sucks. Sentiment: negative

    • обучение подводки (англ. p-tuning) (Liu et al., 2021): подводка обучается с помощью градиентного спуска, чтобы получить наиболее оптимальную ее конфигурацию для решения конкретной задачи

7 of 32

Prompt-tuning

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

  • Подводка p соединяет контекст (англ. context) и целевой результат (англ. target) в шаблон T: The capital of Britain is [MASK], где The capital of ... is ... – подводка, Britain – контекст, [MASK] – целевое значение
  • Моделировать векторное представление (англ. embedding) каждого токена подводки p будем с помощью нейросети краткой-долгосрочной памяти (англ. long-short term memory, LSTM) и двухслойным персептроном (англ. multilayer perceptron, MLP) чтобы добиться а) дискретности эмбеддингов; б) их зависимости друг от друга

Рис. 3 Пример подбора подводки для “The capital of Britain is [MASK]” (Liu et al., 2021)

8 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

Генерация общих вопросов

  • Первый способ: p-tuning GPT-3 для русского языка
    • единственный способ генерации общих вопросов с помощью предобученной языковой модели в условиях ограниченного объема обучающих данных (для fine-tuning-а их просто не хватит)
    • обучение подводки с помощью библиотеки ruPrompts и генерация общих вопросов из полученного пайплайна
  • Второй способ: правиловая генерация вопросов, их перефразирование с помощью нейросетевого рерайтера от Сбера для достижения большего лексического разнообразия

9 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

P-tuning ruGPT-3 для генерации общих вопросов

  • Для обучения подводки и последующей генерации была взята библиотека ruPrompts, позволяющая повторить архитектуру, предложенную в (Liu et al., 2021)
  • В исходном датасете длина passage может превышать 600 токенов, а вопрос может быть задан к одному предложению (~50 токенов). Чтобы модель лучше научилась генерировать вопросы сократили объем исходных passage до трех предложений → с помощью SentenceBERT (Reimers & Gurevych, 2019) отбирали ближайшие по косинусной близости предложения к вопросу. Порог косинусной близости был выбран равным 0.6. В итоге, passage был пересобран и в обучающей выборке осталось 1179 примеров, а в валидационной 454.
  • Шаблон подводки для генерации общих вопросов: <P*10>{answer}<P*10>{passage}<P*10>

10 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

P-tuning ruGPT-3 для генерации общих вопросов

  • Гиперпараметры обучения:
  • скорость обучения: 0.1
  • кол-во шагов обучения: 2500
  • оптимизатор: AdamW
  • размер батча на обучающей выборке: 4
  • размер батча на валидационной выборке: 2
  • warm-up на первых 500 шагах
  • постепенное понижение скорости обучения с помощью косинусного планировщика (cosine scheduler)
  • L2-регуляризация (weight decay) – 0.01
  • Обучение на модели rugpt3large_based_on_gpt2

11 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

P-tuning ruGPT-3 для генерации общих вопросов: стратегии генерации

  • Из разных статей Википедии было отобрано 6000 текстовых фрагментов не длиннее 3 предложений. На первой части генерировались примеры с ответом “да”, на другой с ответом “нет”.
  • Генерация вопросов с ответом "да": поиск по лучу с beam_size=3 num_return_sequences=3. В качестве финального результата брался самый длинный вопрос. Поиск по лучу почти всегда давал вопросы, начинающиеся с определенных токенов (Был, Были, Входит, Есть и тд). Чтобы это предотвратить, на половине примеров повторяющиеся токены были добавлены как bad_words_ids, поэтому при далее не появлялись в сгенерированных вопросах. Это позволило разнообразить структуру вопросов. Параметр температуры (англ. temperature) был выставлен 0.9
  • Генерация вопросов с ответом "нет": сэмплирование – beam_size=1, num_return_sequences=3. Как и в случае с позитивными вопросами, из сгенерированных трех вариантов выбирался самый длинный. Параметр температуры (англ. temperature) был выставлен 0.9

12 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

P-tuning ruGPT-3 для генерации общих вопросов: результаты

passage

question

label

Дебютная публикация стихов Павла Нагорских состоялась в «Пионерской правде» в 1989 году. Его палиндромам присуща поэтическая выразительность, мелодичность, стройность языка. Особенно автору удаются так называемые монопалиндромы, то есть целые стихотворения, читаемые от начала к концу и от конца к началу одинаково.

Были ли палиндромы у поэта Павла Нагорских?

true

Но в отличие от двух других футболистов, с которыми были подписаны новые контракты, контракт Мамедова был продлен. В составе «Кяпаза» играет под номером 77. Кубок.

Были ли в составе «Кяпаза» другие футболисты?

true

Но Рубинштейна ещё можно было рассматривать как одиночку, как блестящее исключение, как гениального самородка. Игра Есиповой засвидетельствовала перед всем светом наличие в России родника пианистических талантов, замечательной школы, высокой пианистической культуры. После развода с Лешетицким в 1892 году Есипова вернулась в Россию, заняв место профессора фортепиано в Санкт-Петербургской консерватории. Сторонница активной пальцевой техники.

Есипова – талантливая пианистка?

true

Таблица 1. Утвердительные синтетические вопросы после p-tuning-а ruGPT-3

13 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

P-tuning ruGPT-3 для генерации общих вопросов: результаты

passage

question

label

Язык. Говорят на языке лусога, имеющем два диалекта: северный (лупакоойо) и южный (лутенга). Язык лусога относится к языковой группе банту, включающей в себя множество различных языков, распространенных в Африке.

У лусога есть восточный диалект?

false

Эти рисунки были просты в техническом плане и для их нанесения требовалось минимум времени. Поэтому эти рисунки были внедрены в производство, так как предельная скорость ручного труда была в приоритете и выгодна для поточного производства фарфора. В начале 1970-х годов стиль росписи Яснецова определился окончательно.

Была ли разработана технология нанесения рисунка на стеклянную поверхность?

false

Перила, как правило, изготавливают из дерева, металла и пластика. Деревянные перила. Чаще всего применяются в интерьере, реже в экстерьере домов, в садах и парках.

Есть ли ограничения по высоте перил?

false

Таблица 2. Отрицательные синтетические вопросы после p-tuning-а ruGPT-3

14 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

Правиловый подход для генерации общих вопросов

  • Включает в себя три этапа и позволяет генерировать 4 типа общих вопросов:
  • общие вопросы с частицей ли;
  • общие вопросы, начинающиеся с выражения правда ли…
  • общие вопросы с частицей не…ли
  • общие вопросы с отрицательной частицей не
  • Впервые реализован в (Федорова, 2021)
  • В данной работе единственной доработкой являлось использование нейросетевого рерайтера Сбера с целью добавления лексического разнообразия в генерируемые данные.

Параметры генерации:

  • temperature = 1.0
  • top-k = 50
  • top-p = 0.7
  • Наилучший вариант перефразированного вопроса выбирался с помощью ранжировщика bertscore (Zhang et al., 2019)

15 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

Правиловый подход для генерации общих вопросов

  • Включает в себя три этапа и позволяет генерировать 4 типа общих вопросов:
  • общие вопросы с частицей ли;
  • общие вопросы, начинающиеся с выражения правда ли…
  • общие вопросы с частицей не…ли
  • общие вопросы с отрицательной частицей не
  • Впервые реализован в (Федорова, 2021)
  • В данной работе единственной доработкой являлось использование нейросетевого рерайтера Сбера с целью добавления лексического разнообразия в генерируемые данные.

Параметры генерации:

  • temperature = 1.0
  • top-k = 50
  • top-p = 0.7
  • Наилучший вариант перефразированного вопроса выбирался с помощью ранжировщика bertscore (Zhang et al., 2019)

16 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

Правиловый подход для генерации общих вопросов: результаты

passage

question

label

Однажды Миджа увидела объявление о наборе на курсы поэзии и незамедлительно решила туда попасть.

Не Миджа ли увидела объявление о наборе на курсы поэзии?

true

В начале времени Бог создал нескольких духов.

Возможно ли, что Бог создал несколько духов?

true

В 2006 году тренеры «Динамо» сочли молодого игрока бесперспективным и предложили ему искать новую команду.

Тренеры Динамо считают молодого игрока "слабым"?

true

Все 15 вагонов пассажирского поезда сошли с рельсов.

С рельсов сошли все 15 вагонов пассажирского поезда?

true

Новое красное кирпичное здание стояло на месте нынешнего сквера на Площади Свободы, который в то время был Театральной площадью.

А правда ли, что здание красного кирпича стояло на месте скверика у Площади Свободы?

true

Таблица 3. Утвердительные синтетические вопросы после правиловой генерации

17 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

Правиловый подход для генерации общих вопросов: результаты

passage

question

label

В конце концов Василий, остро нуждавшийся в верных войсках, нашёл поддержку в Киевской Руси: в обмен на брак сестры Анны с князем Владимиром Святославичем, тот отправил 6 тыс. отряд, с которым удалось подавить восстание, а сам Фока пал в битве.

Не в Киевской Руси нашёл поддержку Василий?

false

Однажды вечером, в историческом центре Детройта, Роджер встретил на улице группу поющих монахов-кришнаитов.

Встретил группу поющих монахов кришнаитов не Роджер?

false

Большинство землетрясений в мире (90 % и 81 % самых крупных) происходят в подковообразной зоне протяженностью 40 000 км, называемой Тихоокеанским огненным кольцом.

В подковообразной зоне протяженностью 40 000 км большинство землетрясений в мире не происходят?

false

Таблица 4. Отрицательные синтетические вопросы после правиловой генерации

18 of 32

Архитектура BERT для задачи предсказания бинарного ответа

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

Label (0/1)

Question

Passage

19 of 32

Тонкая настройка и обучение подводки ruBERT и ruRoBERTa

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

  • После добавления синтетических данных к обучающей выборке DaNetQA ее размер вырос с 1749 до 6096, при этом в полученных выборках отсутствовал дисбаланс классов, как в исходной
  • Донастройка проводилась на моноязычных моделях, адаптированных под русский язык – ruBERT и ruRoBERTaLARGE
  • Каждая модель обучалась на трех разных обучающих выборках:
  • исходном DaNetQA (далее DaNetQA)
  • DaNetQA с синтетической выборкой, полученной правиловым подходом (далее DaNetQA+RB)
  • DaNetQA с синтетической выборкой, полученной после обучения подводки для ruGPT-3 (далее DaNetQA+PT)

20 of 32

Тонкая настройка ruBERT и ruRoBERTa

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

  • Гиперпараметры обучения:
    • скорость обучения – 1e-5
    • оптимизатор - AdamW
    • L2-регуляризация – 0.01
    • warm-up на первых 100 шагах обучения
    • последовательное уменьшение скорости с помощью линейного планировщика (англ. linear scheduler)
    • количество эпох обучения – 5
    • размер батча на обучении – 8/4
    • размер батча на валидации – 8/4

21 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

Accuracy на валидации = 0.52

Accuracy на тесте = 0.502

Доля верно предсказанных «да»

Доля верно предсказанных «нет»

Точность

0.51

0.67

Полнота

0.96

0.08

F-мера

0.67

0.14

Accuracy на валидации = 0.6

Accuracy на тесте = 0.522

Доля верно предсказанных «да»

Доля верно предсказанных «нет»

Точность

0.57

0.71

Полнота

0.85

0.35

F-мера

0.68

0.47

Accuracy на валидации = 0.63

Accuracy на тесте = 0.523

Доля верно предсказанных «да»

Доля верно предсказанных «нет»

Точность

0.59

0.73

Полнота

0.9

0.5

F-мера

0.75

0.62

Таблица 5. Тонкая настройка ruBERT на DaNetQA

Таблица 6. Тонкая настройка

ruBERT на DaNetQA+RB

Таблица 7. Тонкая настройка

ruBERT на DaNetQA+PT

22 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

Accuracy на валидации = 0.75

Accuracy на тесте = 0.645

Доля верно предсказанных «да»

Доля верно предсказанных «нет»

Точность

0.68

0.91

Полнота

0.94

0.56

F-мера

0.79

0.69

Accuracy на валидации = 0.7

Accuracy на тесте = 0.57

Доля верно предсказанных «да»

Доля верно предсказанных «нет»

Точность

0.63

0.95

Полнота

0.98

0.43

F-мера

0.77

0.59

Accuracy на валидации = 0.79

Accuracy на тесте = 0.67

Доля верно предсказанных «да»

Доля верно предсказанных «нет»

Точность

0.8

0.79

Полнота

0.78

0.8

F-мера

0.79

0.79

Таблица 8. Тонкая настройка ruRoBERTa на DaNetQA

Таблица 9. Тонкая настройка

ruRoBERTa на DaNetQA+RB

Таблица 10. Тонкая настройка

ruRoBERTa на DaNetQA+PT

23 of 32

P-tuning ruBERT и ruRoBERTa

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

  • Для реализации p-tuning обеих моделей на классификацию была выбрана библиотека OpenPrompt
  • Шаблон подводки для генерации бинарного ответа:

{"placeholder": "text_a"} Вопрос: {"placeholder": "text_b"} {"soft"} {"soft"} {"soft"} Ответ: {"mask"} .

  • Гиперпараметры обучения:
    • скорость обучения – 1e-5
    • оптимизатор - AdamW
    • L2-регуляризация – 0.01
    • количество эпох обучения – 5
    • размер батча на обучении – 8/4
    • размер батча на валидации – 8/4

24 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

Accuracy на валидации = 0.673

Accuracy на тесте = 0.643

Доля верно предсказанных «да»

Доля верно предсказанных «нет»

Точность

0.62

0.82

Полнота

0.9

0.44

F-мера

0.74

0.57

Accuracy на валидации = 0.705

Accuracy на тесте = 0.671

Доля верно предсказанных «да»

Доля верно предсказанных «нет»

Точность

0.65

0.81

Полнота

0.88

0.53

F-мера

0.75

0.64

Accuracy на валидации = 0.73

Accuracy на тесте = 0.714

Доля верно предсказанных «да»

Доля верно предсказанных «нет»

Точность

0.67

0.84

Полнота

0.9

0.56

F-мера

0.77

0.67

Таблица 11. P-tuning ruBERT на DaNetQA

Таблица 12. P-tuning

ruBERT на DaNetQA+RB

Таблица 13. P-tuning

ruBERT на DaNetQA+PT

25 of 32

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

Accuracy на валидации = 0.79

Accuracy на тесте = 0.78

Доля верно предсказанных «да»

Доля верно предсказанных «нет»

Точность

0.76

0.85

Полнота

0.87

0.72

F-мера

0.81

0.78

Accuracy на валидации = 0.8

Accuracy на тесте = 0.783

Доля верно предсказанных «да»

Доля верно предсказанных «нет»

Точность

0.74

0.89

Полнота

0.92

0.68

F-мера

0.82

0.77

Accuracy на валидации = 0.82

Accuracy на тесте = 0.817

Доля верно предсказанных «да»

Доля верно предсказанных «нет»

Точность

0.84

0.8

Полнота

0.79

0.85

F-мера

0.82

0.83

Таблица 14. P-tuning ruRoBERTa на DaNetQA

Таблица 15. P-tuning

ruRoBERTa на DaNetQA+RB

Таблица 16. P-tuning

ruRoBERTa на DaNetQA+PT

26 of 32

Генерация ответа на общие вопросы

  • question: Полезна ли ртуть с градусника?

passage: Отравления ртутью — расстройства здоровья, связанные с избыточным поступлением паров или соединений ртути в организм. Токсические свойства ртути известны с глубокой древности. Соединения ртути — киноварь, каломель и сулема — применялись для разных целей, в том числе и в качестве ядов. С древних времён известна также и металлическая ртуть, хотя её токсичность поначалу сильно недооценивалась. Ртуть и её соединения стали особенно широко применяться в средние века, в частности при производстве золота и серебряных зеркал, а также при изготовлении фетра для шляп, что вызвало поток новых, уже профессиональных отравлений.

label: false

  • question: Являются ли сапрофаги хищниками?

passage: Фауна лесных почв — совокупность видов животных, для которых лесная почва является средой обитания, часть лесной фауны. Животных, обитающих в почве, в зависимости от размеров особей относят к следующим группам: макрофауна — в основном мелкие млекопитающие, в том числе землеройки, кроты. мезофауна — её представляют дождевые черви, многоножки, мокрицы, насекомые, их личинки. микрофауна — нематоды, энхитреиды, клещи, в основном панцирные клещи, ногохвостки и другие. Нанофауна - это одноклеточные простейшие. В любых лесах среди беспозвоночных почв преобладают сапрофаги, которые питаются лесным опадом, грибницей, гниющей древесиной.

label: false

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

27 of 32

Генерация ответа на общие вопросы

  • question: Едят ли французы лягушек?

passage: Съедобная лягушка — вид или таксон видового ранга семейства настоящих лягушек, произошедший в результате гибридизации прудовой и озёрной лягушек не менее 5000 лет назад. Название связано с тем, что лапки этого животного — популярное блюдо французской кухни. Максимальная длина тела 97 мм. Сверху чаще всего окрашены в зелёный цвет, но у части особей фон серый, оливковый, буроватый или мозаично зелено-бурый. Лягушка съедобная имеет промежуточные морфологические признаки между родительскими видами: серые резонаторы; округлый пяточный бугорок, длина которого укладывается 1,7—2,9 раз в длине первого пальца задних конечностей; голеностопные суставы, если конечности сложить перпендикулярно оси тела, соприкасаются.

label: true

  • question: Бывает ли аллергия на эвкалипт?

passage: globulus и Е. amygdalina. В середине 19 века эвкалиптовое масло применяли для борьбы с эпидемиями малярии, при дифтерии и скарлатине. Коренные народы Австралии использовали листья эвкалипта для изготовления компрессов при лечении ран. Сегодня эвкалиптовое масло применяется в составе медицинских препаратов в терапии инфекционно-воспалительных заболеваний глотки и верхних дыхательных путей, ринита, гайморита, герпеса. Возможны аллергические реакции.

label: true

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

28 of 32

Выводы

  • Исходная гипотеза подтвердилась: расширение обучающей выборки с помощью синтетических данных позволяет повысить качество предсказаний языковых моделей;
  • Чем больше языковая модель, тем меньше влияние синтетических данных на улучшение генерации, однако все же оно есть
  • Правиловый подход довольно сильно проигрывает обучению подводки для авторегресионных моделей типа GPT для генерации общих вопросов:
    • полученные примеры довольно с лексической точки зрения однообразны, задаются к одному предложению;
    • структура генерируемых правилами вопросов довольно отличается от данных в DaNetQA (отсутствуют самые частотные типы – Был ли, Была ли, Есть ли и тд);
    • рерайт не помогает достичь лексического разнообразия
  • Обучение подводки ruGPT-3 позволяет генерировать общие вопросы, которые
    • относятся ко всему текстовому фрагменту, не ограничиваясь одним предложением;
    • разнообразны с лексической точки зрения;
    • более близки по структуре к тем вопросам, которые обнаруживаются в исходном DaNetQA
  • Обучение подводки как альтернатива тонкой настройке позволяет достичь более высоких результатов не только на генерации, но и на классификации:
    • лучший результат после тонкой настройки – 0.67
    • лучший результат после обучения подводки – 0.817

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

29 of 32

Список литературы

Clark et al., 2019 – Clark, C., Lee, K., Chang, M.W., Kwiatkowski, T., Collins, M., Toutanova, K. Boolq: Exploring

the surprising difficulty of natural yes/no questions. 2019. arXiv:1905.10044.

Devlin et al., 2019 – Devlin J., Chang M-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional

Transformers for Language Understanding. 2019 arXiv:1810.04805.

Glushkova et al., 2020 – Glushkova T., Machnev A., Fenogenova A., Shavrina T., Artemova E., Ignatov D. DaNetQA:

a yes/no Question Answering Dataset for the Russian Language. 2020. arXiv:2010.02605.

Liu et al., 2021 – Liu X., Zheng Y., Du Z., Ding M., Qian Y., Yang Z., Tang J. GPT Understands, Too. 2021.

arXiv:2103.10385.

Radford et al., 2018 – Radford A., Narasimhan K., Salimans T., Sutskever I. Improving Language Understanding by

Generative Pre-Training. OpenAI. 2018.

Vaswani et al., 2017 – Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser L.,

Polosukhin I. Attention is all you need // Advances in Neural Information Processing Systems. 2017. P. 6000–6010.

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

30 of 32

Дополнительные материалы

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

31 of 32

Правиловый подход для генерации общих вопросов: вопросительные преобразования

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

  • Сначала для предложения определяется набор его составляющих. Возможны следующие конфигурации:
  • предикат, субъект и прямой объект;
  • предикат, субъект, прямой объект и адъюнкт;
  • предикат, субъект и косвенный объект (англ. oblique object)
  • Далее предложение переходит на вход определенной функции:
  • функция, добавляющая частицу ли к определенной составляющей предложения
  • функция, добавляющая выражение правда ли в начало вопроса
  • функция, добавляющая частицу не…ли к определенной составляющей предложения
  • функция, добавляющая частицу не к определенной составляющей предложения

32 of 32

Правиловый подход для генерации общих вопросов: отбор предложений

Автоматический ответ на общие вопросы с использованием искусственно сгенерированных данных

  • Для того, чтобы отобрать определённые типы предложений, был написан синтаксический шаблон: это две функции, первая из которых отбирала предложения, в которых обязательно имелись субъект, прямой объект и предикат, а вторая - предложения, в которых имелись субъект, косвенный объект (oblique object) и предикат (или же сюда попадали предложения и с прямым объектом тоже, тогда вместо косвенного объекта был адъюнкт);
  • Всего было отобрано 4726 предложений обоих типов, затем на одной части генерировались общие вопросы с ответом "да", а на другой – с ответом "нет"
  • Все типы вопросов (всего было 72) неравномерно сэмплировались. Далее случайным образом на основе каждого отобранного предложения был сгенерирован вопрос
  • Последним этапом шел рерайт полученных вопросов, постпроцессинг (чтобы избавиться от ошибок рерайтера)