1 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

Соломатина Юлиана

Группа НС 234

Курс «Нейронные сети и их применение в научных исследованиях»

2 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

  • При анализе тональности необходимо учитывать отношения между участниками ситуации (таргетированный анализ)
  • Исследований по данной теме на русскоязычном материале с применением современных подходов крайне мало
  • Новостные тексты: преобладание нейтральных тональностей, имплицитные оценки
  • Соревнование RuSentNE-2023: задача извлечения из новостных текстов тональности по отношению к заранее размеченным сущностям типа PERSON, ORGANIZATION, PROFESSION, COUNTRY, NATIONALITY в предложении

Актуальность

3 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

  • Цель: Автоматическое распознавание тональности и ее источника для именованных сущностей в предложении c использованием датасета RuSentNE на основе дообученной моделей семейства BERT

  • Задачи:�- распарсить данные;�- провести предобработку данных с учетом их несбалансированности;�- протестировать подводки, составленные вручную (hard prompts);�- протестировать обучаемые подводки (soft prompts);�- произвести интерпретацию результатов.

Цель и задачи исследования

4 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

  • Датасет RuSentNE: тексты из Wikinews с размеченными именованными сущностями и отношениями между ними

Данные

sentence

entity

entity_tag

label

"Для Москвы эта фигура может оказаться более приемлемой, чем Сарбаев, исходя хотя бы из его русской национальности и большого опыта экономического управления",-заявил господин Бигнов.

Бигнов

PERSON

0

"После ухода Радия Хабирова администрация значительно ослабла, ее влияние резко упало по сравнению с аппаратом правительства",- рассказал собеседник "Ъ".

Радия Хабирова

PERSON

1

5 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

  • Размер датасета: 12 245 пар «сущность – предложение»

Статистика по датасету

6 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

  • Кросс-валидация на трех фиксированных разбиениях (70/30)
  • Тестирование на выборках из соревнования RuSentNE-2023
  • Метрики:�- Favg – усреднение по трем классам� - F(pos, neg)avg – усреднение негативному и позитивному классам
  • Базовая модель: BERT для классификации без учета сущностей
  • Результат для базовой модели:

Favg = 56.71 F(pos, neg)avg = 40.92

Оценка качества

7 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

Эксперименты с подводками, подобранными вручную

Тип подводки

Метод борьбы с дисбалансом

Эксперимент 1

Таргет-слово

Отсутствует

Эксперимент 2

Таргет-слово

Подсчет весов классов

Эксперимент 3

Безличный вопрос типа «Как относятся к X?», где Х – таргет-слово

Отсутствует

Эксперимент 4

Безличный вопрос типа «Как относятся к X?», где Х – таргет-слово

Подсчет весов классов

Эксперимент 5

Таргет-слово

Аугментация

Эксперимент 6

Безличный вопрос типа «Как относятся к X?», где Х – таргет-слово

Аугментация

  • размер батча: 16
  • количество эпох: 10
  • функция потерь: кросс-энтропия
  • оптимизатор: AdamW

8 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

Результаты

ruBERT

ruRoBERTa

F1avg

F1(pos, neg)avg

F1avg

F1(pos, neg)avg

Модель 1

0.623

0.490

0.651

0.522

Модель 2

0.616

0.480

0.658

0.550

Модель 3

0.623

0.490

0.649

0.550

Модель 4

0.610

0.455

0.650

0.547

Модель 5

0.636

0.505

0.672

0.566

Модель 6

0.646

0.52

0.671

0.560

  • При прочих равных ruRoBERTa дает лучшие результаты, чем ruBERT
  • Важнее правильно объяснить модели задачу (подобрать подводку), чем восполнить дисбаланс

9 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

  • Проблема: поиск оптимальной подводки вручную и сложность интерпретации результата

  • Решение: замена эмбеддингов токенов подводки на обучаемые вектора

  • Способы моделировать вектора: �- слой Embedding, веса которого инициализируются токенами из заданной вручную подводки;�- LSTM + MLP.

Prompt Tuning

10 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

  • Основная идея: модель предсказывает не только слово, соответствующее метке класса, но и вспомогательные токены (subprompts), характеризующие каждый из классов

  • Метка класса присваивается на основе логических правил (конъюнктивная нормальная форма) и конкатенации предсказаний вспомогательных токенов

Prompt Tuning with Rules

11 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

Эксперимент со смешанным шаблоном

  • Шаблон:

{"soft": "Какое отношение выражено к"} {"placeholder":"text_a"} {"soft": "в предложении "} {"placeholder":"text_b"}: {"text": "отрицательное, положительное или нейтральное"}? {"soft": "Отношение в данном предложении к"}{"placeholder":"text_a"}{"mask"}’

  • Вербализатор: списки названий классов

soft – обучаемые токены text_b – предложение

text – фиксированные токены text_a – сущность

mask – слово под маской

12 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

Эксперименты на основе подводок с правилами

Шаблон

Вербализатор

1

{”soft": "В предложении"}{"placeholder": "text_b"}{"mask"}{"mask"}{"mask"}{"mask"}{"mask"}{"mask"}{”soft": "относится к "}{"placeholder": "text_a"}'

"автор", "или", "другой", "участник", "ситуации", [”нейтрально”|”положительно”|”отрицательно”]

2

{”soft": "Какое отношение "}{"mask"}{"mask"}{"mask"}{"mask"}{”soft": " к "}{"placeholder": "text_a"}{”soft": "в данном новостном тексте"}{"placeholder": "text_b"}{"text": "?"}{"mask"}'

"имплицитно", "или", "эксплицитно", "выражено", [”нейтральное”|”положительное”|”отрицательное”]

13 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

Результаты

 

F1avg

F1(pos, neg)avg

Mixed Template + BERT-base

0.503

0.510

Mixed Template + RoBERTa-large

0.687

0.580

PTR-1+BERT-base

0.653

0.530

PTR-1+RoBERTa-large

0.727

0.630

PTR-2+BERT-base

0.650

0.520

PTR-2+RoBERTa-large

0.697

0.635

14 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

Эксперимент с расширением вербализатора

  • Основная идея: расширение вербализатора с помощью внешних лингвистических ресурсов – словаря RuSentiLex и фреймов RuSentiFrames
  • Шаблон:

{"soft": "Какие слова описывают тональность отношения к "} {"placeholder": "text_a"}{"soft": " в новостном тексте "}

{"placeholder": "text_b"}?{"mask"}

  • Примеры слов:

позор, убийство, зло -> негативный класс

любовь, благодарить, приветствие ->позитивный класс

15 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

Результаты

F1avg

F1(pos, neg)avg

Модель с расширенным вербализатором �(1 стратегия)

0.73

0.66

Модель с расширенным вербализатором�(2 стратегия)

0.72

0.65

  • На кросс-валидации

F1avg

F1(pos, neg)avg

Модель с расширенным вербализатором(1)

70.94

62.16

  • На тестовой выборке RuSentNE-2023

16 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

Итоги соревнования RuSentNE-2023

17 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

Анализ интерпретируемости

18 of 18

Вопросо-ответные подходы в таргетированном анализе тональности

  • Исследовалась задача таргетированного анализа тональности
  • Для данной задачи важнее изучать разные форматы работы с текстовыми подводками, нежели концентрироваться на борьбе с дисбалансом
  • Модели с обучаемыми подводками демонстрируют лучшее качество, в особенности для позитивных и негативных тональностей
  • Наилучший результат продемонстрировала модель, использующая внешние ресурсы для формирования вербализатора
  • Анализ интерпретируемости с помощью LIME показал, что разные структура входных данных и постановка задачи не только по-разному влияют на результат классификации, но и обеспечивают разное распределение весов внутри предобученной �языковой модели

Заключение