1 of 26

Обучение компьютера общаться с человеком: современные методы

Лукашевич Н.В.

МГУ имени М.В. Ломоносова

Ведущий научный сотрудник НИВЦ МГУ

Зав. Кафедрой, профессор ВМК

Профессор филологической факультета

louk_nat@mail.ru

2 of 26

Искусственный интеллект и задачи автоматической обработки текстов

  • Язык – многоуровневая система

  • Сложность обработки текстов, речи
    • Многозначность на всех уровнях
    • Зависимость от контекста
    • Изменение со временем, например появление новых слов
    • Описать всю информацию (словари, правила), необходимую для качественной обработки текстов, очень сложно.
    • Поэтому компьютерную систему учат обрабатывать текст-> большие языковые модели (large language models)

3 of 26

Прогресс в развитии больших языковых моделей

3

4 of 26

Решение задач. Отвечает большая языковая модель GPT4o

  • Реши задачу. У Буратино было три яблока, Мальвина попросила у него одно яблоко. Буратино ответил, что не даст. Сколько яблок осталось у Буратино?

  • Ответ модели:
  • У Буратино было три яблока, и несмотря на просьбу Мальвины, он отказался дать ей одно яблоко. Поскольку Буратино не отдал ни одного яблока, у него осталось три яблока.
  • Ответ: у Буратино осталось 3 яблока.

  • Реши задачу. У Буратино было три яблока. Вечером Буратино увидел у Мальвины десять яблок. Сколько яблок стало у Буратино?

  • Ответ модели:
  • Информация о количестве яблок у Мальвины не влияет на количество яблок у Буратино. Следовательно, если у Буратино было три яблока и не упоминается, что он куда-то их дел или получил новые, количество яблок у него не изменилось.
  • Ответ: у Буратино осталось 3 яблока.

5 of 26

Порождение текста GPT4o: Напиши рассказ о приключениях Гарри Поттера во Владивостоке

  • Гарри Поттер никогда не думал, что окажется во Владивостоке, городе на берегу Тихого океана, где магия и реальность переплетаются самыми неожиданными способами. Всё началось с письма от Дамблдора, которое Гарри получил в начале летних каникул. В письме говорилось о важной миссии, связанной с древним артефактом, который может оказаться в руках темных магов.
  • Прибыв во Владивосток, Гарри сразу почувствовал, что этот город таит в себе множество секретов. Улицы наполнены шумом и суетой, а здания, казалось, скрывают за своими фасадами нечто необычное. Встретив своего проводника, Александра, местного мага, Гарри погрузился в мир восточной магии, о которой он раньше лишь слышал.

  • Первым делом они отправились в старинный книжный магазин, скрытый в одном из переулков. Там, среди пыльных томов и свитков, они нашли упоминание о "Жемчужине Амура" — артефакте, обладающем невероятной силой. Легенда гласила, что жемчужина способна открывать порталы в другие измерения и даже управлять временем.
  • Поиски привели их в подземные туннели, проложенные под городом. Гарри и Александр пробирались через темные коридоры, освещая путь волшебными палочками. Внезапно они услышали шорох и заметили, как тени начали двигаться. Из темноты на них выскочила группа темных магов, ведомых старым врагом Гарри — Люциусом Малфоем…

6 of 26

Основы больших языковых моделей

  • Обучение на больших объемах текстовых данных предсказывать следующее слово
  • Представление слов и контекстов слов в виде числовых векторов
  • Механизм самовнимания
  • Базовое устройство – нейронная сеть архитектуры трансформер
  • Инструктивное обучение
    • Обучение для решения конкретных задач
    • Обучение нормам человеческого общения

7 of 26

Языковые модели (Language Models)

  • Определение вероятности предложений, последовательностей слов
  • Как вероятна каждая последовательность слов?
    • P (w1, w2, w3,.. wn)
    • P(w5| w1, w2, w3, w4)

  • Языковая модель – математическая модель, которая вычисляется вероятность последовательности слов или условную вероятность следования слова в контексте
  • Исходные применения
    • Распознавание речи и текста
    • Исправление опечаток, машинный перевод

  • Первые модели на основе n-грамм
  • N-граммы – последовательности n- слов
  • Униграммы:
    • вероятна, каждая, последовательность, слов
  • Биграммы:
    • вероятна каждая,
    • каждая последовательность,
    • последовательность слов
  • Триграммы:
    • вероятна каждая последовательность,
    • каждая последовательность слов

8 of 26

Порождая Шекспира

  • Порождение предложений из униграмм...
    • Every enter now severally so, let
    • Hill he late speaks; or! a more to leg less first you enter

  • С биграммами...
    • What means, sir. I confess she? then all sorts, he is trim, captain.
    • Why dost stand forth thy canopy, forsooth; he is this palpable hit the King Henry.

  • Триграммы
    • Sweet prince, Falstaff shall die.
    • This shall forbid it should be branded, if renown made it empty.

  • Проблемы
    • Предсказание связано с конкретными словами,
    • Не учитывает смысловое сходство между словами
    • Не учитывает длинные контесты

9 of 26

Представление слов в виде числовых векторов

  • Как представить слова, чтобы представление отражало смысловое сходство между словами
    • Береза - сосна – дерево
    • Звезда – солнце - луна

  • Гипотеза
    • Firth 1957 You shall know a word by the company it keeps
    • Слова – которые встречаются в похожих контекстах похожи

  • Как выявить сходство между контекстами
    • Представить их в виде векторов

10 of 26

Представление слов на основе их контекстов

Однажды вечером художник Вадим ехал домой на NNNNNNNNNN

А когда мы выходили из NNNNNNNNNN, спросил..

Садимся в NNNNNNNNNN и едем к ней

От Парка до Больницы пришлось добираться на двух NNNNNNNNNN

Леха живёт в шести остановках NNNNNNNNNN от метро "Коломенская“

Переполненный NNNNNNNNNN подходит к остановке,

NNNNNNNNNN заносило на поворотах

NNNNNNNNNN неторопливо постукивал от одной остановки к другой

Зазвенел невдалеке NNNNNNNNNN

11 of 26

Обучение нейронной сети для формирование представлений слов в виде векторов – эмбеддинги

Mikolov 2013: 2 базовые архитектуры нейронных сетей:

    • Continuous Bag of Word (CBOW): использует окно контекста для предсказания слова
    • Skip-gram (SG): используется слово для предсказания окружающих слов
    • Могут обучаться на больших объемах текстовых данных

12 of 26

12

0

1

0

0

0

0

0

0

0

0

0

0

1

0

0

0

0

0

xcat

xon

0

0

0

0

0

0

0

1

0

Input layer

Hidden layer

sat

Output layer

V-dim

V-dim

N-dim

V-dim

 

 

+

 

0.1

2.4

1.6

1.8

0.5

0.9

3.2

0.5

2.6

1.4

2.9

1.5

3.6

6.1

0.6

1.8

2.7

1.9

2.4

2.0

1.2

 

0

1

0

0

0

0

0

0

0

 

2.4

2.6

1.8

 

Word2Vec: Continuous bag of words

При перемножении матриц строка поэлементно

умножается на столбец

13 of 26

Представление сходства слов в виде векторов

  • Наиболее похожие слова. Слово остров:

14 of 26

Эмбеддинги как вход в нейронные сети при обработке текстов

15 of 26

Учет контекста. Механизм самовнимания. Архитектура трансформер

16 of 26

Большие языковые модели

  • Идея переноса обучения: обучить модель на большом объеме неразмеченных данных

  • Затем использовать полученные представления слов для решения нужно задачи
    • BERT (2019) – энкодер трансформера, -> обучается предсказывать маскированные слова -> контекстуализированные векторные представления,
    • GPT (2018) – декодер трансформера,

обучается порождать тексты�

17 of 26

Самовнимание в порождающих моделях

17

18 of 26

Обучение в контексте больших текстовых данных

19 of 26

Обучение инструкциям (2022)

20 of 26

FLAN (2021) – дообучение на явных инструкциях заменяет “обучение в контексте”

20

Wei J. et al. Finetuned Language Models Are Zero-Shot Learners ICLR 2022.

21 of 26

Только большие модели понимают инструкции

21

Few-shot - “обучение в контексте” на 5 примерах

22 of 26

Chain-of-thought (CoT): повышение качества без дообучения

22

https://ai.googleblog.com/2022/05/language-models-perform-reasoning-via.html

23 of 26

Обучение моделей человеческим нормам (alignment)

  • Мы учим LLM одной задаче, но используем иначе
    • Хотим QA, диалоги, следование инструкциям

Проблемы

  • Неэтичность, токсичность
  • Вредные советы
    • Как в домашних условиях сделать …?
  • Bias - предрассудки
    • Расизм, сексизм, нацизм и тп.

24 of 26

Проблемы: Галлюцинации

  • Напомни стихотворение А.С. Пушкина о Казани

  • В прекрасных стихах Александр Сергеевич Пушкин воспел многие города России, в том числе и Казань. В его стихотворении "Путешествие Онегина" есть такие строки:

  • Казань*
  • Волгой ток воды пресек,
  • Казань спаслася тож,
  • И в честь ее мудрец Феникс
  • Принес с Оленем в дар стрелу.

  • Эти строки описывают эпизод из истории Казани, когда город был осажден войсками Ивана Грозного. Казанский мудрец, по легенде, принес царю стрелу, символизирующую мир и согласие, что помогло избежать кровопролития.
  • Напомни стихотворение С. Есенина о Владивостоке

  • У Сергея Есенина есть стихотворение "Отплытие", в котором он описывает свои впечатления от Владивостока. Вот несколько строк из этого стихотворения:

  • Я покинул город, как покидают
  • Постоялый двор, где было хорошо,
  • Но надолго не задержишься в нем.
  • Я уехал, но мне снова хочется
  • В те знакомые места,
  • Где, как волны, в гости к нам
  • Приходили девушки.

  • Это стихотворение передает ностальгию и грусть от расставания с любимыми местами.

25 of 26

Оценка больших языковых моделей на русском языке

26 of 26

Лучшие модели для русского языка по итогам голосования