1 of 26

Обучение компьютера общаться с человеком: современные методы

Лукашевич Н.В.

МГУ имени М.В. Ломоносова

Ведущий научный сотрудник НИВЦ МГУ

Зав. Кафедрой, профессор ВМК

Профессор филологической факультета

louk_nat@mail.ru

2 of 26

Искусственный интеллект и задачи автоматической обработки текстов

Язык – многоуровневая система

Сложность обработки текстов, речи

Многозначность на всех уровнях
Зависимость от контекста
Изменение со временем, например появление новых слов
Описать всю информацию (словари, правила), необходимую для качественной обработки текстов, очень сложно.
Поэтому компьютерную систему учат обрабатывать текст-> большие языковые модели (large language models)

3 of 26

Прогресс в развитии больших языковых моделей

3

4 of 26

Решение задач. Отвечает большая языковая модель GPT4o

Реши задачу. У Буратино было три яблока, Мальвина попросила у него одно яблоко. Буратино ответил, что не даст. Сколько яблок осталось у Буратино?

Ответ модели:
У Буратино было три яблока, и несмотря на просьбу Мальвины, он отказался дать ей одно яблоко. Поскольку Буратино не отдал ни одного яблока, у него осталось три яблока.
Ответ: у Буратино осталось 3 яблока.

Реши задачу. У Буратино было три яблока. Вечером Буратино увидел у Мальвины десять яблок. Сколько яблок стало у Буратино?

Ответ модели:
Информация о количестве яблок у Мальвины не влияет на количество яблок у Буратино. Следовательно, если у Буратино было три яблока и не упоминается, что он куда-то их дел или получил новые, количество яблок у него не изменилось.
Ответ: у Буратино осталось 3 яблока.

5 of 26

Порождение текста GPT4o: Напиши рассказ о приключениях Гарри Поттера во Владивостоке

Гарри Поттер никогда не думал, что окажется во Владивостоке, городе на берегу Тихого океана, где магия и реальность переплетаются самыми неожиданными способами. Всё началось с письма от Дамблдора, которое Гарри получил в начале летних каникул. В письме говорилось о важной миссии, связанной с древним артефактом, который может оказаться в руках темных магов.
Прибыв во Владивосток, Гарри сразу почувствовал, что этот город таит в себе множество секретов. Улицы наполнены шумом и суетой, а здания, казалось, скрывают за своими фасадами нечто необычное. Встретив своего проводника, Александра, местного мага, Гарри погрузился в мир восточной магии, о которой он раньше лишь слышал.

Первым делом они отправились в старинный книжный магазин, скрытый в одном из переулков. Там, среди пыльных томов и свитков, они нашли упоминание о "Жемчужине Амура" — артефакте, обладающем невероятной силой. Легенда гласила, что жемчужина способна открывать порталы в другие измерения и даже управлять временем.
Поиски привели их в подземные туннели, проложенные под городом. Гарри и Александр пробирались через темные коридоры, освещая путь волшебными палочками. Внезапно они услышали шорох и заметили, как тени начали двигаться. Из темноты на них выскочила группа темных магов, ведомых старым врагом Гарри — Люциусом Малфоем…

6 of 26

Основы больших языковых моделей

Обучение на больших объемах текстовых данных предсказывать следующее слово
Представление слов и контекстов слов в виде числовых векторов
Механизм самовнимания
Базовое устройство – нейронная сеть архитектуры трансформер

Инструктивное обучение

Обучение для решения конкретных задач
Обучение нормам человеческого общения

7 of 26

Языковые модели (Language Models)

Определение вероятности предложений, последовательностей слов
Как вероятна каждая последовательность слов?

P (w1, w2, w3,.. wn)
P(w5| w1, w2, w3, w4)

Языковая модель – математическая модель, которая вычисляется вероятность последовательности слов или условную вероятность следования слова в контексте
Исходные применения

Распознавание речи и текста
Исправление опечаток, машинный перевод

Первые модели на основе n-грамм
N-граммы – последовательности n- слов
Униграммы:

вероятна, каждая, последовательность, слов

Биграммы:

вероятна каждая,
каждая последовательность,
последовательность слов

Триграммы:

вероятна каждая последовательность,
каждая последовательность слов

8 of 26

Порождая Шекспира

Порождение предложений из униграмм...

Every enter now severally so, let
Hill he late speaks; or! a more to leg less first you enter

С биграммами...

What means, sir. I confess she? then all sorts, he is trim, captain.
Why dost stand forth thy canopy, forsooth; he is this palpable hit the King Henry.

Триграммы

Sweet prince, Falstaff shall die.
This shall forbid it should be branded, if renown made it empty.

Проблемы

Предсказание связано с конкретными словами,
Не учитывает смысловое сходство между словами
Не учитывает длинные контесты

9 of 26

Представление слов в виде числовых векторов

Как представить слова, чтобы представление отражало смысловое сходство между словами

Береза - сосна – дерево
Звезда – солнце - луна

Гипотеза

Firth 1957 You shall know a word by the company it keeps
Слова – которые встречаются в похожих контекстах похожи

Как выявить сходство между контекстами

Представить их в виде векторов

10 of 26

Представление слов на основе их контекстов

Однажды вечером художник Вадим ехал домой на NNNNNNNNNN

А когда мы выходили из NNNNNNNNNN, спросил..

Садимся в NNNNNNNNNN и едем к ней

От Парка до Больницы пришлось добираться на двух NNNNNNNNNN

Леха живёт в шести остановках NNNNNNNNNN от метро "Коломенская“

Переполненный NNNNNNNNNN подходит к остановке,

NNNNNNNNNN заносило на поворотах

NNNNNNNNNN неторопливо постукивал от одной остановки к другой

Зазвенел невдалеке NNNNNNNNNN

11 of 26

Обучение нейронной сети для формирование представлений слов в виде векторов – эмбеддинги

Mikolov 2013: 2 базовые архитектуры нейронных сетей:

Continuous Bag of Word (CBOW): использует окно контекста для предсказания слова
Skip-gram (SG): используется слово для предсказания окружающих слов
Могут обучаться на больших объемах текстовых данных

12 of 26

12

0

1

0

…

0

1

0

…

0

x_cat

x_on

0

1

…

0

Input layer

Hidden layer

sat

Output layer

V-dim

N-dim

V-dim

+

0.1	2.4	1.6	1.8	0.5	0.9	…	…	…	3.2
0.5	2.6	1.4	2.9	1.5	3.6	…	…	…	6.1
…	…	…	…	…	…	…	…	…	…
…	…	…	…	…	…	…	…	…	…
0.6	1.8	2.7	1.9	2.4	2.0	…	…	…	1.2

0

1

0

…

0

2.4
2.6
…
…
1.8

Word2Vec: Continuous bag of words

При перемножении матриц строка поэлементно

умножается на столбец

13 of 26

Представление сходства слов в виде векторов

Наиболее похожие слова. Слово остров:

14 of 26

Эмбеддинги как вход в нейронные сети при обработке текстов

15 of 26

Учет контекста. Механизм самовнимания. Архитектура трансформер

16 of 26

Большие языковые модели

Идея переноса обучения: обучить модель на большом объеме неразмеченных данных

Затем использовать полученные представления слов для решения нужно задачи

BERT (2019) – энкодер трансформера, -> обучается предсказывать маскированные слова -> контекстуализированные векторные представления,
GPT (2018) – декодер трансформера,

обучается порождать тексты�

17 of 26

Самовнимание в порождающих моделях

17

18 of 26

Обучение в контексте больших текстовых данных

19 of 26

Обучение инструкциям (2022)

20 of 26

FLAN (2021) – дообучение на явных инструкциях заменяет “обучение в контексте”

20

Wei J. et al. Finetuned Language Models Are Zero-Shot Learners ICLR 2022.

21 of 26

Только большие модели понимают инструкции

21

Few-shot - “обучение в контексте” на 5 примерах

22 of 26

Chain-of-thought (CoT): повышение качества без дообучения

22

https://ai.googleblog.com/2022/05/language-models-perform-reasoning-via.html

23 of 26

Обучение моделей человеческим нормам (alignment)

Мы учим LLM одной задаче, но используем иначе

Хотим QA, диалоги, следование инструкциям

Проблемы

Неэтичность, токсичность
Вредные советы

Как в домашних условиях сделать …?

Bias - предрассудки

Расизм, сексизм, нацизм и тп.

24 of 26

Проблемы: Галлюцинации

Напомни стихотворение А.С. Пушкина о Казани

В прекрасных стихах Александр Сергеевич Пушкин воспел многие города России, в том числе и Казань. В его стихотворении "Путешествие Онегина" есть такие строки:

Казань*
Волгой ток воды пресек,
Казань спаслася тож,
И в честь ее мудрец Феникс
Принес с Оленем в дар стрелу.

Эти строки описывают эпизод из истории Казани, когда город был осажден войсками Ивана Грозного. Казанский мудрец, по легенде, принес царю стрелу, символизирующую мир и согласие, что помогло избежать кровопролития.

Напомни стихотворение С. Есенина о Владивостоке

У Сергея Есенина есть стихотворение "Отплытие", в котором он описывает свои впечатления от Владивостока. Вот несколько строк из этого стихотворения:

Я покинул город, как покидают
Постоялый двор, где было хорошо,
Но надолго не задержишься в нем.
Я уехал, но мне снова хочется
В те знакомые места,
Где, как волны, в гости к нам
Приходили девушки.

Это стихотворение передает ностальгию и грусть от расставания с любимыми местами.

25 of 26

Оценка больших языковых моделей на русском языке

26 of 26

Лучшие модели для русского языка по итогам голосования

0.1	2.4	1.6	1.8	0.5	0.9	…	…	…	3.2
0.5	2.6	1.4	2.9	1.5	3.6	…	…	…	6.1
…	…	…	…	…	…	…	…	…	…
…	…	…	…	…	…	…	…	…	…
0.6	1.8	2.7	1.9	2.4	2.0	…	…	…	1.2

0.1	2.4	1.6	1.8	0.5	0.9	…	…	…	3.2
0.5	2.6	1.4	2.9	1.5	3.6	…	…	…	6.1
…	…	…	…	…	…	…	…	…	…
…	…	…	…	…	…	…	…	…	…
0.6	1.8	2.7	1.9	2.4	2.0	…	…	…	1.2

0.1	2.4	1.6	1.8	0.5	0.9	…	…	…	3.2
0.5	2.6	1.4	2.9	1.5	3.6	…	…	…	6.1
…	…	…	…	…	…	…	…	…	…
…	…	…	…	…	…	…	…	…	…
0.6	1.8	2.7	1.9	2.4	2.0	…	…	…	1.2