Обучение компьютера общаться с человеком: современные методы
Лукашевич Н.В.
МГУ имени М.В. Ломоносова
Ведущий научный сотрудник НИВЦ МГУ
Зав. Кафедрой, профессор ВМК
Профессор филологической факультета
louk_nat@mail.ru
Искусственный интеллект и задачи автоматической обработки текстов
Прогресс в развитии больших языковых моделей
3
Решение задач. Отвечает большая языковая модель GPT4o
Порождение текста GPT4o: Напиши рассказ о приключениях Гарри Поттера во Владивостоке
Основы больших языковых моделей
Языковые модели (Language Models)
Порождая Шекспира
Представление слов в виде числовых векторов
Представление слов на основе их контекстов
Однажды вечером художник Вадим ехал домой на NNNNNNNNNN
А когда мы выходили из NNNNNNNNNN, спросил..
Садимся в NNNNNNNNNN и едем к ней
От Парка до Больницы пришлось добираться на двух NNNNNNNNNN
Леха живёт в шести остановках NNNNNNNNNN от метро "Коломенская“
Переполненный NNNNNNNNNN подходит к остановке,
NNNNNNNNNN заносило на поворотах
NNNNNNNNNN неторопливо постукивал от одной остановки к другой
Зазвенел невдалеке NNNNNNNNNN
Обучение нейронной сети для формирование представлений слов в виде векторов – эмбеддинги
Mikolov 2013: 2 базовые архитектуры нейронных сетей:
12
0
1
0
0
0
0
0
0
…
0
0
0
0
1
0
0
0
0
…
0
xcat
xon
0
0
0
0
0
0
0
1
…
0
Input layer
Hidden layer
sat
Output layer
V-dim
V-dim
N-dim
V-dim
+
0.1 | 2.4 | 1.6 | 1.8 | 0.5 | 0.9 | … | … | … | 3.2 |
0.5 | 2.6 | 1.4 | 2.9 | 1.5 | 3.6 | … | … | … | 6.1 |
… | … | … | … | … | … | … | … | … | … |
… | … | … | … | … | … | … | … | … | … |
0.6 | 1.8 | 2.7 | 1.9 | 2.4 | 2.0 | … | … | … | 1.2 |
0
1
0
0
0
0
0
0
…
0
2.4 |
2.6 |
… |
… |
1.8 |
Word2Vec: Continuous bag of words
При перемножении матриц строка поэлементно
умножается на столбец
Представление сходства слов в виде векторов
Эмбеддинги как вход в нейронные сети при обработке текстов
Учет контекста. Механизм самовнимания. Архитектура трансформер
Большие языковые модели
обучается порождать тексты�
Самовнимание в порождающих моделях
17
Обучение в контексте больших текстовых данных
Обучение инструкциям (2022)
FLAN (2021) – дообучение на явных инструкциях заменяет “обучение в контексте”
20
Wei J. et al. Finetuned Language Models Are Zero-Shot Learners ICLR 2022.
Только большие модели понимают инструкции
21
Few-shot - “обучение в контексте” на 5 примерах
Chain-of-thought (CoT): повышение качества без дообучения
22
https://ai.googleblog.com/2022/05/language-models-perform-reasoning-via.html
Обучение моделей человеческим нормам (alignment)
Проблемы
Проблемы: Галлюцинации
Оценка больших языковых моделей на русском языке
Лучшие модели для русского языка по итогам голосования