1 of 18

РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ

Файзулин Максим

Москва, 2023

2 of 18

РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ (RNN)

Рекуррентные нейронные сети (RNN) — это класс нейронных сетей, которые хороши для моделирования последовательных данных, таких как временные ряды или естественный язык.

Типовые примеры задач:

– Задачи распознавания речи: обработка последовательности

звуков, обработка текстов естественного языка

– Задачи компьютерного зрения: обработка

последовательности кадров видео, некоторые задачи

обработки изображений

3 of 18

РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ (RNN)

Значения нейронов зависят не только от весов, но и от старых значений этих же нейронов

4 of 18

АРХИТЕКТУРЫ RNN

1)

2)

3)

5 of 18

НЕЙРОННЫЕ СЕТИ ДОЛГОЙ КРАТКОВРЕМЕННОЙ ПАМЯТИ

  1. В некоторых случаях возникает необходимость, чтобы сеть «помнила» информацию об объектах, находящихся в начале последовательности

  • При наличии достаточно длинных входных последовательностей в процессе обучения сеть «забывает» информацию об удаленных объектах

Идея использования LSTM сети:

Общая структура ячейки с долгой кратковременной памятью (long short-term memory, LSTM) предполагает наличие нейронов, имеющих связь на себя

Данные поступают на вход нейрону и обработанные данные выдаются на выход

Рекуррентная связь со своим входом имеет вес равный 1

Если на вход не поступает никаких новых данных, значение нейрона перезаписывается и сохраняется неизменным

6 of 18

НЕЙРОННЫЕ СЕТИ ДОЛГОЙ КРАТКОВРЕМЕННОЙ ПАМЯТИ

Этапы формирования предсказания LSTM нейронной сети на основе входных параметров:

Для управления данной структурой используются три вентиля,

определяющих прохождение сигнала:

входной вентиль - Если входной вентиль открыт (установлен в 1), осуществляется запись входного сигнала в скрытый нейрон, после чего значение записывается и сохраняется в нейроне за счет рекуррентной обратной связи. Если входной вентиль закрыт (установлен в 0), значения,

поступающие на вход нейрона не влияют на его содержание

вентиль забвения – этап, на котором формируется условие обнуления полученной информации на входном вентиле.

выходной вентиль - Если необходимо получить значение, сохраненное в ячейке, необходимо открыть выходной вентиль (установить в 1). Если значение, содержащееся в ячейке, требуется «забыть»,

необходимо закрыть вентиль забвения. После этого значение будет стерто из нейрона, и нейрон будет готов для сохранения

нового входного значения.

7 of 18

НЕЙРОННЫЕ СЕТИ ДОЛГОЙ КРАТКОВРЕМЕННОЙ ПАМЯТИ

8 of 18

НЕЙРОННЫЕ СЕТИ ДОЛГОЙ КРАТКОВРЕМЕННОЙ ПАМЯТИ

Основной составляющей компонентой LSTM-ячейки является ее состояние 𝐶𝑡, которое передается во времени

9 of 18

НЕЙРОННЫЕ СЕТИ ДОЛГОЙ КРАТКОВРЕМЕННОЙ ПАМЯТИ

10 of 18

НЕЙРОННЫЕ СЕТИ ДОЛГОЙ КРАТКОВРЕМЕННОЙ ПАМЯТИ

11 of 18

НЕЙРОННЫЕ СЕТИ ДОЛГОЙ КРАТКОВРЕМЕННОЙ ПАМЯТИ

12 of 18

НЕЙРОННЫЕ СЕТИ ДОЛГОЙ КРАТКОВРЕМЕННОЙ ПАМЯТИ

13 of 18

НЕЙРОННЫЕ СЕТИ ДОЛГОЙ КРАТКОВРЕМЕННОЙ ПАМЯТИ

Cхема классической LSTM нейросети

Cхема двунаправленной LSTM нейросети

14 of 18

ДОПОЛНИТЕЛЬНЫЕ ФУНКЦИИ ПОТЕРЬ

Бинарная перекрестная энтропия

Категориальная перекрестная энтропия

где y – значение класса (1 и 0), а p(y) - предсказанная вероятность того, что значение относится к 1, для всех N наблюдений.

где t – значение класса (1 и 0), а f(s) - предсказанная вероятность того, что значение относится к 1, для каждого i-го наблюдения

15 of 18

ОПТИМИЗАТОРЫ В МИНИМИЗАЦИИ ЗНАЧЕНИЙ ФУНКЦИИ ПОТЕРЬ

Популярность оптимизаторов

  1. Стохастический градиентный спуск (SGD).

  • Оптимизатор импульса (Momentum).

  • Среднеквадратичное распространение (RMSProp).

  • Адаптивная оценка момента (Adam).

  • Адаптивный градиент (Adagrad).

Оптимизаторы в глубоком обучении используются для настройки весов нейронных сетей в процессе обучения, чтобы минимизировать функцию потерь и повысить точность модели.

16 of 18

ОПТИМИЗАТОРЫ В МИНИМИЗАЦИИ ЗНАЧЕНИЙ ФУНКЦИИ ПОТЕРЬ

17 of 18

ОПТИМИЗАТОРЫ ДЛЯ МИНИМИЗАЦИИ ЗНАЧЕНИЙ ФУНКЦИИ ПОТЕРЬ

  1. Стохастический градиентный спуск (SGD).

  • Оптимизатор импульса (Momentum).

  • Среднеквадратичное распространение (RMSProp).

  • Адаптивная оценка момента (Adam).

  • Адаптивный градиент (Adagrad).

Математическая имплементация (вывод формул по популярным методам оптимизации)

Источник №1

Источник №2

Источник №3

Вывод: обратное распространение ошибки – классический метод обновления весов в модели. На данный момент существуют модифицированные версии обновления весов с решениями проблем локальных минимумов, проблем «седла» и т.п. Для базовых задач классификации хорошо подходит Adam.

18 of 18