1 of 12

Самоюстирующиеся оптические системы на основе машинного обучения с подкреплением.

Курс «Нейронные сети и их применение в научных исследованиях»

Мареев Евгений Игоревич

Физический факультет, МГУ им. М. В. Ломоносова

Институт фотонных технологий, ФНИЦ «Кристаллография и Фотоника» РАН

Научный консультант:

Ивченко А.В.

2 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Pump laser

2,85 μm, 70 mJ, 40 ns

Parametric amplifier

3,5 – 5,5 μm

170 fс

20 – 40 μJ

Fe:ZnSe CPA

Laser-matter interaction setup

Фемтосекундная лазерная система в среднем ИК диапазоне

Современные фемтосекундные системы содержат огромное число оптических компонент Юстировка таких систем трудозатратна
Система чувствительна к изменением окружающей среды (давление и температура)
Нет возможности компенсировать локальные уходы

Отсутствует возможность настройки не-профессионалами
Не факт, что работа ведется в глобальном максимуме
Настройка системы с нуля может занимать несколько недель

3 of 12

Самоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Цель и задачи

Создание программно-аппаратного комплекса, основанного на машинном обучении с подкреплением, автоматизирующего процесс юстировки (настройки), а также осуществляющего стабилизацию этих систем во времени.

Основные задачи:

Создание нейронной сети и её апробирование в модельной среде

Автоматизация процесса поиска максимума (на примере завода в волокно)
Автоматизация работы лазерно-плазменного рентгеновского источника

Автоматизация поиска максимума

Компенсация биений
Компенсация линейных трендов

4 of 12

Самоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Обратная связь – амплитуда сигнала со спектрометра
Задача нейронной сети – максимизировать амплитуду сигнала обратной связи.

Управление углом отражения лазерного пучка
Управление положением мишени

1 - фемтосекундная лазерная система, 2 – изолятор фарадея, 3 – полуволновая пластина, 4 – кварцевая пластина, 5 – фотодектор, 6 – расширитель пучка, 7 – дихроичное зеркало, 8 – фокусирующий объектив, 9 – система поддува, 10 – делитель пучка, 11 – ПЗС камера, 12 – спектрометр, 13 ПЗС камеры, 14 – образец, 15 – рентгеновский детектор.

Аппаратная реализация

5 of 12

Самоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Система стабилизации и оптимизации микро-фокусного лазерно-плазменного источника рентгеновского излучения

Схема генерации рентгеновского излучения

Основные задачи:

Максимизировать поток рентгеновского излучения
Добиться высокой стабильности
Автоматизировать работу

Варьируем положение фокуса линзы и движение мишени

Контролируем рентгеновский сигнал / сигнал второй гармоники

Причины нестабильности:

Неравномерность движения мишени
Биения мишени – периодические колебания
Выработка материала – линейный тренд

6 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

«Награждаем» за высокий сигнал и «ожидание» в оптимуме
Награда пропорциональна расстоянию до оптимума
Действия – движение шаговых двигателей
Состояние среды – текущая координата и амплитуда сигнала обратной связи

Программная реализация

Алгоритм DQN (RL) реализован на основе 2х линейных слоев, состоящих из 256 нейронов.

Обучение производилось на видеокарте Nvidia RTX 3070. Параметры обучения:

размер памяти 100000 элементов
размер батча 1024 элемента
скорость обучения 5*10^-4
оптимизатор Adam
критерий ошибки MSE-loss
скорость затухание ошибки 5*10^-4

-3 если нейронная сеть предлагает покинуть область движения
1*(I_t-1-I_t)+(I_t-I_max)/I_max (I_t-1-I_t)+(I_t-I_max)/I_max, если за данный шаг происходит увеличение амплитуды обратной связи
0.5, если пауза осуществляется в диапазоне 0.9 I_max - I_max(из-за флуктуаций сигнала обратной связи).
-(I_t-I_max)/I_max, если пауза осуществляется в диапазоне 0.9 I_max - I_max

Награда:

7 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Тестирование нейросети в модельной среде

Модель устойчива при:

любых стартовых позициях
скоростях линейного дрейфа не более чем в 4 раза превышающие скорости при обучении
f₀/5<f<2f₀, где f – частота осцилляций, используемых при обучении

Компенсация линейного тренда
Компенсация периодических колебаний (синусоидальные, треугольные, прямоугольные)
Устойчивость к шумам

8 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Завод лазерного излучения в волокно

Валидация – визуализация пути завода в волокно (белый пунктир)

Управление двумя углами завода
Обратная связь сигнал со спектрометра

С указанием ориентировочной максимальной интенсивности

Без указания ориентировочной максимальной интенсивности

9 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Автоматизация лазерно-плазменного источника

Компенсирован линейный тренд
Уменьшена амплитуда осцилляций в два раза

Управление положением мишени
Обратная связь - сигнал со спектрометра

Линейный тренд

Шаговый двигатель

10 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Создана DQN нейросеть, осуществляющая компенсацию линейных трендов и периодических флуктуаций
Данная нейросеть устойчива к изменению скорости движения мишени, изменению периода осцилляций и внешним шумам
Данная нейросеть успешна применена для завода излучения в волокно, а также автоматизации системы генерации рентгеновского излучения при лазерной абляции вращающейся медной мишени

Произведена компенсация биений мишени (амплитуда флуктуаций уменьшена в два раза)
Компенсирован линейный тренд, вызванный лазерной абляцией поверхности мишени

Заключение

11 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Функция награды в большинстве случаев (кроме самых нежелательных) должна быть порядка 1 (или меньше)
Более корректен выбор сигнала обратной связи, который непрерывен и не равен 0 в пространстве действий агента
Обучение происходит быстрее и стабильнее, если при старте амплитуда сигнала обратной связи была не нулевой
Маленькая ошибка не означает корректное обучение

Особенности «подгонки» машинного обучения с подкреплением для реальных физических систем

12 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Текущая скорость работы (~10 Гц) ограничена выбором драйвера шаговых моторов
Добавить дополнительные оси для управления
Замена ноутбука на одноплатный компьютер (дорого и медленно в текущей конфигурации)
Апробирование на лазерных резонаторах, системы автоподстройки частоты и т.д.
Полное управление установкой ИИ.

Перспективы