1 of 12

Самоюстирующиеся оптические системы на основе машинного обучения с подкреплением.

Курс «Нейронные сети и их применение в научных исследованиях»

Мареев Евгений Игоревич

Физический факультет, МГУ им. М. В. Ломоносова

Институт фотонных технологий, ФНИЦ «Кристаллография и Фотоника» РАН

Научный консультант:

Ивченко А.В.

2 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Pump laser

2,85 μm, 70 mJ, 40 ns

Parametric amplifier

3,5 – 5,5 μm

170 fс

20 – 40 μJ

Fe:ZnSe CPA

Laser-matter interaction setup

Фемтосекундная лазерная система в среднем ИК диапазоне

  • Современные фемтосекундные системы содержат огромное число оптических компонент Юстировка таких систем трудозатратна
  • Система чувствительна к изменением окружающей среды (давление и температура)
  • Нет возможности компенсировать локальные уходы

  • Отсутствует возможность настройки не-профессионалами
  • Не факт, что работа ведется в глобальном максимуме
  • Настройка системы с нуля может занимать несколько недель

3 of 12

Самоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Цель и задачи

Создание программно-аппаратного комплекса, основанного на машинном обучении с подкреплением, автоматизирующего процесс юстировки (настройки), а также осуществляющего стабилизацию этих систем во времени.

Основные задачи:

  • Создание нейронной сети и её апробирование в модельной среде
          • Автоматизация процесса поиска максимума (на примере завода в волокно)
          • Автоматизация работы лазерно-плазменного рентгеновского источника
    • Автоматизация поиска максимума
          • Компенсация биений
          • Компенсация линейных трендов

4 of 12

Самоюстирующиеся оптические системы на основе машинного обучения с подкреплением

  • Обратная связь – амплитуда сигнала со спектрометра
  • Задача нейронной сети – максимизировать амплитуду сигнала обратной связи.
  • Управление углом отражения лазерного пучка
  • Управление положением мишени

1 - фемтосекундная лазерная система, 2 – изолятор фарадея, 3 – полуволновая пластина, 4 – кварцевая пластина, 5 – фотодектор, 6 – расширитель пучка, 7 – дихроичное зеркало, 8 – фокусирующий объектив, 9 – система поддува, 10 – делитель пучка, 11 – ПЗС камера, 12 – спектрометр, 13 ПЗС камеры, 14 – образец, 15 – рентгеновский детектор.

Аппаратная реализация

5 of 12

Самоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Система стабилизации и оптимизации микро-фокусного лазерно-плазменного источника рентгеновского излучения

Схема генерации рентгеновского излучения

Основные задачи:

  • Максимизировать поток рентгеновского излучения
  • Добиться высокой стабильности
  • Автоматизировать работу

Варьируем положение фокуса линзы и движение мишени

Контролируем рентгеновский сигнал / сигнал второй гармоники

Причины нестабильности:

  • Неравномерность движения мишени
  • Биения мишени – периодические колебания
  • Выработка материала – линейный тренд

6 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

  • «Награждаем» за высокий сигнал и «ожидание» в оптимуме
  • Награда пропорциональна расстоянию до оптимума
  • Действия – движение шаговых двигателей
  • Состояние среды – текущая координата и амплитуда сигнала обратной связи

Программная реализация

Алгоритм DQN (RL) реализован на основе 2х линейных слоев, состоящих из 256 нейронов.

Обучение производилось на видеокарте Nvidia RTX 3070. Параметры обучения:

  • размер памяти 100000 элементов
  • размер батча 1024 элемента
  • скорость обучения 5*10-4
  • оптимизатор Adam
  • критерий ошибки MSE-loss
  • скорость затухание ошибки 5*10-4
  • -3 если нейронная сеть предлагает покинуть область движения
  • 1*(It-1-It)+(It-Imax)/Imax (It-1-It)+(It-Imax)/Imax, если за данный шаг происходит увеличение амплитуды обратной связи
  • 0.5, если пауза осуществляется в диапазоне 0.9 Imax - Imax (из-за флуктуаций сигнала обратной связи).
  • -(It-Imax)/Imax, если пауза осуществляется в диапазоне 0.9 Imax - Imax

Награда:

7 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Тестирование нейросети в модельной среде

Модель устойчива при:

  • любых стартовых позициях
  • скоростях линейного дрейфа не более чем в 4 раза превышающие скорости при обучении
  • f0/5<f<2f0, где f – частота осцилляций, используемых при обучении
  • Компенсация линейного тренда
  • Компенсация периодических колебаний (синусоидальные, треугольные, прямоугольные)
  • Устойчивость к шумам

8 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Завод лазерного излучения в волокно

Валидация – визуализация пути завода в волокно (белый пунктир)

  • Управление двумя углами завода
  • Обратная связь сигнал со спектрометра

С указанием ориентировочной максимальной интенсивности

Без указания ориентировочной максимальной интенсивности

9 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

Автоматизация лазерно-плазменного источника

  • Компенсирован линейный тренд
  • Уменьшена амплитуда осцилляций в два раза
  • Управление положением мишени
  • Обратная связь - сигнал со спектрометра

Линейный тренд

Шаговый двигатель

10 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

  • Создана DQN нейросеть, осуществляющая компенсацию линейных трендов и периодических флуктуаций
  • Данная нейросеть устойчива к изменению скорости движения мишени, изменению периода осцилляций и внешним шумам
  • Данная нейросеть успешна применена для завода излучения в волокно, а также автоматизации системы генерации рентгеновского излучения при лазерной абляции вращающейся медной мишени
    1. Произведена компенсация биений мишени (амплитуда флуктуаций уменьшена в два раза)
    2. Компенсирован линейный тренд, вызванный лазерной абляцией поверхности мишени

Заключение

11 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

  • Функция награды в большинстве случаев (кроме самых нежелательных) должна быть порядка 1 (или меньше)
  • Более корректен выбор сигнала обратной связи, который непрерывен и не равен 0 в пространстве действий агента
  • Обучение происходит быстрее и стабильнее, если при старте амплитуда сигнала обратной связи была не нулевой
  • Маленькая ошибка не означает корректное обучение

Особенности «подгонки» машинного обучения с подкреплением для реальных физических систем

12 of 12

Cамоюстирующиеся оптические системы на основе машинного обучения с подкреплением

  • Текущая скорость работы (~10 Гц) ограничена выбором драйвера шаговых моторов
  • Добавить дополнительные оси для управления
  • Замена ноутбука на одноплатный компьютер (дорого и медленно в текущей конфигурации)
  • Апробирование на лазерных резонаторах, системы автоподстройки частоты и т.д.
  • Полное управление установкой ИИ.

Перспективы