1 of 24

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

Анастасия Лаврухина

ФКИ МГУ

22.06.2023

Курс «Нейронные сети и их применение в научных исследованиях»

2 of 24

Задача

Цель – найти вспышки красных карликов в данных The Zwicky Transient Facility DR13.

Машинное обучение и нейронные сети используются для создания классификатора, способного отличать вспышки от остальных объектов.

Данные – временные ряды наблюдений блеска астрономических объектов.

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

3 of 24

Данные

В качестве данных, среди которых будет осуществляться поиск вспышек красных карликов, будут использованы данные 13-го релиза The Zwicky Transient Facility.

В 13 релизе данных ZTF содержатся 4 249 038 968 кривых блеска.

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

4 of 24

Препроцессинг

Для дальнейшего анализа были выбраны интервалы кривых блеска с максимальной задержкой между соседними наблюдениями в 30 минут, минимальной длительностью 30 минут и минимальным количеством наблюдений 10. Итоговый размер выборки: 97 281 074

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

5 of 24

Положительная выборка

Для формирования положительной выборки была разработана процедура, которая позволяет

генерировать из кривых блеска вспышек, найденных в других обзорах, кривые блеска, согласующиеся со стратегией наблюдений и наблюдаемыми ошибками ZTF.

В качестве начальных данных использовались вспышки красных карликов, найденные в рамках обзора TESS (Transiting Exoplanet Survey Satellite) [Günther et al. 2020].

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

6 of 24

Положительная выборка

1. Выбранные кривые блеска вспышек красных карликов интерполировались при помощи линейной функции.

2. Для каждой интерполированной кривой блеска TESS случайным образом выбиралась временная сетка из реальных наблюдений ZTF. Кроме того, случайным образом выбирался момент пика вспышки относительно временной сетки. Далее интерполяция вычислялась в узлах заданной сетки с учетом сдвига.

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

Суммарное количество использованных шаблонов — 785,

уникальных идентификаторов — 442

Вспышки из данных TESS [Günther et al. 2020]

7 of 24

Положительная выборка

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

3. Полученные величины переводились из потоков в звездные величины по формуле:

где flux – нормированный на минимальное значение поток, наблюдаемый TESS, m – наблюдаемая звездная величина, m_0 – наблюдаемая звездная величина от источника вне вспышки.

8 of 24

Положительная выборка

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

4. На следующем этапе для всех наблюдений генерировалась наблюдаемая ошибка.

Для каждого наблюдения ошибка генерировалась из эмпирического распределения

p(σ|m = x), где x – звездная величина конкретного наблюдения.

9 of 24

Положительная выборка

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

5. Итоговая модель наблюдений имеет следующий вид:

10 of 24

Положительная выборка

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

Всего был сгенерирован 1 миллион вспышек. Дополнительно эти данные были отфильтрованы по значению статистики reduced χ2, чтобы отфильтровать шумные кривые блеска, мало похожие на вспышки.

11 of 24

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

Положительная выборка

Положительная выборка состоит из 420 022 сгенерированных кривых блеска вспышек.

12 of 24

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

Примеры сгенерированных вспышек

Положительная выборка

13 of 24

Отрицательная выборка

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

В качестве отрицательной выборки был выбран 1 миллион случайных объектов среди переменных объектов ZTF (со значением статистики reduced χ2 > 3). Предполагается, что вероятность, что при случайном выборе объектов из данных ZTF, в выборку попадет кривая блеска вспышки, достаточно низкая.

где mi — наблюдаемая звездная величина, δi — ошибка наблюдения звездной величины, m̅ — взвешенное среднее значение магнитуды,

N – количество наблюдений

14 of 24

Извлечение признаков

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

Следующий этап — извлечения признаков (фич), непосредственно на которых будут обучаться модели. Фичи были извлечены при помощи библиотеки light-curve.

Всего был извлечен 31 признак.

Примеры:

ExcessVariance

MedianAbsoluteDeviation

15 of 24

Разбиение данных

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

Для дальнейшего обучения и тестирования моделей было решено взять равное количество данных для отрицательной и положительной выборок. Положительная и отрицательная выборка состоят из 420 022 объектов в каждой.

16 of 24

Модели

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

Случайный лес

Случайный лес использовался со стандартными гиперпараметрами и количеством деревьев n_estimators = 100

CatBoost

Гиперпараметры модели: learning_rate = 0.001, depth = 5, loss_function = Logloss.

Модель обучалась на протяжении 10 000 итераций

17 of 24

Модели

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

Многослойные перцептрон 300 -> 300 -> 400 с ReLU активацией

Модель обучалась на протяжении 150 эпох, learning_rate = 1e-5, batch_size = 1024, оптимизатор Adam, лосс-функция – BCEWithLogitsLoss.

18 of 24

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

Кривые обучения MLP

19 of 24

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

Оптимизация порога

Для каждой модели порог классификации выбирался таким образом, чтобы максимизировать значение метрики F–beta score со значением β=0.3 на валидационной выборке.

20 of 24

Валидация на тестовой выборке

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

21 of 24

Валидация на выборке с реальными вспышками

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

22 of 24

Валидация на выборке с реальными вспышками

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

23 of 24

Поиск вспышек красных карликов в данных ZTF методами машинного обучения

Создана выборка на основе реальных данных ZTF и синтезированных кривых блеска вспышек красных карликов, пригодная для дальнейшего обучения моделей машинного обучения;

обучены 3 модели классификатора: Random forest, CatBoost и MLP;

все модели были протестированы как на тестовом наборе данных с синтезированными кривыми блеска вспышек, так и на данных с реальными вспышками, найденными в данных ZTF ранее иными методами;

наилучшее качество показала модель на основе градиентного бустинга;

предварительно модель на основе градиентного бустинга была применена к 2% целевого набора данных, что позволило обнаружить 25 новых кандидатов во вспышки.

Заключение

1 of 24

2 of 24

3 of 24

4 of 24

5 of 24

6 of 24

7 of 24

8 of 24

9 of 24

10 of 24

11 of 24

12 of 24

13 of 24

14 of 24

15 of 24

16 of 24

17 of 24

18 of 24

19 of 24

20 of 24

21 of 24

22 of 24

23 of 24

24 of 24