Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Анастасия Лаврухина
ФКИ МГУ
22.06.2023
Курс «Нейронные сети и их применение в научных исследованиях»
Задача
Цель – найти вспышки красных карликов в данных The Zwicky Transient Facility DR13.
Машинное обучение и нейронные сети используются для создания классификатора, способного отличать вспышки от остальных объектов.
Данные – временные ряды наблюдений блеска астрономических объектов.
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Данные
В качестве данных, среди которых будет осуществляться поиск вспышек красных карликов, будут использованы данные 13-го релиза The Zwicky Transient Facility.
В 13 релизе данных ZTF содержатся 4 249 038 968 кривых блеска.
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Препроцессинг
Для дальнейшего анализа были выбраны интервалы кривых блеска с максимальной задержкой между соседними наблюдениями в 30 минут, минимальной длительностью 30 минут и минимальным количеством наблюдений 10. Итоговый размер выборки: 97 281 074
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Положительная выборка
Для формирования положительной выборки была разработана процедура, которая позволяет
генерировать из кривых блеска вспышек, найденных в других обзорах, кривые блеска, согласующиеся со стратегией наблюдений и наблюдаемыми ошибками ZTF.
В качестве начальных данных использовались вспышки красных карликов, найденные в рамках обзора TESS (Transiting Exoplanet Survey Satellite) [Günther et al. 2020].
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Положительная выборка
1. Выбранные кривые блеска вспышек красных карликов интерполировались при помощи линейной функции.
2. Для каждой интерполированной кривой блеска TESS случайным образом выбиралась временная сетка из реальных наблюдений ZTF. Кроме того, случайным образом выбирался момент пика вспышки относительно временной сетки. Далее интерполяция вычислялась в узлах заданной сетки с учетом сдвига.
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Суммарное количество использованных шаблонов — 785,
уникальных идентификаторов — 442
Вспышки из данных TESS [Günther et al. 2020]
Положительная выборка
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
3. Полученные величины переводились из потоков в звездные величины по формуле:
где flux – нормированный на минимальное значение поток, наблюдаемый TESS, m – наблюдаемая звездная величина, m_0 – наблюдаемая звездная величина от источника вне вспышки.
Положительная выборка
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
4. На следующем этапе для всех наблюдений генерировалась наблюдаемая ошибка.
Для каждого наблюдения ошибка генерировалась из эмпирического распределения
p(σ|m = x), где x – звездная величина конкретного наблюдения.
Положительная выборка
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
5. Итоговая модель наблюдений имеет следующий вид:
Положительная выборка
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Всего был сгенерирован 1 миллион вспышек. Дополнительно эти данные были отфильтрованы по значению статистики reduced χ2, чтобы отфильтровать шумные кривые блеска, мало похожие на вспышки.
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Положительная выборка
Положительная выборка состоит из 420 022 сгенерированных кривых блеска вспышек.
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Примеры сгенерированных вспышек
Положительная выборка
Отрицательная выборка
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
В качестве отрицательной выборки был выбран 1 миллион случайных объектов среди переменных объектов ZTF (со значением статистики reduced χ2 > 3). Предполагается, что вероятность, что при случайном выборе объектов из данных ZTF, в выборку попадет кривая блеска вспышки, достаточно низкая.
где mi — наблюдаемая звездная величина, δi — ошибка наблюдения звездной величины, m̅ — взвешенное среднее значение магнитуды,
N – количество наблюдений
Извлечение признаков
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Следующий этап — извлечения признаков (фич), непосредственно на которых будут обучаться модели. Фичи были извлечены при помощи библиотеки light-curve.
Всего был извлечен 31 признак.
Примеры:
ExcessVariance
MedianAbsoluteDeviation
Разбиение данных
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Для дальнейшего обучения и тестирования моделей было решено взять равное количество данных для отрицательной и положительной выборок. Положительная и отрицательная выборка состоят из 420 022 объектов в каждой.
Модели
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Случайный лес
Случайный лес использовался со стандартными гиперпараметрами и количеством деревьев n_estimators = 100
CatBoost
Гиперпараметры модели: learning_rate = 0.001, depth = 5, loss_function = Logloss.
Модель обучалась на протяжении 10 000 итераций
Модели
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Многослойные перцептрон 300 -> 300 -> 400 с ReLU активацией
Модель обучалась на протяжении 150 эпох, learning_rate = 1e-5, batch_size = 1024, оптимизатор Adam, лосс-функция – BCEWithLogitsLoss.
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Кривые обучения MLP
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Оптимизация порога
Для каждой модели порог классификации выбирался таким образом, чтобы максимизировать значение метрики F–beta score со значением β=0.3 на валидационной выборке.
Валидация на тестовой выборке
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Валидация на выборке с реальными вспышками
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Валидация на выборке с реальными вспышками
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Поиск вспышек красных карликов в данных ZTF методами машинного обучения
Заключение
Поиск вспышек красных карликов в данных ZTF методами машинного обучения