1 of 24

Предсказание редокс-потенциалов �органических молекул, �используемых в цикле переработки ОЯТ, �с применением глубокого обучения

Смирнов Максим Вадимович�студент 6 курса химического факультета МГУ

Курс: «Нейронные сети и их применение в научных исследованиях»

2 of 24

2

Переработка ОЯТ

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

3 of 24

3

Переработка ОЯТ

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

4 of 24

4

Окислительно-восстановительные реакции

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

Mn+

Mn+

M(n-1)+

Получение значений E0Ox для малых органических молекул:

  • Эксперимент (CV)
  • Квантово-химические расчеты (DFT)
  • Машинное обучение и нейронные сети

5 of 24

5

Обзор существующих решений

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

ML + QC

LUMO

или

S0-D0

Эксп. E_ox

Deep learning

CNN, RNN - �MAE 0.44, 0.24 V

R2 0.74 - 0.99, MSE 0.01 - 0.2 V

Journal of Chemical Theory and Computation 2023, 19, 4796-4814.

  • Модель для разных классов?

GBR

KRR

SVR

6 of 24

6

Цель работы

  • Цель моей работы - создание алгоритма, предсказывающего окислительный потенциал органических молекул различных классов, которые потенциально могут быть использованы в переработке ОЯТ, с хорошей точностью.

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

7 of 24

7

Данные

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

  • Впервые собран датасет из редокс-потенциалов органических молекул, измеренных в разных растворителях и относительно разных электродов

8 of 24

8

Предобработка данных

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

  • Приведение всех потенциалов к потенциалу относительно стандартного каломельного электрода SCE
  • Окислительный потенциал в диапазоне от 0.1 до 2.5 В
  • Наличие только атомов C, H, O, N, F, Cl, Br, I
  • Отсутствие катионов, анионов, радикалов
  • Усреднение различных потенциалов для одной молекулы из разных источников

325

молекул

9 of 24

9

Разбиение данных

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

train-val-test 0.70/0.15/0.15

10 of 24

10

Модель

Molecular language transformer (MolFormer)

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

Nature Machine Intelligence 2022, 4, 1256-1264

11 of 24

11

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

Molformer

10% ZINC (100M) + 10% PubChem (11.1M) MoLFormer-XL-both-10%

(модель + токенайзер)

  • После токенизации, длина молекулы от 1 до 202 токена
  • Linear Attention (время и память O(N))
  • Relative (rotary) positional embedding

RoFormer: enhanced transformer with rotary position embedding�https://arxiv.org/abs/2104.09864

12 of 24

12

Графики обучения по эпохам

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

13 of 24

13

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

Parity plot

MSE 0.11

RMSE 0.33 В

R2 0.67

14 of 24

14

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

Результаты и выводы

  • Создан новый датасет из редокс-потенциалов органических молекул, измеренных в разных растворителях и относительно разных электродов.
  • Было проведено дообучение трансформерной модели MolFormer-10pct на собранном датасете.
  • Создана модель, предсказывающая окислительные потенциалы малых органических молекул различных классов с MSE 0.11, R2 0.67

15 of 24

15

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

Где публиковать?

16 of 24

16

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

17 of 24

17

Полученные метрики, OMEAD

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

R2

RMSE

MAE

train

0,9

0,8

0,62

val

0,71

1,36

1,07

test

0,55

1,34

1,03

R2

RMSE

MAE

train

0,88

0,66

0,5

val

0,55

1,29

0,95

test

0,49

1,45

1,05

1 freezed layer

2 freezed layers

18 of 24

18

Учет растворителя

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

Конкатенирование тензора, содержащего диэлектрическую проницаемость растворителя, с основным эмбеддингом

Жидкость

Т кип., oC

ε

Ацетон

56

20,7

Ацетонитрил

82

38,8

Вода

100

81,0

Диметилсульфоксид

189

45,0

Керосин

150-250

1,8

19 of 24

19

Полученные метрики, OMEAD

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

R2

RMSE, В

MAE, В

train

0,85

0,017

0,012

val

0,83

0,018

0,013

test

0,84

0,018

0,013

R2

RMSE, В

MAE, В

train

0,93

0,012

0,009

val

0,92

0,013

0,01

test

0,92

0,013

0,01

Energy Gap

LUMO

20 of 24

20

  • Метрики - R2 и RMSE
  • Функция потерь - MSE
  • Целевые значения метрик: R2 > 0.9, RMSE = 0.1 – 0.3 В (уровень качества моделей, описанных в литературе1)
  • От модели требуется одинаково хорошее качество предсказания потенциала в различных растворителях

Метрики

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

1L. Jia, E. Bremond, L. Zaida, B. Gauzere, V. Tognetti, L. Joubert, ChemRxiv 2023

21 of 24

21

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

Relative positional embeddings

Применение RoPE заключается в повороте вектора запроса/ключа на угол, зависящий от индекса его позиции. Поворот обоих векторов на один угол, т.е. смещение позиций без изменения расстояния, сохранит значение скалярного произведения.

22 of 24

22

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

Relative positional embeddings

В отличие от Absolute, применяется не к отдельным координатам, а к парам, и использует умножение вместо суммы (мультипликация вместо аддитивности). Введение обучаемых параметров углов поворота пар координат: на mθ1 поворачивают первые две координаты, на mθ2 - вторые две и т.д.

23 of 24

23

  • Метрики - R2 и RMSE
  • Функция потерь - MSE
  • Целевые значения метрик: R2 > 0.9, RMSE = 0.1 – 0.3 В (уровень качества моделей, описанных в литературе1)
  • От модели требуется одинаково хорошее качество предсказания потенциала в различных растворителях

Метрики

Предсказание редокс-потенциалов органических молекул, �используемых в цикле переработки ОЯТ, с использованием глубокого обучения

1L. Jia, E. Bremond, L. Zaida, B. Gauzere, V. Tognetti, L. Joubert, ChemRxiv 2023

24 of 24

Performance comparison

24

All models were evaluated using the area under the receiver operating characteristic curve

For QM9 and QM8, average MAE is reported, while RMSE is reported for the remaining tasks.