1 of 14

Предсказание ширины запрещенной зоны низкоразмерных гибридных галогеновисмутатов(III) и галогеноантимонатов(III) с использованием методов машинного обучения

Быков Андрей Викторович

аспирант 1 г.о.

Химического факультета МГУ

Курс: «Нейронные сети и их применение в научных исследованиях»

2 of 14

Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML

Гибридные галогенидные комплексы постпереходных металлов

  • Солнечные элементы;
  • Рентгеновские сцинтилляторы;
  • Фотосенсоры;
  • LED.
  • (Белые) светодиоды;
  • ИК-излучатели;
  • Рентгеновские сцинтилляторы;
  • Дистанционная термометрия;
  • Устройства памяти.

*K.M. McCall, V. Morad, B.M. Benin, M.V. Kovalenko ACS Materials Lett. 2020, 2(9), 1218–1232

  • Светопоглощение
  • Люминесценция
  • Люминесценция
  • Нелинейно-оптическая активность
  • Пьезо- и сегнетоэлектрические эффекты
  • Термохромизм
  • Фотохромизм
  • Сольватохромизм

(katm+)n[MaHalb]mn-

*

82 Pb

83 Bi

50 Sn

51 Sb

17 Cl

35 Br

53 I

M(ns 2 ):

X-

Органический катион

3 of 14

Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML

Образование электронной структуры гибридных галогенометаллатов

*J.K. Pious, C. Muthu, C. VijayakumarAcc. Chem. Res. 2022, 55(3), 275–285

В подавляющем большинстве случаев

Для некоторых катионов с сопряжением π-систем

уровни катиона

уровни галогенометаллат-аниона

HOMO

HOMO

LUMO

LUMO

ns(M) + np(Hal)

ns(M) + np(Hal)

np(M) + np*(Hal)

np(M) + np*(Hal)

Строение и геометрия анионной подструктуры

Физико-химические свойства (ШЗЗ, характеристики люминесценции)

Органический катион – «структуронаправляющий агент»

определяет какой тип галогенметаллат-аниона будет образовываться

4 of 14

Конкретные задачи:

  1. Выявление количественных соотношений «структура-свойство» - QSPR (quantitative structure-property relationship) для ширины запрещенной зоны (ШЗЗ).

2. Установление взаимосвязи «природа органического катиона – строение образующегося соединения»

Глобальная цель – разработка подхода к дизайну гибридных галогенометаллатов

Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML

Задача регрессии для предсказания ШЗЗ от структурных параметров

5 of 14

CSD

Open Babel

CSD

Составление датасетов и генерация признаков

Табличные данные + .cif

углы и длины связей в анионах

SMILES-строки

C1CNCCNC1

Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML

Метки классов

Структурные дескрипторы

(Предсказание ШЗЗ)

Молекулярные дескрипторы

Экспериментально измеренные значения ШЗЗ

Массив публикаций

Pymatgen

ToposPro

6 of 14

Датасет

Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML

187 структуры

105 значений ШЗЗ

76/79 объектов для обучения

Для предсказания ШЗЗ – галогенометаллаты с анионом типа α-{MX4}-

I

Br

Br & I

Cl

Sum

Bi

43

6

1

2

52

Sb

19

14

1

6

50

Sb & Bi

1

0

1

0

2

Sum

63

20

3

8

94

7 of 14

Структурные параметры, описывающие геометрию аниона

 

 

Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML

Изначально

6 длин связей

+ 15 углов

Независимых переменных для описания геометрии:

3*N-6 = 3*7-6 = 15

Оставили

6 длин связей + 9 углов

(после оценки важноссти признаков и перебора вариантов)

8 of 14

Дескрипторы для описания, слабых взаимодействий – контактов Hal···Hal между соседними анионами

 

Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML

Hal···Hal

Расстояния HalHal между соседними анионами:

мин. d(Hal···Hal) – min HalHal

сред. d(Hal···Hal) (< Σ rvdw) – aver HalHal

кол-во Hal···Hal (< Σ rvdw) – N

Каждый октаэдр может иметь

от 0 до 6 контактов Hal···Hal

9 of 14

Кодирование химического состава:

Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML

Label-encoder

(M: {BiX4}- – 0,

{Bi0.5Sb0.5X4}- – 0.5

{SbX4}- – 1;

X: {MI4}- – 0,

{MBr2I2}- – 0.5

{MBr4}- – 1).

One-hot-encoder

(Отдельные дескрипторы Bi, Sb, Br, I, значения в которых соответствуют молн. долям элемента)

15 наборов пространств дескрипторов

комбинации из

Описания геометрии аниона:

  • 21 начальный параметр
  • 15 независимых параметров
  • 2 параметра (Δd, σ2)

Описания системы контактов Hal···Hal:

min HalHal

aver HalHal

N

N/aver-d

Кодирования химического состава:

  • Label-encoder
  • One-hot-encoder

Температура рентгеноструктурного эксперимента

10 of 14

Модели, параметры моделей и обучение

Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML

train/test = 85:15

Min-Max-нормализация

Валидация – Leave One Out на всех объектах тренеровочной подвыборки

Метрики для оценки качества: MAE, MSE, RSME, R2.

Модель

Параметры моделей

Linear Regression

 

SVM_lin

Функция ядра = линейная

Параметр регуляризации = 100

Коэффициент ядра = auto

SVM_poly

Функция ядра = полиноминальная

Параметр регуляризации = 100

Коэффициент ядра = auto

SVM_rbf

Функция ядра = RBF

Параметр регуляризации = 100

Коэффициент ядра = auto

GPR_rbf

Функция ядра = RBF

Среднее на основе значений обучающих данных

Коэффициент регуляризации = 0.05-0.2

Кол-во перезапусков оптимизатора = 10

GPR_mat

Функция ядра = Matern(μ=2.5)

Среднее на основе значений обучающих данных

Коэффициент регуляризации = 0.2

Кол-во перезапусков оптимизатора = 10

GPR_rq

Функция ядра = Rational Quadratic

Среднее на основе значений обучающих данных

Коэффициент регуляризации = 0.05-0.2

Кол-во перезапусков оптимизатора = 10

RF

Число деревьев в ансамбле = 1000

Максимальная глубина деревьев = 1

XGB Regressor

Максимальная глубина деревьев = 1

11 of 14

Качество моделей

Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML

19 дескрипторов (M, X, T, min Hal...Hal +15 геометрических параметров аниона)

6 дескрипторов (M, X, T, min Hal...Hal, Δd, σ2)

GPR_rbf

GPR_mat

MAE on train

0,0765

0,0755

MAE on test

0,0576

0,0563

MSE on train

0,0125

0,0121

MSE on test

0,0043

0,0043

RMSE on train

0,1118

0,1098

RMSE on test

0,0659

0,0654

R2 on train

0,8367

0,8425

R2 on test

0,9198

0,9210

GPR_rbf

GPR_mat

MAE on train

0,0679

0,0665

MAE on test

0,0473

0,0479

MSE on train

0,0094

0,0091

MSE on test

0,0042

0,0043

RMSE on train

0,0972

0,0953

RMSE on test

0,0649

0,0655

R2 on train

0,8718

0,8766

R2 on test

0,9401

0,9390

12 of 14

Важность дескрипторов

Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML

Хим. состав: ШЗЗ уменьшается в рядах Sb-Bi, Cl-Br-I

Искажение октаэдров MX6

Система слабых взаимодействий Hal···Hal

13 of 14

  • Впервые создан специализированный датасет кристаллических структур, содержащий данные об экспериментально измеренных ШЗЗ, для низкоразмерных галогенидных комплексов висмута(III) и сурьмы(III), содержащих в своей структуре 1D-анион {MHal4}-.

  • Определены 2 модели машинного обучения, которые могут применяться для предсказания ШЗЗ низкоразмерных гибридных галогеновисмутатов(III) и галогеноантимонатов(III).

  • ШЗЗ галогенометаллатов(III) уменьшается с понижением степени искажения октаэдров MHal, сокращением дистанции Hal⋯Hal между соседними анионами и увеличении числа их контактов.

  • Важность контактов Hal⋯Hal для значения ШЗЗ меньше, чем у степени искажения октаэдров MHal в анионе.

Выводы

Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML

14 of 14

Предсказание ШЗЗ гибридных галогенметаллатов(III) методами ML

19 дескрипторов (M, X, T, min Hal...Hal +15 геометрических параметров аниона)

 

Linear

SVR_lin

SVR_poly

SVR_rbf

GPR_rbf

GPR_mat

GPR_rt

RF

XGB

 

mean

std

mean

std

mean

std

mean

std

mean

std

mean

std

mean

std

mean

std

mean

std

MAE on train

0,0707

0,0018

0,0846

0,0025

0,0760

0,0017

0,0805

0,0023

0,0678

0,0014

0,0663

0,0014

0,0678

0,0014

0,0947

0,0014

0,0290

0,0013

MAE on validate

0,1158

0,1224

0,1228

0,1166

0,1102

0,1002

0,1251

0,1099

0,0872

0,0881

0,0876

0,0888

0,0872

0,0881

0,1041

0,1034

0,0975

0,0951

MSE on train

0,0094

0,0005

0,0115

0,0007

0,0089

0,0004

0,0083

0,0004

0,0094

0,0004

0,0090

0,0004

0,0094

0,0004

0,0170

0,0004

0,0016

0,0001

MSE on validate

0,0282

0,0602

0,0285

0,0565

0,0220

0,0387

0,0275

0,0508

0,0152

0,0351

0,0154

0,0354

0,0152

0,0351

0,0214

0,0508

0,0184

0,0381

RMSE on train

0,0969

0,0027

0,1071

0,0033

0,0945

0,0021

0,0913

0,0022

0,0969

0,0023

0,0951

0,0023

0,0969

0,0023

0,1306

0,0016

0,0394

0,0017

RMSE on validate

0,1158

0,1224

0,1228

0,1166

0,1102

0,1002

0,1251

0,1099

0,0872

0,0881

0,0876

0,0888

0,0872

0,0881

0,1041

0,1034

0,0975

0,0951

R2 on train

0,8724

0,0066

0,8441

0,0091

0,8786

0,0054

0,8866

0,0054

0,8722

0,0057

0,8770

0,0055

0,8722

0,0057

0,7683

0,0064

0,9788

0,0017

6 дескрипторов (M, X, T, min Hal...Hal, Δd, σ2)

 

Linear

SVR_lin

SVR_poly

SVR_rbf

GPR_rbf

GPR_mat

GPR_rt

RF

XGB

 

mean

std

mean

std

mean

std

mean

std

mean

std

mean

std

mean

std

mean

std

mean

std

MAE on train

0,0806

0,0016

0,0840

0,0021

0,0824

0,0016

0,0774

0,0013

0,0764

0,0016

0,0754

0,0016

0,0764

0,0016

0,1097

0,0015

0,0543

0,0015

MAE on validate

0,0934

0,0996

0,0972

0,1051

0,1066

0,1146

0,1213

0,1206

0,0942

0,1014

0,0950

0,1011

0,0942

0,1014

0,1145

0,0967

0,0943

0,1042

MSE on train

0,0139

0,0005

0,0143

0,0005

0,0122

0,0005

0,0092

0,0003

0,0125

0,0005

0,0120

0,0004

0,0125

0,0005

0,0205

0,0008

0,0062

0,0003

MSE on validate

0,0185

0,0401

0,0203

0,0428

0,0243

0,0544

0,0290

0,0534

0,0190

0,0407

0,0191

0,0404

0,0190

0,0407

0,0223

0,0511

0,0196

0,0525

RMSE on train

0,1178

0,0023

0,1196

0,0022

0,1105

0,0022

0,0959

0,0014

0,1116

0,0021

0,1096

0,0021

0,1116

0,0021

0,1432

0,0028

0,0786

0,0023

RMSE on validate

0,0934

0,0996

0,0972

0,1051

0,1066

0,1146

0,1213

0,1206

0,0942

0,1014

0,0950

0,1011

0,0942

0,1014

0,1145

0,0967

0,0943

0,1042

R2 on train

0,8187

0,0070

0,8129

0,0070

0,8404

0,0068

0,8798

0,0042

0,8372

0,0062

0,8431

0,0059

0,8372

0,0062

0,7321

0,0101

0,9191

0,0044