Предсказание ширины запрещенной зоны низкоразмерных гибридных галогеновисмутатов(III) и галогеноантимонатов(III) с использованием методов машинного обучения
Быков Андрей Викторович
аспирант 1 г.о.
Химического факультета МГУ
Курс: «Нейронные сети и их применение в научных исследованиях»
Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML
Гибридные галогенидные комплексы постпереходных металлов
*K.M. McCall, V. Morad, B.M. Benin, M.V. Kovalenko ACS Materials Lett. 2020, 2(9), 1218–1232
(katm+)n[MaHalb]mn-
*
82 Pb
83 Bi
50 Sn
51 Sb
17 Cl
35 Br
53 I
M(ns 2 ):
X-
Органический катион
Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML
Образование электронной структуры гибридных галогенометаллатов
*J.K. Pious, C. Muthu, C. VijayakumarAcc. Chem. Res. 2022, 55(3), 275–285
В подавляющем большинстве случаев
Для некоторых катионов с сопряжением π-систем
уровни катиона
уровни галогенометаллат-аниона
HOMO
HOMO
LUMO
LUMO
ns(M) + np(Hal)
ns(M) + np(Hal)
np(M) + np*(Hal)
np(M) + np*(Hal)
Строение и геометрия анионной подструктуры
↕
Физико-химические свойства (ШЗЗ, характеристики люминесценции)
Органический катион – «структуронаправляющий агент»
↓
определяет какой тип галогенметаллат-аниона будет образовываться
Конкретные задачи:
2. Установление взаимосвязи «природа органического катиона – строение образующегося соединения»
Глобальная цель – разработка подхода к дизайну гибридных галогенометаллатов
Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML
Задача регрессии для предсказания ШЗЗ от структурных параметров
CSD
Open Babel
CSD
Составление датасетов и генерация признаков
Табличные данные + .cif
углы и длины связей в анионах
SMILES-строки
C1CNCCNC1
Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML
Метки классов
Структурные дескрипторы
(Предсказание ШЗЗ)
Молекулярные дескрипторы
Экспериментально измеренные значения ШЗЗ
Массив публикаций
Pymatgen
ToposPro
Датасет
Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML
187 структуры
105 значений ШЗЗ
76/79 объектов для обучения
Для предсказания ШЗЗ – галогенометаллаты с анионом типа α-{MX4}-
| I | Br | Br & I | Cl | Sum |
Bi | 43 | 6 | 1 | 2 | 52 |
Sb | 19 | 14 | 1 | 6 | 50 |
Sb & Bi | 1 | 0 | 1 | 0 | 2 |
Sum | 63 | 20 | 3 | 8 | 94 |
Структурные параметры, описывающие геометрию аниона
Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML
Изначально
6 длин связей
+ 15 углов
Независимых переменных для описания геометрии:
3*N-6 = 3*7-6 = 15
↓
Оставили
6 длин связей + 9 углов
(после оценки важноссти признаков и перебора вариантов)
Дескрипторы для описания, слабых взаимодействий – контактов Hal···Hal между соседними анионами
Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML
Hal···Hal
Расстояния Hal…Hal между соседними анионами:
мин. d(Hal···Hal) – min Hal…Hal
сред. d(Hal···Hal) (< Σ rvdw) – aver Hal…Hal
кол-во Hal···Hal (< Σ rvdw) – N
Каждый октаэдр может иметь
от 0 до 6 контактов Hal···Hal
Кодирование химического состава:
Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML
Label-encoder
(M: {BiX4}- – 0,
{Bi0.5Sb0.5X4}- – 0.5
{SbX4}- – 1;
X: {MI4}- – 0,
{MBr2I2}- – 0.5
{MBr4}- – 1).
One-hot-encoder
(Отдельные дескрипторы Bi, Sb, Br, I, значения в которых соответствуют молн. долям элемента)
15 наборов пространств дескрипторов
комбинации из
Описания геометрии аниона:
Описания системы контактов Hal···Hal:
min Hal…Hal
aver Hal…Hal
N
N/aver-d
Кодирования химического состава:
Температура рентгеноструктурного эксперимента
Модели, параметры моделей и обучение
Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML
train/test = 85:15
Min-Max-нормализация
Валидация – Leave One Out на всех объектах тренеровочной подвыборки
Метрики для оценки качества: MAE, MSE, RSME, R2.
Модель | Параметры моделей |
Linear Regression |
|
SVM_lin | Функция ядра = линейная Параметр регуляризации = 100 Коэффициент ядра = auto |
SVM_poly | Функция ядра = полиноминальная Параметр регуляризации = 100 Коэффициент ядра = auto |
SVM_rbf | Функция ядра = RBF Параметр регуляризации = 100 Коэффициент ядра = auto |
GPR_rbf | Функция ядра = RBF Среднее на основе значений обучающих данных Коэффициент регуляризации = 0.05-0.2 Кол-во перезапусков оптимизатора = 10 |
GPR_mat | Функция ядра = Matern(μ=2.5) Среднее на основе значений обучающих данных Коэффициент регуляризации = 0.2 Кол-во перезапусков оптимизатора = 10 |
GPR_rq | Функция ядра = Rational Quadratic Среднее на основе значений обучающих данных Коэффициент регуляризации = 0.05-0.2 Кол-во перезапусков оптимизатора = 10 |
RF | Число деревьев в ансамбле = 1000 Максимальная глубина деревьев = 1 |
XGB Regressor | Максимальная глубина деревьев = 1 |
Качество моделей
Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML
19 дескрипторов (M, X, T, min Hal...Hal +15 геометрических параметров аниона)
6 дескрипторов (M, X, T, min Hal...Hal, Δd, σ2)
| GPR_rbf | GPR_mat |
MAE on train | 0,0765 | 0,0755 |
MAE on test | 0,0576 | 0,0563 |
MSE on train | 0,0125 | 0,0121 |
MSE on test | 0,0043 | 0,0043 |
RMSE on train | 0,1118 | 0,1098 |
RMSE on test | 0,0659 | 0,0654 |
R2 on train | 0,8367 | 0,8425 |
R2 on test | 0,9198 | 0,9210 |
| GPR_rbf | GPR_mat |
MAE on train | 0,0679 | 0,0665 |
MAE on test | 0,0473 | 0,0479 |
MSE on train | 0,0094 | 0,0091 |
MSE on test | 0,0042 | 0,0043 |
RMSE on train | 0,0972 | 0,0953 |
RMSE on test | 0,0649 | 0,0655 |
R2 on train | 0,8718 | 0,8766 |
R2 on test | 0,9401 | 0,9390 |
Важность дескрипторов
Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML
Хим. состав: ШЗЗ уменьшается в рядах Sb-Bi, Cl-Br-I
↓
Искажение октаэдров MX6
↓
Система слабых взаимодействий Hal···Hal
Выводы
Предсказание ШЗЗ гибридных галогенометаллатов(III) методами ML
Предсказание ШЗЗ гибридных галогенметаллатов(III) методами ML
19 дескрипторов (M, X, T, min Hal...Hal +15 геометрических параметров аниона) | ||||||||||||||||||
| Linear | SVR_lin | SVR_poly | SVR_rbf | GPR_rbf | GPR_mat | GPR_rt | RF | XGB | |||||||||
| mean | std | mean | std | mean | std | mean | std | mean | std | mean | std | mean | std | mean | std | mean | std |
MAE on train | 0,0707 | 0,0018 | 0,0846 | 0,0025 | 0,0760 | 0,0017 | 0,0805 | 0,0023 | 0,0678 | 0,0014 | 0,0663 | 0,0014 | 0,0678 | 0,0014 | 0,0947 | 0,0014 | 0,0290 | 0,0013 |
MAE on validate | 0,1158 | 0,1224 | 0,1228 | 0,1166 | 0,1102 | 0,1002 | 0,1251 | 0,1099 | 0,0872 | 0,0881 | 0,0876 | 0,0888 | 0,0872 | 0,0881 | 0,1041 | 0,1034 | 0,0975 | 0,0951 |
MSE on train | 0,0094 | 0,0005 | 0,0115 | 0,0007 | 0,0089 | 0,0004 | 0,0083 | 0,0004 | 0,0094 | 0,0004 | 0,0090 | 0,0004 | 0,0094 | 0,0004 | 0,0170 | 0,0004 | 0,0016 | 0,0001 |
MSE on validate | 0,0282 | 0,0602 | 0,0285 | 0,0565 | 0,0220 | 0,0387 | 0,0275 | 0,0508 | 0,0152 | 0,0351 | 0,0154 | 0,0354 | 0,0152 | 0,0351 | 0,0214 | 0,0508 | 0,0184 | 0,0381 |
RMSE on train | 0,0969 | 0,0027 | 0,1071 | 0,0033 | 0,0945 | 0,0021 | 0,0913 | 0,0022 | 0,0969 | 0,0023 | 0,0951 | 0,0023 | 0,0969 | 0,0023 | 0,1306 | 0,0016 | 0,0394 | 0,0017 |
RMSE on validate | 0,1158 | 0,1224 | 0,1228 | 0,1166 | 0,1102 | 0,1002 | 0,1251 | 0,1099 | 0,0872 | 0,0881 | 0,0876 | 0,0888 | 0,0872 | 0,0881 | 0,1041 | 0,1034 | 0,0975 | 0,0951 |
R2 on train | 0,8724 | 0,0066 | 0,8441 | 0,0091 | 0,8786 | 0,0054 | 0,8866 | 0,0054 | 0,8722 | 0,0057 | 0,8770 | 0,0055 | 0,8722 | 0,0057 | 0,7683 | 0,0064 | 0,9788 | 0,0017 |
6 дескрипторов (M, X, T, min Hal...Hal, Δd, σ2) | ||||||||||||||||||
| Linear | SVR_lin | SVR_poly | SVR_rbf | GPR_rbf | GPR_mat | GPR_rt | RF | XGB | |||||||||
| mean | std | mean | std | mean | std | mean | std | mean | std | mean | std | mean | std | mean | std | mean | std |
MAE on train | 0,0806 | 0,0016 | 0,0840 | 0,0021 | 0,0824 | 0,0016 | 0,0774 | 0,0013 | 0,0764 | 0,0016 | 0,0754 | 0,0016 | 0,0764 | 0,0016 | 0,1097 | 0,0015 | 0,0543 | 0,0015 |
MAE on validate | 0,0934 | 0,0996 | 0,0972 | 0,1051 | 0,1066 | 0,1146 | 0,1213 | 0,1206 | 0,0942 | 0,1014 | 0,0950 | 0,1011 | 0,0942 | 0,1014 | 0,1145 | 0,0967 | 0,0943 | 0,1042 |
MSE on train | 0,0139 | 0,0005 | 0,0143 | 0,0005 | 0,0122 | 0,0005 | 0,0092 | 0,0003 | 0,0125 | 0,0005 | 0,0120 | 0,0004 | 0,0125 | 0,0005 | 0,0205 | 0,0008 | 0,0062 | 0,0003 |
MSE on validate | 0,0185 | 0,0401 | 0,0203 | 0,0428 | 0,0243 | 0,0544 | 0,0290 | 0,0534 | 0,0190 | 0,0407 | 0,0191 | 0,0404 | 0,0190 | 0,0407 | 0,0223 | 0,0511 | 0,0196 | 0,0525 |
RMSE on train | 0,1178 | 0,0023 | 0,1196 | 0,0022 | 0,1105 | 0,0022 | 0,0959 | 0,0014 | 0,1116 | 0,0021 | 0,1096 | 0,0021 | 0,1116 | 0,0021 | 0,1432 | 0,0028 | 0,0786 | 0,0023 |
RMSE on validate | 0,0934 | 0,0996 | 0,0972 | 0,1051 | 0,1066 | 0,1146 | 0,1213 | 0,1206 | 0,0942 | 0,1014 | 0,0950 | 0,1011 | 0,0942 | 0,1014 | 0,1145 | 0,0967 | 0,0943 | 0,1042 |
R2 on train | 0,8187 | 0,0070 | 0,8129 | 0,0070 | 0,8404 | 0,0068 | 0,8798 | 0,0042 | 0,8372 | 0,0062 | 0,8431 | 0,0059 | 0,8372 | 0,0062 | 0,7321 | 0,0101 | 0,9191 | 0,0044 |