1 of 11

«Создание алгоритма прогнозирования значений показателей состояния пациента»�

1

Данилов Сергей�«Финансовые технологии анализа данных», J4112

�Научный руководитель: Деревицкий Илья Владиславович,

научный сотрудник исследовательского центра

"Сильный искусственный интеллект в промышленности"

2 of 11

Актуальность проблемы

  • Необходимо детально предсказывать развитие заболевания для принятия решений
  • Внимание уделяется вероятности летального исхода или ухудшения состояния
  • Существующие модели предсказывают на малом горизонте и используют показатели, измеряемые ежечасно

2

3 of 11

Создание алгоритма прогнозирования значений индикаторов состояния пациента в следующем периоде по информации о текущем и предыдущих состояниях и выбранной стратегии лечения.

Цель работы

  1. Обучить ML модели на данных
  2. Провести кросс-валидацию моделей
  3. Провести сравнительный анализ
  4. Создать скрипт на языке Python,�использующий обученные модели

Задачи

3

4 of 11

Объект исследования

4

  • Небольшое количество записей
  • Значительный процент пропущенных измерений
  • Короткая длина последовательностей

Объект исследования – временной ряд показателей состояния пациента

  • Физиологические параметры
  • Анализы крови
  • Принимаемые медикаменты

* Истории заболевания пациентов COVID-19, проходивших лечение в НИМЦ Алмазова

5 of 11

RNN. LSTM

  • Фокус на работу с последовательностями
  • Запоминание зависимостей во времени
  • Возможность работы с мультивариативными рядами
  • Необходима предобработка данных и подбор гиперпараметров

5

LSTM RNN

Источник:

http://colah.github.io/posts/2015-08-Understanding-LSTMs

6 of 11

AutoML. Fedot

  • Эволюционный алгоритм подбора пайплайнов моделей
  • Нет необходимости проводить предобработку данных
  • Может предсказывать значения временных рядов
  • Тратится меньше времени на построение модели, не обязательна экспертиза

6

Структура фреймворка Fedot

Источник: https://github.com/ITMO-NSS-team/fedot-examples

7 of 11

Методы исследования

7

темп.

лейкоциты

АСТ

тромбоциты

37.0

2.34

120.67

14.67

37.5

4.35

114.65

12.69

36.8

1.95

120.67

14.67

37.2

4.35

118.65

12.69

темп.

38.0

36.9

АСТ

115.01

119.34

предикторы

таргет 1

таргет 2

Разбиение данных на “окна”

Подготовка данных

Построение модели регрессии

Подсчет метрик mAPE, MSE, R2�с дов. интервалом 95%

Сравнительный анализ качества моделей

Методология исследования

Кросс-валидация методом 5-Fold

8 of 11

Fedot

  • 9 из 13 параметров предсказываются с R2 > 0.2 (+-0.2)
  • Лучше всего предсказываются:
    • PDW (R2 0.58 ± 0.1)
    • MPV (R2 0.61 ± 0.2)
    • Биллирубин (R2 0.45 ± 0.2)
    • Лимфоциты (R2 0.43 ± 0.15)
    • РСТ (R2 0.4 ± 0.2)

8

Средняя величина коэффициента детерминации

(R²) с 95% доверительным интервалом

9 of 11

LinearRegression and GradBoosting

9

Linear Regression

Fedot

HistGradientBoosting

Fedot

Fedot модель предсказывает лучше, чем линейная регрессия по всем параметрам.

Параметры PWD и ЛДГ предсказываются одинаково, остальные заметно хуже

10 of 11

RNN (LSTM)

10

С размером окна 1 эффективность моделей примерно одинакова, но с увеличением окна до 2 недель �Fedot модель показывает лучшие результаты по большинству параметров.

LSTM

Fedot

LSTM

Fedot

11 of 11

Результаты

  • Удалось добиться предсказания 5 из 13 параметров с долей объясненной дисперсии R2 больше 0.4 (±0.2)
  • Fedot фреймворк справился с задачей предсказания лучше обученных ML моделей
  • Фреймворк позволил без дополнительного подбора параметров и обработок данных показать хороший результат
  • Алгоритм предсказания параметров на основе обученных моделей реализован�в виде Python скрипта

tg: @geniusserg

github: https://github.com/geniusserg/CovidPredict

11