2 of 22

Технические вызовы ML на больших данных

1) Масштабируемость обучения и применения моделей

2) Качество данных и согласованность источников

3) Управление версиями и обновлением моделей

4) Баланс между точностью и вычислительными затратами

5) Этические аспекты и смещения (bias)

3 of 22

1) Масштабируемость обучения и применения моделей

Когда объем обучающих данных превышает возможности одного сервера, обучение приходится распределять между несколькими вычислительными узлами
Каждый узел обрабатывает свою часть данных и вычисляет градиенты
Затем эти значения синхронизируются между всеми узлами.
Применение модели к новым данным (на этапе эксплуатации) называется инференсом.
Фреймворки: TensorFlow Distributed, PyTorch DDP, Horovod или Spark MLlib

1.1. Масштабируемость обучения и применения моделей

Когда объем обучающих данных превышает возможности одного сервера, обучение приходится распределять между несколькими вычислительными узлами — серверами, контейнерами или виртуальными машинами, объединенными в кластер.

Каждый узел обрабатывает свою часть данных и вычисляет градиенты — значения, показывающие, как нужно изменить веса модели, чтобы улучшить точность.

Затем эти значения синхронизируются между всеми узлами, чтобы обновления были согласованными. Этот процесс называется распределённым обучением.

Применение модели к новым данным (на этапе эксплуатации) называется инференсом.

Хотя в русском языке можно сказать “прогнозирование”, термин “инференс” шире: он включает не только прогнозы, но и классификацию, распознавание изображений, выделение объектов и другие формы вывода из модели.

Современные фреймворки, такие как TensorFlow Distributed, PyTorch DDP, Horovod или Spark MLlib, обеспечивают такую масштабируемость обучения и выполнения моделей на кластерах.

4 of 22

2) Качество данных и согласованность источников

Качество данных напрямую определяет качество модели
“Garbage in — garbage out”

Подготовка:

очистка (удаление или исправление некорректных записей);
нормализация (приведение значений к общим масштабам и единицам);
выравнивание схем (приведение столбцов и типов данных из разных источников к единому формату);
проверка полноты и актуальности.

Data-Centric AI

1.2. Качество данных и согласованность источников

Качество данных напрямую определяет качество модели.

Выражение “Garbage in — garbage out” (“мусор на входе — мусор на выходе”) особенно актуально для больших данных: ошибки, дубликаты, несогласованные форматы и пропуски могут сделать даже лучшую модель бесполезной.

Поэтому важные этапы подготовки данных включают:

очистку (удаление или исправление некорректных записей);
нормализацию (приведение значений к общим масштабам и единицам);
выравнивание схем (приведение столбцов и типов данных из разных источников к единому формату);
проверку полноты и актуальности.

В последние годы всё больше внимания уделяется подходу Data-Centric AI (ЩЕЛКНУТЬ МЫШЬЮ) — “ориентированному на данные искусственному интеллекту”.

Он делает акцент не на усложнении архитектуры модели, а на улучшении и разнообразии самих данных, их меток и источников.

Термин официально введён Эндрю Ыном (Andrew Ng) и поддерживается многими компаниями (Google, AWS, Databricks).

5 of 22

3) Управление версиями и обновлением моделей

Основные причины деградации моделей:

смена распределения данных (data drift) - изменяются сами входные данные, например, возраст покупателей или структура транзакций;
изменение зависимостей (concept drift) - то, как входные данные связаны с результатом, перестает быть прежним;
технические факторы - обновление систем, форматов данных или API.

Чтобы модели оставались актуальными:

мониторинг моделей - автоматическая проверка качества предсказаний на свежих данных;
инкрементальное обучение - постепенное обновление модели при поступлении новых данных, без переобучения “с нуля”;
управление версиями (Model Versioning) и каталоги моделей (Model Registry) — хранение, проверка и контроль разных версий модели.

1.3. Управление версиями и обновлением моделей

Даже хорошо обученная модель со временем теряет точность, потому что мир и данные меняются.

Это явление называется концептуальный дрейф (concept drift) — изменение закономерностей между входными признаками и целевой переменной.

Например, если модель прогнозировала спрос на авиаперелёты до пандемии COVID-19, её предсказания после 2020 года стали неактуальны: изменились привычки и потоки клиентов.

Основные причины деградации моделей:

смена распределения данных (data drift) — изменяются сами входные данные, например, возраст покупателей или структура транзакций;
изменение зависимостей (concept drift) — то, как входные данные связаны с результатом, перестаёт быть прежним;
технические факторы — обновление систем, форматов данных или API.

Чтобы модели оставались актуальными, в организациях применяют:

мониторинг моделей — автоматическую проверку качества предсказаний на свежих данных;
инкрементальное обучение — постепенное обновление модели при поступлении новых данных, без переобучения “с нуля”;
управление версиями (Model Versioning) и каталоги моделей (Model Registry) — хранение, проверка и контроль разных версий модели.

6 of 22

4) Баланс между точностью и вычислительными затратами

Более простая, легкая модель:

быстрее обучается,
дешевле запускается в эксплуатации,
проще обновляется.

В промышленной практике часто выбирают “достаточно хорошую” модель - то есть такую, что удовлетворяет требованиям бизнеса, а не максимизирует метрики.

1.4. Баланс между точностью и вычислительными затратами

Не всегда имеет смысл выбирать самую сложную или точную модель.

Сложные архитектуры (например, нейронные сети с миллиардами параметров) требуют больше данных, времени и вычислительных ресурсов.

Иногда более простая, “лёгкая” модель обеспечивает почти такую же точность, но:

быстрее обучается,
дешевле запускается в эксплуатации,
проще обновляется.

В промышленной практике часто выбирают “достаточно хорошую” модель — то есть такую, что удовлетворяет требованиям бизнеса, а не максимизирует метрики.

Например, логистической компании может быть достаточно модели, предсказывающей задержку доставки с точностью 85%, если она работает в реальном времени и легко обновляется.

Иногда точность повышают за счёт ансамблей моделей — комбинаций нескольких алгоритмов (например, случайный лес, градиентный бустинг), где итоговый результат основан на согласованном мнении “группы” моделей.

7 of 22

5) Этические аспекты и смещения (bias)

Ключевые понятия:

Справедливость (fairness) - модель должна одинаково работать для всех групп пользователей.
Прозрачность (transparency) - должно быть понятно, как и почему модель приняла то или иное решение.
Смещение (bias) - систематическая ошибка, приводящая к несправедливым результатам.

Методы коррекции смещений:

балансировка данных (равное представление групп),
исключение чувствительных признаков (например, пола или возраста),
использование алгоритмов, контролирующих метрики справедливости,
объяснимое ИИ (Explainable AI): методы LIME, SHAP, которые позволяют увидеть, какие признаки влияют на решение модели.

1.5. Этические аспекты и смещения (bias)

Машинное обучение может неосознанно воспроизводить и усиливать предвзятости, присутствующие в данных.

Например, если исторические данные отражают дискриминационные решения (например, по найму), модель может их повторять.

Ключевые понятия:

Справедливость (fairness) — модель должна одинаково работать для всех групп пользователей.
Прозрачность (transparency) — должно быть понятно, как и почему модель приняла то или иное решение.
Смещение (bias) — систематическая ошибка, приводящая к несправедливым результатам.

Методы коррекции смещений включают:

балансировку данных (равное представление групп),
исключение чувствительных признаков (например, пола или возраста),
использование алгоритмов, контролирующих метрики справедливости,
объяснимое ИИ (Explainable AI): методы LIME, SHAP, которые позволяют увидеть, какие признаки влияют на решение модели.

Этика и интерпретируемость становятся стандартом при внедрении моделей в здравоохранении, финансах и госуправлении.

8 of 22

2. Архитектуры и шаблоны для ML в больших данных

1) Комбинация пакетной обработки и потоковой обработки

2) Разделение данных и разделение модели

3) Компиляция и оптимизация вычислений

4) Платформы и экосистемы

9 of 22

1) Комбинация пакетной обработки и потоковой обработки

batch (пакетная) обработка

данные накапливаются и обрабатываются периодически

когда задержка в получении результата допустима (например, отчет по продажам за день)

streaming (потоковая) обработка

данные обрабатываются по мере поступления, в реальном или почти реальном времени

Когда модель развернута и работает в реальной среде, новые данные поступают непрерывно, и система должна реагировать быстро

Этап обучения: формируется большой пакет данных → модель обучается → сохраняется.

Этап вывода (inference): новые данные поступают как поток → модель предсказывает почти в реальном времени → приложение/сервис реагирует.

Первым, о чем мы поговорим на тему архитектуры и шаблонов, будет

2.1) Комбинация пакетной обработки и потоковой обработки

Когда мы говорим о машинном обучении на больших данных, почти всегда используется комбинация двух режимов обработки:

batch (пакетная) обработка — данные накапливаются и обрабатываются периодически,
streaming (потоковая) обработка — данные обрабатываются по мере поступления, в реальном или почти реальном времени.

Почему это важно?

Обучение моделей чаще всего выполняется на исторических данных (batch): мы используем большие массивы за длительный период, чтобы выявить закономерности.
Когда модель развёрнута и работает в реальной среде, новые данные поступают непрерывно, и система должна реагировать быстро — здесь применяется streaming-режим.

Примеры различий:

Batch-обработка хороша, когда задержка в получении результата допустима (например, отчёт по продажам за день).
Streaming-обработка нужна, когда требуется мгновенная реакция (например, обнаружение мошенничества при онлайн-транзакции).

Как это реализуется в ML-системах:

Этап обучения: формируется большой «пакет» данных → модель обучается → сохраняется.
Этап вывода (inference): новые данные поступают как поток → модель предсказывает почти в реальном времени → приложение/сервис реагирует.
Часто архитектура совмещает оба режима: историческая база + поток входящих данных.

10 of 22

2) Разделение данных и разделение модели

Разделение данных (data parallelism)

Данные разбиваются на части и распределяются между узлами
Каждая копия модели работает на своей части данных, вычисляет собственные градиенты, затем результаты синхронизируются.
Подходит, когда модель помещается в память одного узла, но данных очень много.

Разделение модели (model parallelism)

Модель делится на части (например, слои нейронной сети) и разные узлы обрабатывают разные части модели.
Применимо, когда сама модель слишком велика для одного устройства

2.2 Разделение данных и разделение модели

При обучении моделей на больших данных используются подходы распределения вычислений через параллелизм. Основные два метода:

Разделение данных (data parallelism)

Данные разбиваются на части и распределяются между узлами (серверными машинами или вычислительными устройствами).
Каждая копия модели работает на своей части данных, вычисляет собственные градиенты, затем результаты синхронизируются.
Подходит, когда модель помещается в память одного узла, но данных очень много.

Разделение модели (model parallelism)

Модель делится на части (например, слои нейронной сети) и разные узлы обрабатывают разные части модели.
Применимо, когда сама модель слишком велика для одного устройства (например, миллиарды параметров).

В практике часто используется гибридный подход: одновременно разбиваются данные и части модели, чтобы достичь максимальной масштабируемости.

11 of 22

3) Компиляция и оптимизация вычислений

Пример: проект Apache SystemML (и аналогичные) превращает ML-алгоритмы в распределенные задачи на основании данных и особенностей кластера.

Это позволяет автоматически подбирать стратегию распределения, параллелизма и использования ресурсов.

Инженеры не пишут вручную все детали распределенной обработки - система сама адаптирует модель под инфраструктуру.

2.3 Компиляция и оптимизация вычислений

Чтобы эффективно использовать кластер или облачные узлы, системы машинного обучения часто преобразуют (компилируют) алгоритмы под конкретную инфраструктуру, автоматически оптимизируя задачи.

Например, проект Apache SystemML (и аналогичные) превращает ML-алгоритмы в распределенные задачи на основании данных и особенностей кластера.
Это позволяет автоматически подбирать стратегию распределения, параллелизма и использования ресурсов.

В результате: инженеры не пишут вручную все детали распределенной обработки — система сама адаптирует модель под инфраструктуру.

12 of 22

4) Платформы и экосистемы

Spark MLlib, интегрированная с экосистемой Apache Spark.
Подход co-located (совместное размещение) (обучение и инференс моделей происходит там, где находятся данные)
AutoML и мета-обучение - инструменты, которые автоматически подбирают модели и гиперпараметры.
Инструменты для MLOps (операционализация ML) - например, MLflow, Kubeflow, TensorFlow Extended (TFX) - помогают управлять версиями моделей, их развертыванием и мониторингом.

2.4 Платформы и экосистемы

Чтобы организовать весь жизненный цикл машинного обучения с большими данными, используются специализированные платформы и стеки:

Spark MLlib — одна из классических библиотек для распределённого обучения, интегрированная с экосистемой Apache Spark.
Подход co-located (совместное размещение) означает, что обучение и инференс моделей происходит там, где находятся данные (минимизация затрат на передачу).
AutoML и мета-обучение — инструменты, которые автоматически подбирают модели и гиперпараметры, снижая ручной труд (гиперпараметры - это внешние настройки, которые устанавливаются до начала обучения модели машинного обучения и управляют процессом обучения).
Инструменты для MLOps (операционализация ML) — например, MLflow, Kubeflow, TensorFlow Extended (TFX) — помогают управлять версиями моделей, их развёртыванием и мониторингом.

Эти платформы становятся стандартом для систем машинного обучения, работающих с большими данными.

13 of 22

3. Как выбирают технологии под задачи?

какие данные используются
насколько быстро нужно получать результаты,
какие ресурсы есть,
как часто обновляются данные

14 of 22

1) Объем и частота обновления

Малые наборы данных (до нескольких гигабайт)

scikit-learn (базовые алгоритмы (линейная/ логистическая регрессия, деревья решений, SVM и др.);

XGBoost, LightGBM (оптимизированные бустинговые модели);

pandas, numpy (для обработки и анализа).

Средние наборы данных (десятки-сотни гигабайт)

Apache Spark MLlib (библиотека Spark, обрабатывает данные в распределённой памяти (RDD, DataFrame).

Dask, Ray, Polars (современные альтернативы для распределенной обработки на Python).

Databricks ML (промышленная среда, сочетающая Spark и MLOps).

Огромные наборы данных (терабайты и выше)

TensorFlow Distributed, PyTorch Distributed (обучают модели на кластере узлов).

Horovod (Uber) (фреймворк для параллельного обучения).

Kubernetes + MLflow/Kubeflow (для оркестрации и мониторинга).

Первый критерий - 3.1 Объём и частота обновления

Малые наборы данных (до нескольких гигабайт)

Подходят для обучения на локальной машине или одном сервере.

Используются классические библиотеки:

scikit-learn — базовые алгоритмы (линейная/логистическая регрессия, деревья решений, SVM и др.);
XGBoost, LightGBM — оптимизированные бустинговые модели;
pandas, numpy — для обработки и анализа.

Используется в: исследованиях, прототипах, малом бизнесе, академических проектах.

Средние наборы данных (десятки-сотни гигабайт)

Когда данные не помещаются в оперативную память, но их можно распределить по узлам, применяются фреймворки:

Apache Spark MLlib — библиотека машинного обучения для Spark, обрабатывает данные в распределённой памяти (RDD, DataFrame).
Dask, Ray, Polars — современные альтернативы для распределённой обработки на Python.
Databricks ML — промышленная среда, сочетающая Spark и MLOps.

Используется в: аналитике продаж, рекомендательных системах, обработке логов и пользовательских событий.

Огромные наборы данных (терабайты и выше)

Нужны распределённые вычисления и графические ускорители (GPU, TPU):

TensorFlow Distributed, PyTorch Distributed — обучают модели на кластере узлов.
Horovod (Uber) — фреймворк для параллельного обучения.
Kubernetes + MLflow/Kubeflow — для оркестрации и мониторинга.

Используется в: обучении LLM, обработке видеопотоков, прогнозировании по миллиардам записей.

15 of 22

2) Требования к скорости отклика (latency)

Онлайн-предсказания (real-time inference)

Пример: рекомендации Netflix, детекция мошенничества, персонализированные объявления.

Требуются модели с малым временем отклика, часто в формате distilled models (облегчённые версии крупных нейросетей) или quantized models (модели с пониженной точностью весов, но быстрой работой).

Используются TensorRT (NVIDIA), ONNX Runtime, FastAPI/Flask-сервисы для развертывания.

Batch-предсказания (offline inference)

Пример: прогноз спроса на неделю или сегментация клиентов.

Можно использовать более тяжёлые модели, так как задержка не критична.

Второй критерий выбора технологии - 3.2 Требования к скорости отклика (latency)

Latency — это время от поступления данных до получения предсказания.

Выбор модели и инфраструктуры зависит от того, сколько миллисекунд или секунд можно “ждать”.

Онлайн-предсказания (real-time inference)

Пример — рекомендации Netflix, детекция мошенничества, персонализированные объявления.

Используются TensorRT (NVIDIA), ONNX Runtime, FastAPI/Flask-сервисы для развертывания.

Batch-предсказания (offline inference)

Пример — прогноз спроса на неделю или сегментация клиентов.

Можно использовать более тяжёлые модели, так как задержка не критична.

16 of 22

3) Интерпретируемость и объяснимость моделей

В некоторых областях объяснимость важнее точности:

простые и прозрачные модели: линейная/логистическая регрессия, деревья решений;
интерпретаторы сложных моделей: SHAP, LIME, ELI5 - инструменты, объясняющие, почему модель приняла то или иное решение.

Помимо объема и частоты обновления, а также скорости отклика, важна

3.3 Интерпретируемость и объяснимость моделей

это третий важный критерий.

В некоторых областях (медицина, финансы, государственное управление) объяснимость важнее точности.

В таких случаях предпочитают:

простые и прозрачные модели: линейная/логистическая регрессия, деревья решений;
интерпретаторы сложных моделей: SHAP, LIME, ELI5 — инструменты, объясняющие, почему модель приняла то или иное решение.

Пример: в банках нельзя использовать "чёрный ящик", если от решения модели зависит одобрение кредита — требуется объяснение.

17 of 22

4. Пример: Netflix

Обрабатывает более триллиона событий в день: просмотры, оценки, поведение пользователей.
Архитектура: Spark + Flink (batch и streaming), MLflow, Kubernetes.
Модели формируют персональные рекомендации, оптимизируют обложки фильмов и сетку контента.
Команды data engineers обеспечивают поток данных, а ML engineers разворачивают модели на платформе, где их можно мониторить и обновлять.

Теперь перейдем к примерам выбора технологий в разных сферах.

Насколько известно, компании используют гибридные ML-архитектуры, сочетающие batch + streaming, чтобы и обучаться на исторических данных, и реагировать на новые события в реальном времени.

Давайте начнем с Netflix, и вот несколько фактов о ее моделях:

Обрабатывает более триллиона событий в день: просмотры, оценки, поведение пользователей.
Архитектура: Spark + Flink (batch и streaming), MLflow, Kubernetes.
Модели формируют персональные рекомендации, оптимизируют обложки фильмов и сетку контента.
Команды data engineers обеспечивают поток данных, а ML engineers разворачивают модели на платформе, где их можно мониторить и обновлять.

18 of 22

4. Пример: Spotify

Использует гибридную архитектуру Spark + TensorFlow Extended (TFX).
Рекомендации строятся на комбинации batch-данных (история прослушиваний) и потоковых событий (что слушается прямо сейчас).

19 of 22

4. Пример: Uber

Использует собственную платформу Michelangelo, объединяющую хранение данных, обучение моделей и real-time-предсказания.
Ее модель применяется для динамического ценообразования, ETA-прогнозов и предотвращения отмен заказов.

20 of 22

5. Лучшие практики

Начинайте с простых решений.
Выбирайте инструменты под задачу.

scikit-learn - для прототипов,
Spark - для больших данных,
TensorFlow/PyTorch - для глубоких моделей.

Учитывайте требования по масштабу, скорости и бюджету.

Вместо заключения и выводов из лекции я дам вам несколько рекомендаций, которые помогут не только на практическом занятии, но и на будущей работе:

Начинайте с простых решений.

Даже линейная регрессия или деревья решений часто дают полезные результаты. Сложность стоит увеличивать, когда есть доказанная выгода.

Выбирайте инструменты под задачу.

Нет универсального фреймворка:

scikit-learn — для прототипов,
Spark — для больших данных,
TensorFlow/PyTorch — для глубоких моделей.
Учитывайте требования по масштабу, скорости и бюджету.

Иногда распределённая архитектура не нужна — проще и дешевле решить задачу на одном сервере.

21 of 22