1 of 11

Внедрение и обработка Big Data

Лекция 8

2 of 11

Уровни архитектуры обработки Big Data

Назначение / функции

Примеры технологий / системы

Уровень источников / ingest

Прием и агрегация сырых данных из систем, сенсоров, API, логов и др.

Kafka, Flume, Logstash, Apache NiFi

Уровень хранения (Raw / Landing)

Хранение необработанных данных в «сырых» форматах, обычно immutable

HDFS, Data Lake (на S3, Azure Blob), распределенные файловые системы

Уровень промежуточной обработки / очистки (Processing / Staging)

Трансформация, очистка, выравнивание схем, объединение данных

Spark, Hadoop MapReduce, Flink, ETL-инструменты

Уровень аналитики / агрегатов (Serving / OLAP слой)

Подготовленные агрегированные представления, витрины данных, аналитические таблицы

ClickHouse, Druid, Redshift, Snowflake

Уровень потребления / визуализации

BI-дашборды, аналитика, ML, API, отчёты

Tableau, Power BI, Jupyter, Dash, встроенные UI, REST APIs

3 of 11

Этапы внедрения Big Data - от идеи к рабочему pipeline

  1. Формулирование задач и сбор требований:
    • Определить бизнес-цели
    • Определить источники данных
    • Проанализировать требования
  2. Интеграция и ingestion данных:
    • поточные системы или батчевые конвейеры.
    • Apache Kafka, Flume, NiFi, Logstash.
    • raw storage или сразу в промежуточные слои

4 of 11

Этапы внедрения Big Data - от идеи к рабочему pipeline

3. Хранение (сырые данные, промежуточные данные):

    • Raw / landing zone,
    • Staging / Bronze zone,
    • Silver / Gold zone

4. Обработка и трансформация:

  • Преобразования, агрегации, соединения, вычисления производных признаков.
  • Использование batch и streaming подходов по необходимости.
  • Инструменты: Apache Spark, Apache Flink, MapReduce.
  • Архитектуры: Lambda (смешанный подход batch + speed), Kappa (чистый поток) как альтернатива.

5 of 11

Этапы внедрения Big Data - от идеи к рабочему pipeline

5. Аналитика и подача результатов:

  • Агрегированные таблицы, OLAP-кубы, витрины, хранилища аналитики.
  • Инструменты визуализации и использования: BI (Tableau, Power BI), Jupyter, API-интерфейсы, ML.
  • Вывод в приложения, системы экшенов.

6 of 11

Альтернативные архитектурные парадигмы и архитектура данных

Data Mesh: децентрализованная модель управления данными. Основные принципы: data as product, self-serve platform, domain-oriented ownership, federated governance.

Data Fabric: архитектурный шаблон, направленный на интеграцию, автоматизацию и унификацию доступа к данным сквозь разные системы

Lakehouse: попытка объединить преимущества Data Lake и Data Warehouse: хранение сырых данных + поддержка SQL-анализа + управление транзакциями внутри хранилища

7 of 11

Проблемы и вызовы внедрения

Трудности, с которыми сталкиваются при внедрении:

  • Качество данных: дубликаты, пропуски, ошибки, несоответствия форматов.
  • Интеграция систем: старые системы, разные форматы, несоответствие API.
  • Управление метаданными и каталог данных: как находить данные, кто владелец, версионирование.
  • Безопасность и соответствие стандартам (GDPR, HIPAA и др.).
  • Сложность архитектуры: большое количество движущихся частей, сложные пайплайны.
  • Стоимость инфраструктуры и масштабируемость: как не переплачивать и не затормозить систему.
  • Дефицит кадров: нехватка инженеров-данных, архитекторов и аналитиков.

8 of 11

Пример

  1. На сайте и в приложении клики и заказы отправляются в Kafka топики.
  2. “Сырые” события записываются в Data Lake (например, на S3).
  3. Spark выполняет очистку и агрегацию: убирает дубликаты, заполняет пробелы, строит дневные таблицы.
  4. Итоговые агрегаты записываются в витрины - таблицы в ClickHouse или Redshift.
  5. BI-сервис (Tableau) строит отчёты для маркетинга, аналитикам доступен Jupyter для ad-hoc анализа.
  6. Модели машинного обучения обучаются на агрегатах, их предсказания интегрируются в приложение для персонализации.

9 of 11

Заключение

  1. Архитектура Big Data строится как многоуровневая система: от приёма данных до аналитики.
    • Уровни: ingestion → storage → processing → serving → consumption.
  2. Уровень источников отвечает за сбор данных из разных источников (Kafka, Flume, NiFi).
  3. Уровень хранения - это “data lake” или “raw zone”, где данные сохраняются в исходном виде (HDFS, S3).
  4. Обработка включает очистку, агрегацию, объединение, вычисления.
    • Инструменты: Spark, Flink, Hadoop.
    • Архитектуры: Lambda и Kappa.

10 of 11

Заключение

  1. Аналитика превращает данные в ценность: BI-дашборды, ML, API, встроенные отчёты.
    • Данные подаются аналитикам, приложениям и автоматизированным системам.
  2. Современные подходы (Data Mesh, Data Fabric, Lakehouse) помогают сделать архитектуру гибкой, масштабируемой и управляемой.
  3. Внедрение Big Data требует внимания к качеству данных, метаданным, безопасности и стоимости инфраструктуры.
  4. Главная цель всей архитектуры - замкнуть цикл данных:
    • собрать → обработать → понять → применить → снова собрать.

11 of 11

Внедрение и обработка Big Data

Лекция 8