1 of 11

Внедрение и обработка Big Data

Лекция 8

В предыдущих лекциях мы уже знакомились с характеристиками Big Data (5V) - и разобрали, почему традиционные методы иногда не справляются с новыми требованиями. Сейчас настало время перейти к тому, как на практике строятся системы, которые внедряют Big Data в архитектуру компании: как данные проходят путь от источников до аналитики, какие слои нужны, какими технологиями их поддерживать, и как обеспечить надежность, масштабируемость и эффективность.

Мы будем рассуждать не просто о теории, а о жизненном цикле данных - как компании реализуют pipeline обработки данных, как строят архитектуру «с нуля» или модернизируют существующую, и какие технологии на каждом этапе играют ключевую роль.

2 of 11

Уровни архитектуры обработки Big Data

	Назначение / функции	Примеры технологий / системы
Уровень источников / ingest	Прием и агрегация сырых данных из систем, сенсоров, API, логов и др.	Kafka, Flume, Logstash, Apache NiFi
Уровень хранения (Raw / Landing)	Хранение необработанных данных в «сырых» форматах, обычно immutable	HDFS, Data Lake (на S3, Azure Blob), распределенные файловые системы
Уровень промежуточной обработки / очистки (Processing / Staging)	Трансформация, очистка, выравнивание схем, объединение данных	Spark, Hadoop MapReduce, Flink, ETL-инструменты
Уровень аналитики / агрегатов (Serving / OLAP слой)	Подготовленные агрегированные представления, витрины данных, аналитические таблицы	ClickHouse, Druid, Redshift, Snowflake
Уровень потребления / визуализации	BI-дашборды, аналитика, ML, API, отчёты	Tableau, Power BI, Jupyter, Dash, встроенные UI, REST APIs

1. Уровни архитектуры обработки Big Data

Часто архитектуру Big Data представляют как слоистую модель, где роли разных компонентов четко разделены. В таблице вы видите эти компоненты:

Первый уровень — это уровень источников, или ingest.� Именно отсюда данные поступают в систему. Это могут быть сенсоры, веб-сервисы, приложения, серверные логи, API.� На этом уровне работает всё, что собирает и доставляет поток данных: Kafka, Flume, Logstash, NiFi.� Задача этого уровня — обеспечить надёжный, непрерывный сбор и передачу данных дальше по цепочке.

Второй уровень — уровень хранения, его часто называют Raw или Landing.� Сюда попадают «сырые», необработанные данные — буквально как есть, без фильтрации или преобразований.� Обычно такие данные хранятся в распределённых файловых системах — например, в HDFS, Amazon S3 или Azure Blob.� Важно, что данные на этом уровне чаще всего неизменяемые — чтобы можно было вернуться к исходной версии при необходимости.

Третий уровень — уровень обработки или очистки, его называют Processing или Staging.� Здесь данные начинают «жить» — очищаются, нормализуются, объединяются между собой.� Здесь работают такие системы, как Spark, Hadoop MapReduce, Flink или ETL-инструменты вроде Talend.� На этом уровне данные приводят к единому виду, исправляют ошибки, удаляют дубликаты — чтобы дальше их можно было анализировать.

Четвёртый уровень — аналитический, или Serving / OLAP слой.� Это уровень, где уже формируются агрегаты и витрины данных — таблицы, на которых потом строятся отчёты.� Обычно используются системы аналитических баз данных — ClickHouse, Druid, Redshift, Snowflake.� Здесь данные уже структурированы и оптимизированы под быстрые аналитические запросы.

И наконец, пятый уровень — уровень потребления или визуализации.� Это то, что видит конечный пользователь — дашборды, отчёты, модели машинного обучения, API.� Инструменты этого уровня — Power BI, Tableau, Jupyter, Dash или REST API, через которые данные подаются в другие системы.

Таким образом, данные проходят через всю цепочку — от поступления из источников, через хранение и обработку, до визуализации и принятия решений.� Эта структура помогает масштабировать систему, отслеживать, где именно находятся данные, и облегчает управление ими.

3 of 11

Этапы внедрения Big Data - от идеи к рабочему pipeline

Формулирование задач и сбор требований:

Определить бизнес-цели
Определить источники данных
Проанализировать требования

Интеграция и ingestion данных:

поточные системы или батчевые конвейеры.
Apache Kafka, Flume, NiFi, Logstash.
raw storage или сразу в промежуточные слои

Теперь мы рассмотрим этапы, которые часто проходят компании при реализации Big Data-систем.

И первый из них - это Формулирование задач и сбор требований

Определить бизнес-цели: что именно хочет организация извлекать из данных (прогнозирование спроса, мониторинг в реальном времени, выявление аномалий и т.д.).
Определить источники данных: внутренние системы, внешние API, сенсоры, логи и т.п.
Проанализировать требования по задержке, объему, частоте, консистентности и безопасности.

Следующий слой: Интеграция и ingestion данных

Используются поточные (streaming) системы или батчевые конвейеры (batch).
Решения: Apache Kafka (очень популярна для стриминга), Flume, NiFi, Logstash.
Данные могут попадать как в raw storage (лэйкинг зона), так и сразу в промежуточные слои.

4 of 11

Этапы внедрения Big Data - от идеи к рабочему pipeline

3. Хранение (сырые данные, промежуточные данные):

Raw / landing zone,
Staging / Bronze zone,
Silver / Gold zone

4. Обработка и трансформация:

Преобразования, агрегации, соединения, вычисления производных признаков.
Использование batch и streaming подходов по необходимости.
Инструменты: Apache Spark, Apache Flink, MapReduce.
Архитектуры: Lambda (смешанный подход batch + speed), Kappa (чистый поток) как альтернатива.

Третий этап: Хранение (сырые данные, промежуточные данные)

Raw / landing zone - хранение необработанных данных, часто в виде JSON, Parquet, Avro.
Staging / Bronze zone - промежуточный слой, где данные уже очищены, нормализованы.
Silver / Gold zone - слой для агрегированных данных, витрин.

В современных архитектурах набирают популярность концепции data lakehouse, которые объединяют качества хранилища данных и складов данных, устраняя некоторую избыточность копий данных и обеспечивая ACID-транзакции на уровне хранилища.

Четвертый - Обработка и трансформация

Преобразования, агрегации, соединения, вычисления производных признаков.
Использование batch и streaming подходов по необходимости.
Инструменты: Apache Spark, Apache Flink, MapReduce.
Архитектуры: Lambda (смешанный подход batch + speed), Kappa (чистый поток) как альтернатива.

5 of 11

Этапы внедрения Big Data - от идеи к рабочему pipeline

5. Аналитика и подача результатов:

Агрегированные таблицы, OLAP-кубы, витрины, хранилища аналитики.
Инструменты визуализации и использования: BI (Tableau, Power BI), Jupyter, API-интерфейсы, ML.
Вывод в приложения, системы экшенов.

6 of 11

Альтернативные архитектурные парадигмы и архитектура данных

Data Mesh: децентрализованная модель управления данными. Основные принципы: data as product, self-serve platform, domain-oriented ownership, federated governance.

Data Fabric: архитектурный шаблон, направленный на интеграцию, автоматизацию и унификацию доступа к данным сквозь разные системы

Lakehouse: попытка объединить преимущества Data Lake и Data Warehouse: хранение сырых данных + поддержка SQL-анализа + управление транзакциями внутри хранилища

Альтернативные архитектурные парадигмы и архитектура данных

Помимо классической многоуровневой архитектуры, современные организации внедряют гибридные подходы:

Data Mesh: децентрализованная модель управления данными, где ответственность за данные делегируется доменным командам, а инфраструктура предоставляет платформу. Основные принципы: data as product, self-serve platform, domain-oriented ownership, federated governance.

Data Fabric: архитектурный шаблон, направленный на интеграцию, автоматизацию и унификацию доступа к данным сквозь разные системы, обеспечивая синтетический слой для данных и метаданных

Обзор архитектур Big Data (включая Data Mesh, Data Fabric, традиционные модели) можно изучить в работе “Finding Your Way Through the Jungle of Big Data Architectures”.

7 of 11

Проблемы и вызовы внедрения

Трудности, с которыми сталкиваются при внедрении:

Качество данных: дубликаты, пропуски, ошибки, несоответствия форматов.
Интеграция систем: старые системы, разные форматы, несоответствие API.
Управление метаданными и каталог данных: как находить данные, кто владелец, версионирование.
Безопасность и соответствие стандартам (GDPR, HIPAA и др.).
Сложность архитектуры: большое количество движущихся частей, сложные пайплайны.
Стоимость инфраструктуры и масштабируемость: как не переплачивать и не затормозить систему.
Дефицит кадров: нехватка инженеров-данных, архитекторов и аналитиков.

4. Проблемы и вызовы внедрения

При внедрении Big Data организации сталкиваются со множеством технических и организационных трудностей:

Качество данных: дубликаты, пропуски, ошибки, несоответствия форматов.
Интеграция систем: старые системы, разные форматы, несоответствие API.
Управление метаданными и каталог данных: как находить данные, кто владелец, версионирование.
Безопасность и соответствие стандартам (GDPR, HIPAA и др.).
Сложность архитектуры: большое количество движущихся частей, сложные пайплайны.
Стоимость инфраструктуры и масштабируемость: как не переплачивать и не затормозить систему.
Дефицит кадров: нехватка инженеров-данных, архитекторов и аналитиков.

Согласно статистике, многие проекты Big Data терпят неудачу: например, исследование говорит, что до 85 % крупных проектов интеграции данных сталкиваются с частичными или полными провалами из-за сложности систем и неясных требований.

8 of 11

Пример

На сайте и в приложении клики и заказы отправляются в Kafka топики.
“Сырые” события записываются в Data Lake (например, на S3).
Spark выполняет очистку и агрегацию: убирает дубликаты, заполняет пробелы, строит дневные таблицы.
Итоговые агрегаты записываются в витрины - таблицы в ClickHouse или Redshift.
BI-сервис (Tableau) строит отчёты для маркетинга, аналитикам доступен Jupyter для ad-hoc анализа.
Модели машинного обучения обучаются на агрегатах, их предсказания интегрируются в приложение для персонализации.

Рассмотрим гипотетическую компанию электронной коммерции. Такой pipeline иллюстрирует, как слои архитектуры (ingest → storage → processing → serving → consumption) рабоче соединены в единую цепочку.

Представим, что у нас есть онлайн-магазин, где пользователи каждый день:

заходят на сайт,
кликают по товарам,
добавляют что-то в корзину,
оформляют заказы.

Каждое из этих действий — это данные, и их очень много.

Шаг 1. Сбор данных (ingestion)

Когда пользователь что-то делает — например, кликает по товару или оформляет заказ — приложение отправляет сообщение в специальную очередь (Kafka).

Это как огромная почтовая коробка, в которую постоянно “летят” письма с событиями:

“Пользователь №325 посмотрел товар №442”,
“Пользователь №325 добавил товар №442 в корзину”,
“Пользователь №325 оформил заказ №7312”.

Такие потоки событий называются потоками данных (data streams).

Шаг 2. Хранение данных (storage)

Все эти «письма» сохраняются в исходном виде, без изменений, в большое хранилище — например, Data Lake.

Это как гигантская “папка” (обычно на облачном сервисе — Amazon S3 или HDFS), куда складываются все события, как они есть.

Почему так?

Потому что мы никогда не знаем заранее, что именно может понадобиться:

вдруг через полгода маркетинг захочет посмотреть статистику не только по продажам, но и по кликам?

Шаг 3. Обработка данных (processing)

Дальше аналитическая система (например, Apache Spark) берёт эти “сырые” данные и приводит их в порядок:

удаляет дублирующиеся события,
заменяет пропущенные значения (например, если товар без категории — ставит “неизвестно”),
объединяет данные о кликах и заказах,
подсчитывает итоги за день — сколько просмотров, сколько заказов, какая выручка.

Результат — чистые и агрегированные таблицы.

Шаг 4. Подготовка итогов (serving)

Теперь эти таблицы записываются в быстрые аналитические базы — например, ClickHouse, Redshift или BigQuery.

Это нужно, чтобы отчеты и запросы открывались быстро, а не считались с нуля каждый раз.

Шаг 5. Использование данных (consumption)

Вот теперь данные начинают приносить пользу:

Маркетологи открывают дашборды (в Tableau или Power BI), где видят:

сколько заказов за день,
какой товар самый популярный,
из каких городов больше всего клиентов.

Аналитики делают более глубокие исследования в Jupyter Notebook, например:

какие клиенты покупают чаще,
какие товары покупают вместе,
как день недели влияет на продажи.

Машинное обучение (ML):

инженеры обучают модель, которая предсказывает, что именно пользователь захочет купить.

Когда клиент заходит в приложение, сайт показывает блок:

“Вам может понравиться…”

— и эти рекомендации создаются в реальном времени на основе данных.

9 of 11

Заключение

Архитектура Big Data строится как многоуровневая система: от приёма данных до аналитики.

Уровни: ingestion → storage → processing → serving → consumption.

Уровень источников отвечает за сбор данных из разных источников (Kafka, Flume, NiFi).
Уровень хранения - это “data lake” или “raw zone”, где данные сохраняются в исходном виде (HDFS, S3).
Обработка включает очистку, агрегацию, объединение, вычисления.

Инструменты: Spark, Flink, Hadoop.
Архитектуры: Lambda и Kappa.

10 of 11

Заключение

Аналитика превращает данные в ценность: BI-дашборды, ML, API, встроенные отчёты.

Данные подаются аналитикам, приложениям и автоматизированным системам.

Современные подходы (Data Mesh, Data Fabric, Lakehouse) помогают сделать архитектуру гибкой, масштабируемой и управляемой.
Внедрение Big Data требует внимания к качеству данных, метаданным, безопасности и стоимости инфраструктуры.
Главная цель всей архитектуры - замкнуть цикл данных:

собрать → обработать → понять → применить → снова собрать.

Аналитика превращают данные в ценность: BI-дашборды, ML, API, встроенные отчёты.

Данные подаются аналитикам, приложениям и автоматизированным системам.

Современные подходы (Data Mesh, Data Fabric, Lakehouse) помогают сделать архитектуру гибкой, масштабируемой и управляемой.
Внедрение Big Data требует внимания к качеству данных, метаданным, безопасности и стоимости инфраструктуры.
Главная цель всей архитектуры - замкнуть цикл данных:

собрать → обработать → понять → применить → снова собрать.

1 of 11

2 of 11

3 of 11

4 of 11

5 of 11

6 of 11

7 of 11

8 of 11

9 of 11

10 of 11

11 of 11