Внедрение и обработка Big Data
Лекция 8
Уровни архитектуры обработки Big Data
| Назначение / функции | Примеры технологий / системы |
Уровень источников / ingest | Прием и агрегация сырых данных из систем, сенсоров, API, логов и др. | Kafka, Flume, Logstash, Apache NiFi |
Уровень хранения (Raw / Landing) | Хранение необработанных данных в «сырых» форматах, обычно immutable | HDFS, Data Lake (на S3, Azure Blob), распределенные файловые системы |
Уровень промежуточной обработки / очистки (Processing / Staging) | Трансформация, очистка, выравнивание схем, объединение данных | Spark, Hadoop MapReduce, Flink, ETL-инструменты |
Уровень аналитики / агрегатов (Serving / OLAP слой) | Подготовленные агрегированные представления, витрины данных, аналитические таблицы | ClickHouse, Druid, Redshift, Snowflake |
Уровень потребления / визуализации | BI-дашборды, аналитика, ML, API, отчёты | Tableau, Power BI, Jupyter, Dash, встроенные UI, REST APIs |
Этапы внедрения Big Data - от идеи к рабочему pipeline
Этапы внедрения Big Data - от идеи к рабочему pipeline
3. Хранение (сырые данные, промежуточные данные):
4. Обработка и трансформация:
Этапы внедрения Big Data - от идеи к рабочему pipeline
5. Аналитика и подача результатов:
Альтернативные архитектурные парадигмы и архитектура данных
Data Mesh: децентрализованная модель управления данными. Основные принципы: data as product, self-serve platform, domain-oriented ownership, federated governance.
Data Fabric: архитектурный шаблон, направленный на интеграцию, автоматизацию и унификацию доступа к данным сквозь разные системы
Lakehouse: попытка объединить преимущества Data Lake и Data Warehouse: хранение сырых данных + поддержка SQL-анализа + управление транзакциями внутри хранилища
Проблемы и вызовы внедрения
Трудности, с которыми сталкиваются при внедрении:
Пример
Заключение
Заключение
Внедрение и обработка Big Data
Лекция 8