Архитектура

Архитектура data platform: DWH, Lakehouse, BI и AI-слой

Современная data platform — это не выбор между DWH и data lake, а слоистая архитектура с разделением сырых данных, обработанных моделей, BI-витрин и AI/ML-слоя. Эта статья разбирает компоненты, типичные ошибки построения и подход к зрелой data platform для банка, оператора или промышленного предприятия.

Обсудить задачу

Эта архитектурная статья разбирает современную data platform как слоистую архитектуру с DWH, data lake, BI и AI/ML — без выбора «или то, или другое», с фазовым roadmap и реалистичными ожиданиями.

В чём архитектурный вызов

Большинство крупных организаций региона имеют DWH, построенный 5-10 лет назад на основе классических OLAP-инструментов. Параллельно появляются data lake-решения, AI/ML-проекты, отдельные BI-инструменты у каждого бизнес-блока. Без архитектурного видения это превращается в хаос параллельных инициатив с дублированием данных, противоречивыми отчётами и невозможностью масштабировать AI/ML. Современная data platform решает задачу через слоистую архитектуру с явным разделением ответственности слоёв.

Какие системы, потоки и команды вовлечены

  • Источники данных — операционные системы (АБС, BSS, CRM, ERP)
  • Слой ингестии — стриминг (Kafka, Kinesis) и пакетные процессы (ETL/ELT)
  • Хранилище сырых данных (raw layer) — data lake на объектном хранилище
  • Слой обработки и моделирования (refined layer) — преобразованные данные с бизнес-логикой
  • Аналитический слой (curated layer) — витрины для BI и аналитиков
  • AI/ML слой — feature store, обучение моделей, инференс
  • Слой управления — каталог данных, lineage, контроль качества, безопасность

Типичные архитектурные ошибки

  • Выбор «или DWH, или data lake» — современный подход требует обоих, как разных слоёв одной платформы
  • Отсутствие единой модели данных — каждый бизнес-блок строит свои витрины с противоречивой бизнес-логикой
  • ETL без контроля качества — данные приходят в DWH с ошибками, отчёты теряют доверие
  • AI/ML на данных, недоступных аналитикам — модели работают на одних данных, отчётность на других
  • Отсутствие feature store — каждая ML-команда заново строит фичи, дублирование работы и противоречия
  • BI-инструменты у каждого бизнес-блока без общего слоя — расходятся метрики, расходятся определения

Возможные подходы

  • Lakehouse — единая платформа на основе объектного хранилища с поддержкой ACID-транзакций (Databricks, Snowflake, Apache Iceberg). Современный подход, объединяющий DWH и data lake
  • Классический DWH + Data Lake — отдельные системы для разных задач. Зрелый подход для крупных организаций с устоявшимися процессами
  • Cloud-native data platform — managed services облака (BigQuery, Redshift, Synapse). Быстрое внедрение, операционная нагрузка ниже
  • Hybrid — DWH для регулируемых данных и отчётности, data lake для аналитики и AI/ML

Как обойтись без замены ядра

Data platform строится поверх существующих операционных систем, не заменяет их. АБС, BSS, ERP остаются источниками истины — data platform потребляет события и снимки. При устаревании одной из источников её можно заменить без переделки платформы. Замена существующего DWH на новую платформу — отдельная задача, обычно идущая параллельно с переделкой моделей и витрин.

Риски, зависимости, ограничения

  • Качество данных в источниках — платформа не исправит мусор, но сделает его более видимым
  • Каталог данных и lineage — без них пользователи не могут найти и понять данные
  • Безопасность и контроль доступа — особенно критично для банков и государственных организаций
  • Зависимость от облачного провайдера при выборе cloud-native — миграция дорого, выбор требует осознанности
  • Кадры аналитиков, инженеров данных, ML-специалистов — конкуренция с крупными технокомпаниями

Как выглядит фазовый путь

  1. Месяцы 1-4: дизайн целевой архитектуры, выбор технологий, формирование команды
  2. Месяцы 5-12: построение слоёв ингестии, raw, refined для приоритетных доменов (обычно клиенты + продукты + операции)
  3. Месяцы 13-18: BI-слой с едиными определениями метрик, миграция критичных дашбордов
  4. Месяцы 19-24: AI/ML слой с feature store, первые ML-модели в продакшене
  5. После 24 месяцев — расширение по доменам, постепенная миграция legacy DWH/витрин
← Назад

Готовы обсудить вашу задачу?

Расскажите, что не работает или что нужно построить. Первый разговор — без обязательств.

Обычно отвечаю в течение нескольких часов

Обсудить задачу
Выберите удобный способ связи
Telegram
Быстрый ответ
Быстро
WhatsApp
Голос и документы
📞
Позвонить
+998 99 838-11-88