Published on

June 22, 2021

Централизованная и децентрализованная архитектура данных в Data Mesh

В мире архитектур платформы данных одна концепция, которая выделяется, – это Data Mesh. В отличие от традиционных централизованных монолитных архитектур данных, Data Mesh представляет собой высокодецентрализованную распределенную архитектуру данных, которая акцентирует внимание на владении и моделях данных, специфичных для домена.

В централизованной архитектуре данных данные из разных доменов или предметных областей копируются в одно место, такое как data lake или data warehouse. Этот подход включает объединение данных из нескольких доменов для создания централизованных моделей данных и унифицированных представлений, обычно управляемых IT. С другой стороны, децентрализованная распределенная архитектура данных хранит данные в каждом домене, при этом каждый домен имеет свой собственный data lake и модели данных. Владение данными распределено между доменами.

Важно отметить, что децентрализованное решение обычно подходит для крупных компаний с сложными моделями данных, большим объемом данных и несколькими предметными областями данных. Для малых компаний децентрализованный подход может быть излишним. Кроме того, выбор между централизованными и децентрализованными архитектурами зависит от используемой технологии.

Одно из решений для обеспечения децентрализации – это виртуализация или федерация данных. Этот подход позволяет запросить и объединить данные из отдельных удаленных хранилищ данных. Существуют проприетарные программные продукты для виртуализации, такие как Denoto, Dremio, Starburst и Fraxses, которые поддерживают запросы к различным типам хранилищ данных.

Хотя использование полноценного проприетарного программного обеспечения для виртуализации имеет свои преимущества, есть также некоторые компромиссы, которые следует учесть. Среди них медленная производительность, проблемы с владением данными, отсутствие поддержки версионирования/истории данных и возможное влияние на производительность исходной системы.

Альтернативой полноценному проприетарному программному обеспечению для виртуализации является Serverless SQL pool в Azure Synapse Analytics, который может запрашивать данные из удаленных хранилищ данных. Еще одним вариантом для запроса данных из удаленных хранилищ является DirectQuery в Power BI, который поддерживает различные источники данных.

Стоит отметить, что продукт виртуализации данных часто используется, когда данные из нескольких источников копируются в различные хранилища данных внутри современного data warehouse или data fabric. Это позволяет запросить и объединить данные из этих различных хранилищ данных.

Если вы решите использовать виртуализацию данных для хранения данных на месте, а не копирования их в централизованное место, ваш data fabric и data mesh будут похожи, с основной разницей в том, что data mesh имеет стандарты и фреймворки для каждого домена, чтобы обрабатывать его данные как продукт с доменом в качестве владельца.

Выбор между централизованной и децентрализованной архитектурой данных зависит от конкретных потребностей и сложностей вашей организации. Важно учитывать такие факторы, как объем данных, модели данных и владение при принятии этого решения.

Каковы ваши мысли о централизованной и децентрализованной архитектуре данных? Поделитесь своими мнениями в комментариях ниже!

Следите за новыми статьями на эту тему!

Оригинальная статья от James Serra: Data Mesh: Централизованная и децентрализованная архитектура данных

Click to rate this post!
[Total: 0 Average: 0]

Let's work together

Send us a message or book free introductory meeting with us using button below.