Published on

June 29, 2024

Построение решения Lakehouse с использованием Delta Lake и Azure Synapse Analytics

В этом руководстве мы рассмотрим процесс построения решения Lakehouse с использованием Delta Lake и Azure Synapse Analytics. Мы сосредоточимся на задачах по внесению данных, связанных с этой архитектурой решения.

Архитектура решения

Прежде чем мы углубимся в детали, давайте посмотрим на архитектуру решения, которое мы будем строить:

Архитектура решения

Архитектура включает следующие шаги:

  1. Внесение данных в зону посадки в озере данных. Этот шаг может быть включен или не включен в ваше решение в зависимости от ваших источников данных. Azure Synapse Analytics может читать из разных источников данных и записывать в Delta Lake без необходимости промежуточной зоны посадки. Однако в некоторых случаях включение промежуточного слоя может быть предпочтительным по разным причинам.
  2. Внесение данных в таблицы уровня Bronze. Уровень Bronze соответствует необработанному слою или стадии в типичной реализации хранилища данных. Внесение данных происходит без каких-либо преобразований.
  3. Внесение данных в таблицы уровня Silver. Уровень Silver включает очищенные, обработанные и обогащенные данные, аналогичные операционному хранилищу данных (ODS) в традиционном решении хранилища данных.
  4. Внесение данных в таблицы уровня Gold. Уровень Gold представляет данные в размерной модели и служит источником для предприятий отчетности.

Подготовка среды

Прежде чем мы начнем, давайте подготовим среду, следуя этим шагам:

  1. Предоставьте Azure SQL DB на основе образца схемы AdventureWorks.
  2. Предоставьте универсальный учетную запись Azure Data Lake второго поколения.
  3. Предоставьте учетную запись Azure Synapse Analytics и укажите вышеупомянутую учетную запись хранилища в качестве хранилища по умолчанию.
  4. Добавьте пул Spark с последней версией Spark.

Внесение данных в зону посадки

Зона посадки – это начальное место назначения для внесения данных и не требует никаких преобразований. Мы можем автоматизировать процесс внесения данных в определенной степени. Давайте используем инструмент Copy Data в Synapse Analytics Studio для выполнения внесения данных в зону посадки:

  1. Выберите Azure SQL DB в качестве типа источника и укажите базу данных AdventureWorks.
  2. Выберите желаемые таблицы для внесения данных.
  3. Выберите Azure Blob Storage в качестве типа назначения и создайте подключение к учетной записи хранилища.
  4. Укажите путь к папке и суффикс имени файла для файлов зоны посадки.
  5. Выберите желаемые настройки формата файла, такие как JSON или Parquet.
  6. Назначьте имя конвейера и сохраните конфигурацию.

Повторите аналогичные шаги для извлечения оставшихся таблиц в желаемом формате.

После настройки конвейеров Synapse Analytics запустит их немедленно. Дайте им несколько минут для завершения и проверьте файлы JSON и Parquet в соответствующих папках назначения.

Следуя этим шагам, вы успешно можете выполнять внесение данных в зону посадки вашего решения Lakehouse с использованием Delta Lake и Azure Synapse Analytics.

Ожидайте предстоящих советов, где мы рассмотрим оставшиеся шаги по созданию масштабируемого решения Lakehouse.

Статья последний раз обновлена: 2021-11-16

Click to rate this post!
[Total: 0 Average: 0]

Let's work together

Send us a message or book free introductory meeting with us using button below.