В этом руководстве мы рассмотрим процесс построения решения Lakehouse с использованием Delta Lake и Azure Synapse Analytics. Мы сосредоточимся на задачах по внесению данных, связанных с этой архитектурой решения.
Архитектура решения
Прежде чем мы углубимся в детали, давайте посмотрим на архитектуру решения, которое мы будем строить:

Архитектура включает следующие шаги:
- Внесение данных в зону посадки в озере данных. Этот шаг может быть включен или не включен в ваше решение в зависимости от ваших источников данных. Azure Synapse Analytics может читать из разных источников данных и записывать в Delta Lake без необходимости промежуточной зоны посадки. Однако в некоторых случаях включение промежуточного слоя может быть предпочтительным по разным причинам.
- Внесение данных в таблицы уровня Bronze. Уровень Bronze соответствует необработанному слою или стадии в типичной реализации хранилища данных. Внесение данных происходит без каких-либо преобразований.
- Внесение данных в таблицы уровня Silver. Уровень Silver включает очищенные, обработанные и обогащенные данные, аналогичные операционному хранилищу данных (ODS) в традиционном решении хранилища данных.
- Внесение данных в таблицы уровня Gold. Уровень Gold представляет данные в размерной модели и служит источником для предприятий отчетности.
Подготовка среды
Прежде чем мы начнем, давайте подготовим среду, следуя этим шагам:
- Предоставьте Azure SQL DB на основе образца схемы AdventureWorks.
- Предоставьте универсальный учетную запись Azure Data Lake второго поколения.
- Предоставьте учетную запись Azure Synapse Analytics и укажите вышеупомянутую учетную запись хранилища в качестве хранилища по умолчанию.
- Добавьте пул Spark с последней версией Spark.
Внесение данных в зону посадки
Зона посадки – это начальное место назначения для внесения данных и не требует никаких преобразований. Мы можем автоматизировать процесс внесения данных в определенной степени. Давайте используем инструмент Copy Data в Synapse Analytics Studio для выполнения внесения данных в зону посадки:
- Выберите Azure SQL DB в качестве типа источника и укажите базу данных AdventureWorks.
- Выберите желаемые таблицы для внесения данных.
- Выберите Azure Blob Storage в качестве типа назначения и создайте подключение к учетной записи хранилища.
- Укажите путь к папке и суффикс имени файла для файлов зоны посадки.
- Выберите желаемые настройки формата файла, такие как JSON или Parquet.
- Назначьте имя конвейера и сохраните конфигурацию.
Повторите аналогичные шаги для извлечения оставшихся таблиц в желаемом формате.
После настройки конвейеров Synapse Analytics запустит их немедленно. Дайте им несколько минут для завершения и проверьте файлы JSON и Parquet в соответствующих папках назначения.
Следуя этим шагам, вы успешно можете выполнять внесение данных в зону посадки вашего решения Lakehouse с использованием Delta Lake и Azure Synapse Analytics.
Ожидайте предстоящих советов, где мы рассмотрим оставшиеся шаги по созданию масштабируемого решения Lakehouse.
Статья последний раз обновлена: 2021-11-16