Azure Data Factory – это облачная служба интеграции, которая позволяет передавать данные из различных источников облачных и локальных хранилищ в различные места хранения данных. Эта служба аналогична SQL Server Integration Service (SSIS), которая является инструментом ETL для локального использования, предоставляемым Microsoft.
SSIS широко используется для проектирования и разработки надежных процессов ETL для извлечения, преобразования и загрузки данных в хранилища данных или другие системы хранения. В подобной манере Microsoft запустила Azure Data Factory как облачную службу для определения рабочих процессов для передачи данных и преобразования.
Azure Data Factory не только поддерживает передачу данных, но также предоставляет богатый набор преобразований, таких как производные столбцы, сортировка данных и объединение данных. Однако она отличается от SSIS в том, как данные перемещаются от источника к месту назначения. Azure Data Factory поддерживает потоки Extract-Load и Transform-Load перед публикацией данных для использования, в отличие от традиционного потока Extract-Transform-and-Load.
Компоненты Azure Data Factory
Azure Data Factory состоит из четырех основных компонентов:
- Пайплайн: Пайплайн – это рабочий процесс, управляемый данными, который может состоять из одного или нескольких рабочих процессов. Фабрика может иметь один или несколько пайплайнов. Каждый рабочий процесс содержит одну или несколько действий, которые должны быть выполнены, что позволяет лучше управлять группой действий как набором.
- Действие: Действие – это действие, которое должно быть выполнено с данными. Существуют два типа действий: действия перемещения данных и действия преобразования данных. Azure Data Factory также предоставляет гибкость настраивать задачи с помощью .Net.
- Наборы данных: Набор данных – это данные, на которые ссылается действие. Действие может ссылаться на один или несколько наборов данных в качестве входных данных и на один или несколько наборов данных в качестве выходных данных.
- Связанные службы: Связанная служба помогает подключиться к источнику данных. После установления соединения можно выполнить действие с набором данных, доступным на источнике данных. Эта связанная служба аналогична строке подключения.
Оркестрация данных с использованием Azure Data Factory
Для передачи или перемещения данных от источника к месту назначения необходимо определить рабочий процесс. Этот рабочий процесс, управляемый данными, известен как пайплайн. Пайплайн состоит из трех шагов:
- Подключение и сбор: Это первая часть потока, известная как Extract-Load. В этом шаге данные собираются из различных источников в централизованное облачное хранилище. Источниками данных могут быть облачное хранилище, локальное хранилище или их комбинация. Для подключения к источникам используются связанные службы, и определяется пайплайн с одним или несколькими действиями для выполнения операций с исходными наборами данных.
- Преобразование и обогащение: В этом шаге достигается обогащение данных. Все данные, собранные на предыдущем шаге в облачном хранилище, доступны для применения различных преобразований и обогащения. Можно применять бизнес-правила для обогащения данных и их подготовки к публикации.
- Публикация: Это последний шаг в любом определенном пайплайне, где публикуется преобразованные данные. Окончательные данные отправляются в место назначения хранения, известное как источник данных. Эти опубликованные данные затем становятся доступными для использования пользователями или членами бизнеса.
Планирование пайплайна
После создания пайплайна его можно запланировать для выполнения. Это планирование позволяет более часто публиковать данные, делая их доступными для использования в режиме реального времени. Доступные частоты выполнения пайплайна: минута, час, день, неделя и месяц.
Azure Data Factory – это облачная служба интеграции данных, которая позволяет преобразовывать, обогащать и публиковать данные, извлеченные из различных источников. Она предоставляет возможность загружать данные из различных источников, преобразовывать и анализировать данные с использованием таких сервисов, как Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics и Azure Machine Learning, а также публиковать выходные данные в хранилища данных, такие как Azure SQL Data Warehouse, Azure Cosmos DB и Azure Table Storage для использования бизнес-пользователями и пользователями приложений.
В будущих статьях мы более подробно рассмотрим функциональность Azure Data Factory и проведем несколько практических упражнений.
Посмотреть все статьи от Anoop Kumar