Published on

October 27, 2021

Изучение Azure Databricks: мощная платформа аналитики данных

Azure Databricks – это платформа аналитики данных, оптимизированная для облачных сервисов Microsoft Azure. Она предлагает три рабочих среды: Databricks SQL, Databricks Data Science & Engineering и Databricks Machine Learning.

Databricks SQL

Databricks SQL позволяет пользователям выполнять быстрые ad-hoc SQL-запросы в data lake. Он поддерживает несколько типов визуализации для изучения результатов запросов и позволяет создавать панели инструментов для обмена информацией. Также можно настроить оповещения, чтобы получать уведомления, когда поле достигает порогового значения. Databricks SQL в настоящее время находится в режиме предварительного просмотра.

Databricks Machine Learning

Databricks Machine Learning – это интегрированная платформа машинного обучения “от начала до конца”. Она предлагает такие функции, как ручное или автоматическое обучение моделей с помощью AutoML, отслеживание параметров обучения и моделей с использованием отслеживания MLflow, создание таблиц признаков для обучения и вывода моделей, а также управление и обслуживание моделей с использованием реестра моделей MLflow. Databricks Machine Learning также находится в режиме предварительного просмотра.

Databricks Data Science and Engineering

Databricks Data Science and Engineering – это аналитическая платформа на основе Apache Spark. Она позволяет пользователям считывать данные из различных источников, таких как Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB или Azure SQL Data Warehouse, и обрабатывать данные с использованием Spark. Она включает в себя полные возможности и технологии кластера Apache Spark с открытым исходным кодом.

Реализация Azure Databricks

Чтобы начать работу с Azure Databricks, выполните следующие шаги:

  1. Создайте ресурс Databricks в портале Azure.
  2. Запустите рабочую область Databricks.
  3. Выберите желаемую среду (например, Data Science & Engineering).
  4. Создайте кластер для выполнения задач по инженерии данных, науке о данных и аналитике данных.
  5. Создайте блокнот для написания кода, визуализации данных и документирования результатов.
  6. Импортируйте файлы данных в рабочую область с помощью файловой системы Databricks (DBFS).
  7. Выполняйте команды в блокноте для обработки и анализа данных.

Пример: обработка файла CSV

Давайте рассмотрим пример обработки файла CSV в Azure Databricks:

  1. Создайте DataFrame из файла CSV с помощью функции spark.read.format("csv").load().
  2. Просмотрите схему DataFrame с помощью функции printSchema().
  3. Отобразите первые несколько записей DataFrame с помощью функции display().

Заключение

Azure Databricks – это мощная платформа аналитики данных, которая позволяет сотрудничать и предоставляет единое окружение для команд по работе с данными. Она предлагает широкий спектр функций для SQL-запросов, науки о данных, инженерии и машинного обучения. В этой статье мы рассмотрели основные компоненты Azure Databricks и научились обрабатывать файл CSV. Следите за новыми статьями о Azure Databricks, чтобы изучить его продвинутые возможности и команды.

Click to rate this post!
[Total: 0 Average: 0]

Let's work together

Send us a message or book free introductory meeting with us using button below.