Published on

March 14, 2017

Exploration des concepts de SQL Server : Azure Data Lake Analytics

Êtes-vous à la recherche d’un puissant service d’analyse qui vous permet de traiter efficacement de gros volumes de données ? Ne cherchez pas plus loin que Azure Data Lake Analytics (ADLA). ADLA est un service d’analyse distribué basé sur Apache YARN qui permet aux développeurs d’être immédiatement productifs sur les big data.

Une des principales caractéristiques d’ADLA est sa capacité à exécuter automatiquement des tâches en parallèle dans le cloud et à s’adapter pour traiter des données de toutes tailles. Cette évolutivité est obtenue en ajustant simplement un curseur, en veillant à ce que les données et les tâches soient suffisamment grandes et complexes pour fournir un parallélisme sans surdimensionnement et sans coûts inutiles. Une fois la tâche terminée, ADLA réduit automatiquement les ressources, vous assurant de ne payer que la puissance de traitement utilisée.

ADLA est conçu pour être convivial, vous permettant de tirer parti de vos compétences existantes en SQL ou en .NET. Que vous soyez un administrateur de base de données, un ingénieur de données, un architecte de données ou un scientifique des données, vous pouvez rapidement commencer et être productif avec ADLA. Le service fonctionne parfaitement avec des données structurées et non structurées, vous permettant d’analyser diverses sources de données telles que les sentiments sociaux, les flux de clics sur le web, les journaux de serveur, les appareils, les capteurs, et bien plus encore.

Une des fonctionnalités phares d’ADLA est l’inclusion d’un nouveau langage appelé U-SQL. U-SQL est un langage de big data qui combine la facilité d’utilisation de SQL avec la puissance expressive de C#. Grâce à la capacité de requête distribuée évolutive d’U-SQL, vous pouvez analyser efficacement des données dans Azure Data Lake Store et sur Azure Blob Storage, les serveurs SQL dans Azure, Azure SQL Database et Azure SQL Data Warehouse.

U-SQL est basé sur les enseignements tirés de l’expérience interne de Microsoft avec SCOPE et des langages existants tels que T-SQL, ANSI SQL et Hive. Il vous permet de consulter les données là où elles se trouvent, éliminant ainsi la nécessité de copier toutes les données dans un seul emplacement. Cela est réalisé grâce à des requêtes fédérées, où la requête est “poussée” vers la source de données et exécutée sur cette source de données, seuls les résultats étant renvoyés.

Certains des principaux avantages d’U-SQL incluent :

  • Éviter le besoin de déplacer de grandes quantités de données sur le réseau entre les magasins
  • Fournir une vue unique des données indépendamment de leur emplacement physique
  • Minimiser les problèmes de prolifération des données causés par la maintenance de copies multiples
  • Utiliser un seul langage de requête pour toutes les données
  • Permettre à chaque magasin de données de maintenir sa propre souveraineté
  • Envoyer des expressions SQL avec des filtres et des jointures vers des sources SQL distantes

U-SQL prend en charge différents formats de données, notamment JSON, texte, CSV, TSV et images (jpeg). De plus, les clients peuvent écrire leurs propres extracteurs personnalisés pour gérer des formats de données spécifiques.

Il convient de noter que U-SQL est similaire à PolyBase, mais avec quelques différences clés. Alors que PolyBase étend T-SQL aux données non structurées via une vue schématisée, U-SQL fonctionne nativement sur des données non structurées et virtualise l’accès à d’autres sources de données SQL. U-SQL prend également en charge plus de formats et vous permet d’utiliser des fonctions C# intégrées, des fonctions définies par l’utilisateur (UDF), des opérateurs définis par l’utilisateur (UDO) et des agrégateurs définis par l’utilisateur (UDAGG).

Si vous êtes intéressé par l’exploration plus approfondie d’U-SQL, Microsoft propose une documentation et des tutoriels approfondis pour vous aider à démarrer. Vous pouvez également trouver des vidéos qui démontrent la puissance d’U-SQL dans le traitement de gros volumes de données à l’aide de C#.

Azure Data Lake Analytics est un véritable atout pour toute personne travaillant avec de gros volumes de données. Sa capacité à s’adapter et à traiter des données de toutes tailles, combinée à la puissance d’U-SQL, en fait un outil précieux pour les professionnels des données dans différents rôles. Que vous analysiez les sentiments sociaux, les flux de clics sur le web ou tout autre type de données, ADLA et U-SQL ont tout ce qu’il vous faut.

Alors pourquoi attendre ? Commencez à explorer Azure Data Lake Analytics et libérez le potentiel de vos gros volumes de données dès aujourd’hui !

Click to rate this post!
[Total: 0 Average: 0]

Let's work together

Send us a message or book free introductory meeting with us using button below.