Lors de la conception d’un compte Azure Data Lake Storage Gen2, il y a plusieurs considérations à prendre en compte. Cet article explorera les meilleures pratiques pour la conception d’un compte Azure Data Lake Storage Gen2, en abordant des sujets tels que les couches du lac de données, les considérations de conception pour les zones, les répertoires/fichiers et les options de sécurité.
Couches du lac de données
Le lac de données est composé de différentes couches, notamment les environnements, les comptes de stockage, les systèmes de fichiers, les zones, les répertoires et les fichiers. Chaque couche joue un rôle crucial dans la conception et l’architecture globale du lac de données.
Environnement
La couche d’environnement définit la couche supérieure du lac de données. Elle comprend différents environnements tels que DEV, QA et PROD, chacun pouvant nécessiter un ou plusieurs comptes de stockage ADLS2. Le processus peut être orchestré à l’aide des pipelines Azure DevOps.
Compte de stockage
Lors de la création d’un compte Azure Data Lake Storage, plusieurs propriétés doivent être configurées. Ces propriétés comprennent :
- Niveau de performance : Choisissez entre des comptes de stockage standard, qui offrent un stockage en vrac à moindre coût, ou des comptes de stockage premium, qui offrent des performances constantes et à faible latence.
- Type de compte : Sélectionnez entre des comptes de stockage à usage général ou des comptes de stockage de blob, en fonction de vos besoins en stockage.
- Réplication : Choisissez une stratégie de réplication qui correspond à vos exigences en matière de durabilité.
- Restauration à un instant donné : Activez la restauration à un instant donné pour restaurer les conteneurs à un état antérieur.
- Transfert sécurisé requis : Améliorez la sécurité de votre compte de stockage en n’autorisant que les demandes via une connexion sécurisée.
- Accès public autorisé : Décidez si vous autorisez l’accès anonyme aux blobs dans le compte de stockage.
Zones, Répertoires & Fichiers
Au niveau des dossiers et des fichiers, les conteneurs du compte de stockage définissent les zones, les répertoires et les fichiers. Il est recommandé de suivre une structure de dossiers spécifique pour une interrogation analytique optimisée. Chaque système source doit se voir accorder des autorisations d’écriture au niveau du dossier DataSource, en veillant à ce que les autorisations soient héritées lors de la création de nouveaux dossiers et fichiers quotidiens.
Voici un exemple de structure de dossiers recommandée :
\Brut\DataSource\Entité\AAAA\MM\JJ\Fichier.extension
Pour les sous-zones sensibles dans la couche brute, il est conseillé de les séparer par des dossiers de premier niveau. Cela permet de définir des stratégies de gestion du cycle de vie distinctes en fonction de la correspondance des préfixes.
Sécurité
La sécurité est un aspect essentiel de la conception d’un lac de données. Voici quelques fonctionnalités de sécurité à prendre en compte :
RBAC (Contrôle d’accès basé sur les rôles)
RBAC offre des autorisations de plan de contrôle et de plan de données. Les autorisations de plan de contrôle accordent aux principaux de sécurité des droits au niveau des ressources Azure, tandis que les autorisations de plan de données accordent des autorisations au niveau des fichiers et des dossiers. Il est recommandé d’utiliser une combinaison de RBAC et de listes de contrôle d’accès (ACL) pour une sécurité efficace.
Listes de contrôle d’accès (ACL)
Les ACL contrôlent l’accès aux fichiers et aux dossiers dans le lac de données. Il est conseillé d’attribuer aux principaux de sécurité un rôle de lecteur RBAC au niveau du compte de stockage/conteneur, puis d’appliquer des ACL restrictives et sélectives au niveau des fichiers et des dossiers.
Signature d’accès partagé (SAS)
La SAS permet d’accorder des capacités d’accès limitées aux conteneurs aux utilisateurs. Elle est utile pour accorder un accès temporaire à votre compte de stockage et gérer différents niveaux d’accès pour les utilisateurs au sein ou en dehors de votre organisation.
Chiffrement des données
Les données stockées dans Azure Data Lake Storage Gen2 sont automatiquement chiffrées au repos et en transit. Il est recommandé de laisser le service Data Lake gérer le chiffrement, sauf en cas de besoin spécifique de clés gérées par l’utilisateur.
Transport réseau
Les règles de réseau peuvent être configurées pour limiter l’accès à votre compte de stockage à partir d’adresses IP ou de sous-réseaux spécifiés. Des points de terminaison privés peuvent également être créés pour sécuriser tout le trafic entre votre réseau virtuel (VNet) et le compte de stockage via une liaison privée.
En suivant ces meilleures pratiques, vous pouvez vous assurer de disposer d’un compte Azure Data Lake Storage Gen2 bien conçu et sécurisé qui répond à vos besoins spécifiques.
Article mis à jour pour la dernière fois le : 2021-04-21