Published on

May 2, 2021

Comprendre la régression linéaire dans SQL Server Analysis Services

Dans le monde de l’exploration de données et de l’apprentissage automatique, l’algorithme de régression linéaire est l’une des techniques les plus fondamentales et les plus largement utilisées. Il consiste à générer une équation linéaire qui correspond le mieux à un ensemble de données contenant une variable indépendante et une variable dépendante. Dans cet article, nous explorerons comment configurer et visualiser les données à l’aide de l’algorithme de régression linéaire dans SQL Server Analysis Services.

Avant de plonger dans la mise en œuvre, comprenons d’abord le concept de régression linéaire. Imaginez que vous disposez d’un ensemble de données avec deux colonnes : AttributX et AttributY. AttributX représente la variable indépendante, tandis que AttributY représente la variable dépendante. L’objectif de la régression linéaire est de trouver la meilleure ligne d’ajustement qui représente la relation entre AttributX et AttributY.

Pour le démontrer, créons un jeu de données d’exemple avec 10 000 lignes dans SQL Server. Nous utiliserons le code T-SQL suivant :

SET NOCOUNT ON
GO

CREATE TABLE dbo.tblLinearRegression
(
   pkLinearRegressionExample int identity (1,1) primary key,
   AttributeX integer NOT NULL,
   AttributeY decimal(18, 2) NOT NULL
) ON PRIMARY

GO

declare @i as integer
set @i=1

while @i<=2500
begin
   insert into dbo.tblLinearRegression values (@i, @i * 0.5 + round((300-100)* rand() +100,2))
   insert into dbo.tblLinearRegression values (@i, @i * 0.5 + round((300-100)* rand() +100,2))
   insert into dbo.tblLinearRegression values (@i, @i * 0.5 + round((300-100)* rand() +100,2))
   insert into dbo.tblLinearRegression values (@i, @i * 0.5 + round((300-100)* rand() +100,2))
   set @i=@i+1
end
GO

Dans cet ensemble de données, les valeurs de la colonne AttributY seront réparties de manière aléatoire autour de la ligne y = 0.5x + 200. Cela signifie que la variable dépendante (AttributY) sera calculée en fonction de la variable indépendante (AttributX) à l’aide de cette équation linéaire.

Maintenant que nous avons notre jeu de données, passons à la configuration de l’algorithme de régression linéaire dans SQL Server Analysis Services. Nous utiliserons SQL Server Analysis Services 2014 pour cet exemple.

Tout d’abord, créez un nouveau projet d’analyse multidimensionnelle et d’exploration de données dans Visual Studio. Nommons le projet “LinearRegressionExample”.

Dans la fenêtre Explorateur de solutions, cliquez avec le bouton droit sur le dossier Sources de données et choisissez “Nouvelle source de données…” pour lancer l’Assistant Source de données. Suivez l’assistant pour créer une nouvelle source de données, ou choisissez-en une existante si disponible.

Ensuite, cliquez avec le bouton droit sur le dossier Vues de source de données dans l’Explorateur de solutions et choisissez “Nouvelle vue de source de données…” pour lancer l’Assistant Vue de source de données. Sélectionnez la source de données que nous avons créée précédemment et choisissez la table “tblLinearRegression” comme objet inclus.

Maintenant, cliquez avec le bouton droit sur le dossier Structures d’exploration de données dans l’Explorateur de solutions et sélectionnez “Nouvelle structure d’exploration de données…” pour lancer l’Assistant Exploration de données. Choisissez l’option “À partir d’une base de données relationnelle ou d’un entrepôt de données existant” et sélectionnez la régression linéaire Microsoft comme technique d’exploration de données.

Dans la page Spécifier les données d’entraînement, sélectionnez les colonnes appropriées pour les variables indépendantes et dépendantes. Dans notre cas, AttributX sera l’entrée (variable indépendante) et AttributY sera la variable prévisible (variable dépendante).

Une fois que vous avez terminé l’assistant, la structure d’exploration et le modèle apparaîtront dans l’Explorateur de solutions. À ce stade, vous pouvez déployer les objets SSAS sur le serveur spécifié dans les propriétés du projet.

Après avoir déployé les objets, vous pouvez afficher les résultats dans le Visualiseur de modèle d’exploration. Le visualiseur affichera l’équation de la ligne qui correspond le mieux aux données. Dans notre exemple, l’équation dérivée du modèle est y = 0.501x + 197.609, ce qui correspond approximativement à l’équation y = 0.5x + 200 que nous avons cherché à obtenir.

En superposant l’équation linéaire sur nos données d’origine, nous pouvons voir que la ligne correspond parfaitement à nos données.

En résumé, l’algorithme d’exploration de données de régression linéaire dans SQL Server Analysis Services est un outil puissant pour analyser et prédire les relations entre les variables. En comprenant les concepts et en suivant les étapes décrites dans cet article, vous pouvez exploiter cet algorithme pour obtenir des informations précieuses à partir de vos données.

Click to rate this post!
[Total: 0 Average: 0]

Let's work together

Send us a message or book free introductory meeting with us using button below.