Un calculateur de descente de gradient pour le modèle de régression linéaire \(y = ax + b\) est présenté. Les valeurs des coefficients \(a\) et \(b\) sont comparées à celles calculées en utilisant la méthode analytique basée sur l' ajustement linéaire des moindres carrés. Des comparaisons des résultats sont également présentées à des fins éducatives.
Supposons que nous ayons un ensemble de \( n \) points de données \( (x_i , y_i) \) et que nous devions trouver un modèle linéaire de la forme \(y = ax + b\) en minimisant la somme
\[ \Sigma^{n}_{i=1}(y_i - (a \cdot x_i + b))^2 \]
qui est la somme des distances entre les points de données et les points du modèle linéaire comme illustré ci-dessous.
Remarque : la somme des carrés est utilisée au lieu de la valeur absolue pour des raisons pratiques lors de la dérivation des dérivées partielles et d'autres calculs analytiques.
Nous présentons maintenant deux méthodes pour calculer les coefficients \( a \) et \( b \) inclus dans le modèle linéaire.
La descente de gradient est un algorithme d'optimisation itératif qui trouve les paramètres \(a\) et \(b\) en minimisant la fonction de coût définie par :
\[ J(a, b) = (1/2n) \Sigma^{n}_{i=1}(y_i - (a \cdot x_i + b))^2 \] Les dérivées partielles de cette fonction, nécessaires pour les règles de mise à jour, sont données par : \[ \dfrac{\partial J}{\partial a} = (1/n) \Sigma^{n}_{i=1}(- x_i (y_i - (a x_i + b))) \] \[ \dfrac{\partial J}{\partial b} = (1/n) \Sigma^{n}_{i=1}(-(y_i - (a x_i + b ))) \]Les règles de mise à jour des paramètres \( a \) et \( b \) sont :
\[ a_{k+1} = a_k - r \dfrac{\partial J}{\partial a}|_{a=a_k,b=b_k} = a_k - r (1/n) \Sigma^{n}_{i=1}(-x_i (y_i - (a_k * x_i + b_k))) \] \[ b_{k+1} = b_k - r \dfrac{\partial J}{\partial b}|_{a=a_k,b=b_k} = b_k - r (1/n) \Sigma^{n}_{i=1}(-(y_i - (a_k x_i + b_k))) \]Où
La méthode analytique basée sur l'ajustement linéaire des moindres carrés utilise des formules en forme fermée dérivées de la minimisation de la somme des erreurs au carré. Les formules des paramètres \(a\) et \(b\) sont :
\[ a = \dfrac{(n \cdot \displaystyle \Sigma^{n}_{i=1} (x_i \cdot y_i) - \Sigma^{n}_{i=1} x_i \cdot \Sigma^{n}_{i=1} y_i)}{ (n \cdot \Sigma^{n}_{i=1} (x_i^2) - (\Sigma^{n}_{i=1}x_i)^2) } \] \[ b = \dfrac{(\Sigma^{n}_{i=1}y_i - a \cdot \Sigma^{n}_{i=1}x_i) }{ n } \]Le but de ce calculateur est d'étudier les effets du taux d'apprentissage \( r \) et des valeurs initiales des coefficients \( a \) et \( b \) sur la convergence du processus d'itération basé sur l'algorithme (formules de mise à jour) de la descente de gradient.
Saisissez le nombre de points \( n \) et cliquez sur "Générer des points" qui génèrera aléatoirement \( n \) points, puis testez pour différentes valeurs de \( r \), \( a_0 \) et \( b_0 \).
Le processus d'itération converge vers les solutions si les dérivées partielles \( \dfrac{\partial J}{\partial a} \) et \( \dfrac{\partial J}{\partial b} \) approchent zéro.
Le nombre maximum d'itérations peut également être augmenté si nécessaire, mais les calculs peuvent prendre du temps.
Graphique de dispersion (rouge) des points de données ainsi que le graphique de \( y = a x + b \) en bleu pour la méthode de descente de gradient et en vert pour la méthode des moindres carrés linéaires.
Saisir le nombre de points :
\( n = \)
\( \dfrac{\partial J}{\partial a} \) =
\( \dfrac{\partial J}{\partial b} \) =
Résultats de la méthode de descente de gradient\(a = \)
\(b = \)
Résultats de la méthode des moindres carrés linéaires (en utilisant les formules pour \( a \) et \( b \) ci-dessus)\(a = \)
\(b = \)
Valeur minimale de la fonction de coût \( J(a, b) \):
Légende du Graphique : Bleu pour la descente de gradient Vert pour la méthode des moindres carrés linéaires.