Descente de Gradient

Table des Matières

Introduction

La descente de gradient est un algorithme d'optimisation itératif qui ajuste le vecteur de variables \( \mathbf{x} = \begin{pmatrix} x_1 \\ x_2 \\ \dots \\ x_n \end{pmatrix} \) pour trouver le minimum local d'une fonction différentiable \( f(\mathbf{x}) \). En partant d'une estimation initiale \( \mathbf{x}_0 \) du vecteur \( \mathbf{x} \), il utilise le gradient de la fonction pour faire des pas vers le minimum, contrôlé par le taux d'apprentissage \( r \). Le processus continue jusqu'à ce que les changements dans les valeurs de \( \mathbf{x} \) soient suffisamment petits, que la magnitude du gradient soit proche de zéro ou qu'un autre critère d'arrêt soit atteint.

Formule de Mise à Jour de la Descente de Gradient

L'idée principale de la descente de gradient est d'ajuster itérativement les variables pour trouver le minimum d'une fonction. Cet ajustement est guidé par la formule de mise à jour : \[ \mathbf{x}_{k+1} = \mathbf{x}_k - r \nabla f(\mathbf{x}_k) \] où \( \mathbf{x} \) est un vecteur de variables, \( r \) tel que \( r \gt 0 \) est le taux d'apprentissage, et \( \nabla f(\mathbf{x}_k) \) est le gradient de la fonction \( f \) à \( \mathbf{x} = \mathbf{x}_k \) tel que : \[ \nabla f(\mathbf{x}) = \begin{pmatrix} \dfrac{\partial f}{\partial x_1} \\ \dfrac{\partial f}{\partial x_2} \\ \dots \\ \dfrac{\partial f}{\partial x_n}\\ \end{pmatrix} \]
La formule de mise à jour découle du concept selon lequel le gradient \( \nabla f(\mathbf{x}) \) pointe dans la direction de l'augmentation la plus forte de la fonction \( f \). Pour minimiser \( f \), nous nous déplaçons dans la direction opposée au gradient. Le taux d'apprentissage \( r \) détermine la taille des pas que nous faisons dans cette direction.

Description Détailée de la Descente de Gradient

1. Initialisation :
- Commencez avec une estimation initiale pour le vecteur de variables \( \mathbf{x} \). Que cette valeur initiale soit \( \mathbf{x}_0 \).
- Choisissez un taux d'apprentissage \( r \), qui contrôle la taille des pas vers le minimum.
2. Calcul du Gradient :
- Pour la fonction \( f(\mathbf{x}) \), calculez le gradient \( \nabla f(\mathbf{x}) \).
- Évaluez ce gradient à la valeur actuelle de \( \mathbf{x} = \mathbf{x}_k \). Notez le gradient à l'itération \( k \) comme \( \nabla f(\mathbf{x}_k) \).
3. Règle de Mise à Jour :
- Utilisez la formule de mise à jour pour ajuster les valeurs de \( \mathbf{x} \) : \[ \mathbf{x}_{k+1} = \mathbf{x}_k - r \nabla f(\mathbf{x}_k) \] - Ici, \( \mathbf{x}_{k+1} \) est la valeur mise à jour de \( \mathbf{x} \) après une itération.
4. Itération :
- Répétez le processus de calcul du gradient et de mise à jour des valeurs de \( \mathbf{x} \) jusqu'à ce qu'un critère d'arrêt soit atteint. Le critère d'arrêt peut être :
- Un nombre maximum d'itérations. - Le changement dans les valeurs de \( \mathbf{x} \) entre les itérations est plus petit qu'un seuil prédéfini.
- La magnitude du gradient \( \|\nabla f(\mathbf{x}_k)\| \) est plus petite qu'un seuil prédéfini.
5. Convergence :
- Une fois que le critère d'arrêt est satisfait, la valeur de \( \mathbf{x} \) devrait être proche de la valeur qui minimise la fonction \( f(\mathbf{x}) \).
Un calculateur pour visualiser la descente de gradient est inclus et peut être utilisé pour acquérir une compréhension approfondie de l'algorithme.
Un autre Calculateur de Descente de Gradient pour étudier la convergence est également inclus.