Méthode des moindres carrés
La méthode des moindres carrés est fréquemment utilisée dans les cours avancés des domaines STEM. La méthode ajuste une ligne aux données de mesure pour expliquer la relation avec un phénomène. Le phénomène peut être tout, depuis une expérience physique contrôlée jusqu'à une série d'observations dans le monde réel, par exemple en psychologie ou en économie. Les étudiants ayant des ambitions de carrière comme analyste ou scientifique des données obtiennent maintenant leur premier outil pour travailler avec la modélisation.
Tous les modèles sont défectueux, mais certains sont utiles.
Disons que nous avons des données de mesure au format , c'est-à-dire, pour chaque observation , nous avons un ensemble de variables que nous voulons relier à la valeur respective à . Nous aimerions exprimer cette relation comme une fonction qui explique au mieux la relation entre et . Nous ne pouvons jamais exiger que notre modèle nous donne pour un certain , car tous les modèles sont erronés, mais certains sont utiles. Par conséquent, nous utilisons le signe d'approximation de la manière suivante :
Si est une application linéaire, nous pouvons dériver ce qui suit des équations ci-dessus :
Ce système d'équations est pratiquement surdéterminé, car représente les constantes de , qui sont généralement seulement quelques-unes en nombre, tandis que le nombre de lignes peut être des centaines, des milliers ou même des millions (pensez aux quantités de données avec lesquelles Google et Facebook travaillent). Ainsi, il n'y a pas de solutions à cette équation. D'autre part, nous cherchons les valeurs de qui ajustent de manière optimale la fonction aux données de mesure.
La méthode des moindres carrés minimise la distance entre les points et la ligne.
Une définition mathématique de ce qui constitue une fonction "ajustée de manière optimale" est de trouver les valeurs de qui génèrent le moindre écart, ou "erreur", par rapport aux données de mesure. Nous définissons l'erreur comme :
que nous reconnaissons comme la distance entre et . Nous sommons cette erreur pour toutes les observations pour obtenir l'erreur totale. En bref :
Nous voulons trouver la fonction qui minimise l'erreur .
Nous définissons l'erreur comme la somme de toutes les distances entre les points et la ligne.
Nous avons dit que la méthode des moindres carrés minimise la distance entre les points et la ligne. Nous pouvons réécrire le système d'équations à l'équation célèbre :
où les constantes que nous voulons trouver sont la variable (notation conventionnelle pour l'inconnu) et la droite est écrite comme la droite conventionnelle (conventionnellement ce qui est connu).
C'est un problème d'optimisation et appartient à une branche complètement séparée des mathématiques. Cependant, c'est un problème d'optimisation très simple car la solution est unique et facile à calculer. Sans preuve ni justification, nous montrons maintenant le calcul. Nous multiplions par des deux côtés depuis la gauche.
L'équation s'appelle l'équation normale et est un système quadratique dont la solution unique est les valeurs des constantes qui minimisent la distance entre les points et la ligne. Cette méthode élégante est minimisée à l'expression suivante :
Exemple 1. Ligne droite
Disons que nous avons des données de mesure sur la taille des gens et la pointure des chaussures au format :
où est la pointure et est la taille. Ces données de mesure semblent croître dans une relation linéaire entre les axes, ce qui est logique. De plus grands pieds se trouvent généralement sur des personnes plus grandes, et vice versa. Cela justifie l'ajustement d'une ligne droite aux données de mesure, à savoir pour certaines valeurs des constantes et , nous devrions être en mesure d'obtenir une ligne qui explique la relation :
Nous avons points de mesure, donc nous pouvons donc mettre cela en place comme un système d'équations linéaires avec lignes :
Nous pouvons écrire ceci sous forme de matrice augmentée :
Ce système est appelé surdéterminé car il y a plus d'équations que d'inconnues, ou de manière équivalente, les lignes sont plus nombreuses que les colonnes. (Remarque : un système sous-déterminé s'applique au scénario opposé, c'est-à-dire qu'il y a moins d'équations que d'inconnues). Nous multiplions par de la gauche des deux côtés :
Ce système génère une solution unique, à savoir les valeurs de et qui fournissent la meilleure ligne d'ajustement pour les données de mesure.
Exemple 2. Équation du second degré
Beaucoup de phénomènes dans la nature et la réalité ne sont pas linéaires. Certains phénomènes ont d'abord un effet croissant jusqu'à un maximum suivi d'un effet décroissant. Un tel exemple est classique en affaires. Si tu veux augmenter les ventes d'une entreprise, tu dois augmenter le prix. À mesure que le prix augmente, on peut s'attendre à une certaine perte de clients, c'est-à-dire que tu obtiens moins de clients qui paient plus. Cependant, les ventes continuent d'augmenter jusqu'à un certain point. Ce qui se passe au point de rupture, c'est que le prix par client payant ne compense plus la perte de clients, et le chiffre d'affaires total recommence à diminuer.
Laissons les données de mesure être au format :
où est le prix du produit / service et est le chiffre d'affaires total. Nous adaptons la courbe suivante aux données de mesure :
et nous obtenons le système suivant, où chaque ligne correspond à l'ajustement d'un point mesuré :
Nous convertissons en l'équation normale :
qui fournit une solution unique pour les valeurs des paramètres , et qui donnent la meilleure courbe quadratique ajustée à nos données de mesure.