Minstakvadratmetoden - vem kan ta åt sig äran?
Metoden för minsta kvadrater är arbetshästen för många tillämpningar av linjär algebra på statistikområdet.
Ända sedan Adrien Marie Legendre publicerade metoden redan 1808 har den visat sig vara ett extremt kraftfullt verktyg för analys.
Men är Legendre verkligen personen att ta åt sig äran för utvecklingen av metoden?
Kort efter hans publicering föreslog en annan välkänd matematiker, Carl Friedrich Gauss, påståendet att han faktiskt hade använt metoden sedan 1795.
Än idag pågår det en debatt inom den matematiska gemenskapen om det var Legendre eller Gauss som ursprungligen utvecklade metoden.
Det faktum att båda sidors förespråkare bryr sig så mycket om att kreditera sin kandidat antyder metodens betydelse.
Minstakvadratmetoden - en visuell representation
När man försöker anpassa en linje till vissa experimentella data är det i allmänhet inte möjligt att få den att gå igenom varje enskild punkt. Istället kommer vi att dra en gräns som är en bra kompromiss för dem alla.
För att definiera ett kriterium på hur effektiv en linje är för att redovisa alla punkter, kan vi välja att minimera summan av de kvadratiska avstånden från punkterna till linjen, vertikalt.
Detta resulterar i ett relativt enkelt sätt att bestämma en linje som skär rakt igenom mitten av datapunkterna.
Uppgiften blir ett optimeringsproblem, som är ett eget område inom matematiken. Just den här löses med minstakvadratmetoden och kommer alltid att ha en unik lösning.
Definitionen av minstakvadratmetoden
Punkterna och dess motsvarande linje kan representeras av ett system av linjära ekvationer i matrisform som:
där och är konstruerade med hjälp av datapunkterna, och innehåller okända parametrar för linjen ( och ).
Problemet här är att vi tenderar att ha fler datapunkter än parametrar, vilket leder till ett system utan en lösning.
Det är här minstakvadratmetoden kommer väl till pass. Genom att vänstermultiplicera båda sidor av ekvationen med får vi ett kvadratiskt system:
Denna ekvation har en unik lösning , som innehåller de optimala parametrarna och som minimerar minsta kvadraters kriteriet.
Mer om minstakvadratmetoden
Minstakvadratmetoden används frekvent i högre kurser inom STEM. Metoden anpassar en linje till mätdata för att förklara förhållandet till något fenomen. Fenomenet kan vara allt från ett ordnat fysikaliskt experiment till en rad observationer från verkligheten, tex. psykologi eller ekonomi. Studenter med karriärambitioner som analytiker eller data scientist får nu ert första verktyg för att jobba med modellering.
Alla modeller är fel, men vissa är användbara
Säg att vi har mätdata på formatet , det vill säga att för varje observation har vi en uppsättning variabler som vi söker ett förhållande till respektive värde på för. Detta förhållande uttrycker vi gärna som en funktion som bäst förklarar relationen mellan och . Vi kan aldrig ha som krav att vår modell ger oss att för något , eftersom att alla modeller är fel, men vissa är användbara. Därför använder vi approximationstecknet på följande sätt:
Om är en linjär avbildning kan vi härleda från ovan ekvationer till
Detta ekvationssystem är i praktiken överbestämt, eftersom att är konstanterna till och brukar vara en handfull många medan antalet rader kan vara hundratals, tusentals eller till och med miljontals (tänk datamängderna Google och Facebook arbetar med). Alltså finns inga lösningar till denna ekvation. Däremot söker vi de värden på som ger den optimalt anpassade funktionen till mätdata.
Minstakvadratmetoden minimerar avståndet mellan punkterna och linjen
En matematisk definition för det som gör den "optimalt anpassade" funktionen är att finna värden på som genererar minst avvikelse, eller "fel", gentemot mätdata. Felet definierar vi som
som vi känner igen som avståndet mellan till . Detta fel summerar vi för samtliga observationer och får då totala felet. I korthet:
Vi vill finna funktionen som minimerar felet
Felet definierar vi som summan av alla avstånd mellan punkterna och linjen.
Man säger att minstakvadratmetoden minimerar avståndet mellan punkterna och linjen. Vi kan skriva om ekvationssystemet till den berömda ekvationen,
där konstanterna vi önskar att lösa ut får utgöra variabeln (konventionell notation för okänt) och högerledet skrivs som det konventionella högerledet (konventionellt det som är känt).
Detta är ett optimeringsproblem och tillhör en helt egen gren inom matematiken. Dock är detta ett väldigt enkelt sådant optimeringsproblem eftersom att lösningen är unik och enkel att räkna ut. Utan bevis eller motivering visar vi nu uträkningen. Vi multiplicerar med i bägge led från vänster.
Ekvationen kallas för normalekvationen och är ett kvadratiskt system vars unika lösning är de värden på konstanterna som minimerar avståndet mellan punkterna och linjen. Denna eleganta metod minimerar alltså uttrycket
Exempel 1. Rät linje
Låt oss säga att vi har mätdata på människors längd och skostorlek på formatet
där är skostorlek och är längden. Dessa mätdata ser ut att växa i en linjär relation mellan axlarna, vilket är logiskt. Större fötter brukar innebära högre längd och vice versa. Det motiverar att vi önskar att anpassa en rät linje till mätdatat, nämligen för några värden på konstanterna och bör vi kunna få en linje som förklarar relationen:
Vi har stycken mätpunkter, så därför kan vi ställa upp detta på ett linjärt ekvationssystem med stycken rader:
Vi kan gå över till totalmatrisen
Detta system kallas för överbestämt eftersom att antalet ekvationer är fler än antalet okända, eller ekvivalent, antalet rader är fler än antalet kolonner. (Not: ett underbestämt system gäller det motsatta, det vill säga att antalet ekvationer är färre än antalet okända). Vi multiplicerar med från vänster i bägge led:
Detta system generar en unik lösning, nämligen de värden på och som ger den bäst anpassade linjen till mätdata.
Exempel 2. Andra gradens ekvation
Mycket i naturen och i verkligheten är inte linjärt. Vissa fenomenen har först en ökande effekt till ett maximum för att sedan ha en minskande effekt. Ett sådant exempel brukar vara en klassiker inom affärer. Vill man öka omsättningen i verksamheten ska man höja priset. I och med att priset höjs får man räkna med ett visst kundbortfall, det vill säga att man får kvar färre kunder men som betalar mer. Fortsatt ökar omsättningen dock! tills den inte gör det längre. Det som har hänt vid brytpunkten är att priset per betalande kund inte längre kompenserar för kundbortfallet och den totala omsättningen börjar igen att minska.
Låt mätdatat vara på formatet
där är priset på produkten/tjänsten och är totala omsättningen. Vi anpassar följande kurva till mätdata
och vi får följande system där varje rad motsvarar anpassningen till en mätpunkt
Vi går över till normalekvationen
vilket ger en unik lösning för de värden på parametrarna , och som ger den bästa anpassade andragradskurvan till vår mätdata.