torsdag 15 januari 2015

Bevis - R^2 = SSR/SSY


Ber om ursäkt för egotrippandet, nörderiet och den dåliga formateringen. En finare variant finns här. Nedanstående är en förklaring/ett komplement till detta bevis på wolfram.mathworld.com. Observera att den sidan förväxlat....SSR med SSY tror jag.

Alltså lagt ner en veckas slit på det här, och det är därför jag vill publicera. Förstår det knappast är publikfriande, men kan jag bespara någon det här så vill jag göra det.

Med det här kan man alltså bevisa att clip_image104[6] (en grej man typ "alltid" använder i statistik) är samma sak som andelen förklarad variation som man har i sitt material.

För att förstå nedanstående resonemang, måste man kunna räkna med väntevärden, summatecken och stickprovsmedelvärden (X med streck över, dvs X-bar). Det är också väldigt bra om man förstått härledningen för regressionslinjen. Definitionerna för clip_image104[6] samt SSR och SSY finns med i texten, men det är bra om man vet vad det är. 

Jag har färgkodat de jobbigaste partierna, så man ser vilka uttryck som hör ihop och alltså adderas/subtraheras.

---------------------

Formeln för det uppskattade värdet i regressionslinjen, för varje punkt xi är:
clip_image002[4]
clip_image004[4] kan enligt normalekvationerna skrivas som
 clip_image006[4]

Alltså:
clip_image008[4]
clip_image010[4]

clip_image012[4] kan förlängas med n/n, och sedan skrivas om enligt följande:
clip_image014[4]

Vi introducerar clip_image016[4] (alltså n-BAR upphöjt med två, inte nX upphöjt med (-2))

Vi förlänger får ursprungliga uttryck med A/A, och får:
clip_image018[4]
Vi sätter sedan in det fullständiga uttrycket för clip_image020[6]
clip_image022[4]
Vi börjar med att utveckla uttrycket för clip_image020[7]
clip_image024[4]
Vi skriver om alla clip_image026[4] och möblerar om:
clip_image028[4]
clip_image030[4]
clip_image032[4]
Vi utvecklar uttrycket för clip_image034[4]:
clip_image036[4]
clip_image038[4]
Alltså kan hela uttrycket skrivas som:
clip_image040[4]
clip_image042[4], de två termerna tar ut varandra.
clip_image044[4]
clip_image046[4]
clip_image048[4]
Vi kommer nu att ta summan av alla möjliga clip_image050[8]:
clip_image052[4]
clip_image054[4] och clip_image056[4]
clip_image058[8]
clip_image058[9]
Vi kommer nu att ta clip_image050[9] i kvadrat
clip_image060[4]
Vi tar nu summan av alla kvadrerade clip_image050[10]:
clip_image062[4]
clip_image064[6]
Vi går nu tillbaks till vårt ursprungliga uttryck för clip_image066[4]i :
clip_image068[4]
Vi multiplicerar med yi:
clip_image070[4]
Vi tar sedan summan av alla clip_image072[4]:
clip_image074[4]
clip_image076[4]
Vi vill nu, med hjälp av detta, skriva om SSR, dvs sum of squared residuals.
Som följer:
clip_image078[4]
clip_image080[4]
clip_image064[7]
clip_image058[10]

clip_image082[4]
Detta uttryck är dock inte helt korrekt. clip_image084[4]är förlängt med A2/A2, clip_image086[4]med A/A, och clip_image088[6]inte över huvud taget. Vi måste förlänga  clip_image090[4] och clip_image088[7].
clip_image092[4]
clip_image094[4]


Alla termer i samma färg hör ihop, och kan antingen adderas eller subtraheras. Vi förenklar:
clip_image096[4]
Vilket kan skrivas som:
clip_image098[4]
Vilket vi kan förenkla enligt följande:
clip_image100[4]
Innan vi fortsätter definierar vi clip_image102[4], SSY och clip_image104[6], det är termer vi fortsättningsvis kommer att behöva.
clip_image106[4]
clip_image108[4]
Multiplicerar vi SSY med clip_image104[7], får vi följande uttryck:
clip_image110[4]
Alltså:
clip_image112[4]
clip_image114[4]
Vilket skulle bevisas.

Inga kommentarer:

Skicka en kommentar