Leer wat eenvoudige lineaire regressie is en hoe het werkt

Een basisstatistiekbenadering voor het analyseren van kwantitatieve gegevens

Hoffelijkheid Colin Broug, fotograaf. © juni 10, 2010 Stock.xchng

Lineaire regressiemodellen worden gebruikt om de relatie tussen twee variabelen of factoren te tonen of te voorspellen. De factor die wordt voorspeld (de factor waarmee de vergelijking wordt opgelost ) wordt de afhankelijke variabele. De factoren die worden gebruikt om de waarde van de afhankelijke variabele te voorspellen, worden de onafhankelijke variabelen genoemd.

Goede gegevens vertellen niet altijd het volledige verhaal. Regressie-analyse wordt vaak gebruikt in onderzoek omdat het vaststelt dat er een verband bestaat tussen variabelen.

Maar correlatie is niet hetzelfde als oorzaak . Zelfs een regel in een eenvoudige lineaire regressie die goed bij de gegevenspunten past, zegt misschien niet iets definitiefs over een oorzaak-en-gevolgrelatie.

Bij eenvoudige lineaire regressie bestaat elke waarneming uit twee waarden. Eén waarde is voor de afhankelijke variabele en één waarde is voor de onafhankelijke variabele.

Eenvoudig lineair regressiemodel

Het eenvoudige lineaire regressiemodel wordt als volgt weergegeven: y = ( β 0 + β 1 + Ε

Door wiskundige conventie worden de twee factoren die betrokken zijn bij een eenvoudige lineaire regressieanalyse aangeduid als x en y .

De vergelijking die beschrijft hoe y gerelateerd is aan x staat bekend als het regressiemodel . Het lineaire regressiemodel bevat ook een foutterm die wordt voorgesteld door Ε of de Griekse letter epsilon. De foutterm wordt gebruikt om rekening te houden met de variabiliteit in y die niet kan worden verklaard door de lineaire relatie tussen x en y .

Er zijn ook parameters die de populatie vertegenwoordigen die wordt bestudeerd. Deze parameters van het model worden voorgesteld door ( β 0+ β 1 x ).

Eenvoudig lineair regressiemodel

De eenvoudige lineaire regressievergelijking wordt als volgt weergegeven: Ε ( y ) = ( β 0 + β 1 x ).

De eenvoudige lineaire regressievergelijking wordt weergegeven als een rechte lijn.

( β 0 is het y- snijpunt van de regressielijn.

β 1 is de helling.

Ε ( y ) is de gemiddelde of verwachte waarde van y voor een gegeven waarde van x .

Een regressielijn kan een positieve lineaire relatie, een negatieve lineaire relatie of geen relatie weergeven. Als de lijn in een eenvoudige lineaire regressie plat is (niet schuin), is er geen relatie tussen de twee variabelen. Als de regressielijn omhoog loopt met het onderste uiteinde van de lijn op het y- snijpunt (as) van de grafiek en het bovenste uiteinde van de lijn zich opwaarts uitstrekt in het grafiekveld, weg van de x- interceptie (as), is er een positieve lineaire relatie . Als de regressielijn naar beneden helt met het bovenste uiteinde van de lijn op het y- snijpunt (as) van de grafiek en het onderste uiteinde van de lijn zich naar beneden uitstrekt in het grafiekveld, in de richting van de x- interceptie (as), bestaat een negatieve lineaire relatie.

Geschatte lineaire regressievergelijking

Als de parameters van de populatie bekend waren, zou de eenvoudige lineaire regressievergelijking (hieronder weergegeven) kunnen worden gebruikt om de gemiddelde waarde van y voor een bekende waarde van x te berekenen.

Ε ( y ) = ( β 0 + β 1 x ).

In de praktijk zijn de parameterwaarden echter niet bekend, dus moeten ze worden geschat met behulp van gegevens uit een steekproef van de populatie. De populatieparameters worden geschat met behulp van voorbeeldstatistieken . De voorbeeldstatistieken worden weergegeven door b 0 + b 1. Wanneer de steekproefstatistieken worden vervangen door de populatieparameters, wordt de geschatte regressievergelijking gevormd.

De geschatte regressievergelijking wordt hieronder getoond.

( ŷ ) = ( β 0 + β 1 x

( ŷ ) wordt uitgesproken y hat .

De grafiek van de geschatte eenvoudige regressievergelijking wordt de geschatte regressielijn genoemd.

De b 0 is het y-snijpunt.

De b 1 is de helling.

De ŷ ) is de geschatte waarde van y voor een gegeven waarde van x .

Belangrijke opmerking: Regressieanalyse wordt niet gebruikt om oorzaak-en-gevolg relaties tussen variabelen te interpreteren. Regressieanalyse kan echter aangeven hoe variabelen gerelateerd zijn of in welke mate variabelen aan elkaar zijn gekoppeld .

Regressie-analyse neigt er daarbij toe saillante relaties te leggen die een goed geïnformeerde onderzoeker rechtvaardigen om nader te bekijken .

Ook bekend als: bivariate regressie, regressieanalyse

Voorbeelden: de Least Squares-methode is een statistische procedure voor het gebruik van voorbeeldgegevens om de waarde van de geschatte regressievergelijking te vinden. De Kleinste Vierkanten Methode werd voorgesteld door Carl Friedrich Gauss, die werd geboren in het jaar 1777 en stierf in 1855. De Kleinste vierkanten Methode wordt nog steeds veel gebruikt.

bronnen:

Anderson, DR, Sweeney, DJ en Williams, TA (2003). Essentials of Statistics for Business and Economics (3de ed.) Mason, Ohio: Southwestern, Thompson Learning.

______. (2010). Explained: Regression Analysis. MIT Nieuws.

McIntyre, L. (1994). Gebruik van sigarettengegevens voor een inleiding tot meervoudige regressie. Journal of Statistics Education, 2 (1).

Mendenhall, W., en Sincich, T. (1992). Statistieken voor Engineering and the Sciences (3e ed.), New York, NY: Dellen Publishing Co.

Panchenko, D. 18.443 Statistieken voor toepassingen, herfst 2006, sectie 14, eenvoudige lineaire regressie. (Massachusetts Institute of Technology: MIT OpenCourseWare)