Nachrichten
Anmeldung



Umfragen
Wie gefällt Ihnen diese Seite?
 
Start Regressionsanalyse
Benutzerbewertung: / 1
SchwachPerfekt 

Regressionsanalyse

aus Wikipedia, der freien Enzyklopädie

Die Regressionsanalyse ist ein statistisches Analyseverfahren. Ziel ist es,
Beziehungen zwischen einer abhängigen und einer oder mehreren
unabhängigen Variablen festzustellen.

Allgemein wird eine metrische Variable Y betrachtet, die von einer zweiten
Variablen x abhängt. Üblicherweise ist \underline{x}=(x_1,\ldots,x_n)^T\; ein
n-dimensionaler Vektor, wobei die einzelnen x-Werte untereinander
unabhängig sind. Im eindimensionalen Fall spricht man von einer
einfachen linearen Regressionsanalyse
, in Dimensionen größer gleich zwei
von einer multiplen Regressionsanalyse.

Einfache Lineare Regression

(Software hierzu: Messwerte Analyse 4.0, Donationware,
hier downloaden, Anleitung, Programmbeschreibung)

Ein Spezialfall von Regressionsmodellen sind lineare Modelle. Hierbei spricht
man von der einfachen linearen Regression, und die Daten liegen in der
Form (y_i, x_i), i=1,\ldots, n vor. Als Modell wählt man

Y_i = \beta_0 + \beta_1 x_i + \epsilon_i\; ,

man nimmt somit einen linearen Zusammenhang zwischen xi und Yi an.
Die Daten yi werden als Realisierungen der Zufallsvariablen Yi angesehen,
die xi sind nicht stochastisch, sondern Messstellen. Ziel der Regressionsanalyse
ist in diesem Fall die Bestimmung der unbekannten Parameter β0 und β1.

Annahmen

Damit die Regressionsschätzungen inferentiell analysiert werden können, müssen
für das lineare Regressionsmodell bestimmte Annahmen erfüllt sein:

1. Bezüglich der Störgröße εi

  1. Der Zufallsvektor \underline{\epsilon}=(\epsilon_1,\ldots,\epsilon_n)^T ist verteilt mit
    dem Erwartungswertvektor 0, d.h. \operatorname{E}(\underline{\epsilon})=0 .
  2. Die Zufallsvariablen εi sind stochastisch unabhängig voneinander
    d. h. \Sigma_\epsilon=\mbox{Cov}(\underline{\epsilon})= \sigma^2I_n\;, wobei In die n dimensionale
    Einheitsmatrix bezeichnet. Dies kann man genauer auch schreiben als
\mbox{Cov}(\epsilon_i,\epsilon_j)=\delta_{ij} \sigma^2, i=1,\ldots, n\; ,
wobei δij das Kronecker-Delta bezeichnet. Hierbei gilt
\delta_{ij} = \begin{cases}                             1 & \mbox{falls} \ i=j \\                             0 & \mbox{sonst}                             \end{cases},
das heißt die Fehler sind unkorreliert mit homogener Varianz.

2. Die Datenmatrix \underline{X}, welche im Abschnitt zur multiplen Regression explizit

angegeben ist, ist fest vorgegeben.

3. Die Datenmatrix \underline{X} hat den Rang (p + 1).

  • In der ersten Annahme haben also alle εi die gleiche Varianz (Homoskedastizität) und sie sind
    paarweise unkorreliert. Man interpretiert dies so, dass die Störgröße keinerlei
    Information enthalten darf und nur zufällig streut. Deshalb kann Y nur
    durch Informationen aus \underline{X} erklärt werden.
  • Die zweite Annahme hält \underline{X} konstant.
  • Die dritte Annahme ist für eine eindeutige Lösung des
    Regressionsproblems erforderlich.

Beispiel

Hier wird die einfache lineare Regression anhand eines Beispiels dargestellt.

Eine renommierte Sektkellerei möchte einen hochwertigen Rieslingsekt auf den
Markt bringen. Für die Festlegung des Abgabepreises soll zunächst eine
Preis-Absatz-Funktion ermittelt werden. Dazu wurde in n = 6 Geschäften ein
Testverkauf durchgeführt. Man erhielt sechs Wertepaare mit dem Ladenpreis
x
(in Euro) einer Flasche und die verkaufte Menge y an Flaschen:

Laden i 1 2 3 4 5 6
Preis einer Flasche xi 20 16 15 16 13 10
verkaufte Menge yi 0 3 7 4 6 10

Als Streudiagramm von Preis und abgesetzter Menge an
Sektflaschen ergibt sich folgende Grafik.

Streudiagramm von Preis und abgesetzter Menge an Sektflaschen

Berechnung der Regressionsgeraden

Man geht von folgendem statistischen Modell aus:

Man betrachtet zwei Variablen y und x, die vermutlich ungefähr in einem
linearen Zusammenhang

Y \approx \alpha + \beta x

stehen. Auf die Vermutung des linearen Zusammenhangs kommt man,
wenn man das obige Streudiagramm betrachtet, dort erkennt man, dass
die eingetragenen Punkte nahezu auf einer Linie liegen. Im Weiteren
sind x als unabhängige und Y als abhängige Variable definiert. Es existieren
von x und y je n Beobachtungen xi und yi, wobei i von 1 bis n geht. Der
funktionale Zusammenhang Y = f(x) zwischen x und Y kann nicht exakt
festgestellt werden, da α + βx von einer Störgröße ε überlagert wird.
Diese Störgröße ist als Zufallsvariable (der Grundgesamtheit) konzipiert,
die nichterfassbare Einflüsse (menschliches Verhalten oder Messungenauigkeiten
oder ähnliches) darstellt. Es ergibt sich also das Modell

Y = \alpha + \beta x + \epsilon \; oder genauer y_i = \alpha + \beta x_i + \epsilon_i \;.

Da α und β nicht bekannt sind, kann y nicht in die Komponenten α + βx und ε
zerlegt werden. Des Weiteren soll eine mathematische Schätzung für die
Parameter α und β durch a und b gefunden werden, damit ergibt sich

y_i = a + bx_i + e_i\,

mit dem Residuum ei der Stichprobe. Das Residuum gibt die Differenz
zwischen der Regressionsgerade a + bxi und den Messwerten yi an.
Des Weiteren bezeichnet man mit \hat{y}_i den Schätzwert für yi und es gilt

\hat{y}_i = a + bx_i und somit kann man das Residuum
schreiben als e_i = y_i - \hat{y}_i.

Es gibt verschiedene Möglichkeiten, die Gerade zu schätzen. Man könnte eine
Gerade so durch den Punkteschwarm legen, dass die Quadratsumme der
Residuen, also der senkrechten Abweichungen ei der Punkte von dieser
Ausgleichsgeraden
minimiert wird. Trägt man die wahre unbekannte und
die geschätzte Regressionsgerade in einer gemeinsamen Grafik ein,
dann ergibt sich folgende Abbildung.

Wahre unbekannte und geschätzte Regressionsgerade

Diese herkömmliche Methode ist die Minimum-Quadrat-Methode oder
Methode der kleinsten Quadrate. Man minimiert die summierten Quadrate der Residuen,

RSS = SS_\mathrm{Res} = \sum_{i=1}^n e_i^2 = \sum_{i=1}^n (y_i - (a + bx_i))^2 \rightarrow \mathrm{min!}

bezüglich a und b. Durch partielles Differenzieren und Nullsetzen der Ableitungen erster Ordnung erhält man ein System von Normalgleichungen.

Die gesuchten Regressionskoeffizienten sind die Lösungen

b = \frac{\frac{1}{n} \sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\frac{1}{n} \sum_{i=1}^n (x_i- \bar x)^2} = \frac{\sum_{i=1}^n (x_i- \bar x)(y_i- \bar y)}{\sum_{i=1}^n (x_i- \bar x)^2} = \frac{SS_{xy}}{SS_{xx}}

und

a = \bar y - b \bar x

mit \bar x als arithmetischem Mittel der x-Werte und \bar y als arithmetischem Mittel der y-Werte. SSxy stellt die empirische Kovarianz zwischen den xi und yi dar. SSxx bezeichnet die empirische Varianz der xi. Man nennt diese Schätzungen auch (KQ) oder Ordinary Least Squares-Schätzer (OLS).

Für das folgende Zahlen-Beispiel ergibt sich \bar{x}=15 und \bar{y}=5. Somit erhält man die Schätzwerte für a und b durch einfaches Einsetzen in obige Formeln. Zwischenwerte in diesen Formeln sind in folgender Tabelle dargestellt.

i Flaschenpreis xi verkaufte Menge yi x_i-\bar x y_i-\bar y (x_i-\bar x)(y_i-\bar y) (x_i-\bar x)(x_i-\bar x) (y_i-\bar y)(y_i-\bar y) \hat{y}_i
1 20 0 5 -5 -25 25 25 0,09
2 16 3 1 -2 -2 1 4 4,02
3 15 7 0 2 0 0 4 5,00
4 16 4 1 -1 -1 1 1 4,02
5 13 6 -2 1 -2 4 1 6,96
6 10 10 -5 5 -25 25 25 9,91
Total 90 30 0 0 -55 56 60 30,00

Es ergibt sich in dem Beispiel

b = \frac{-55}{56} = -0{,}98 \; und a = 5 - (-0{,}98) \cdot 15 = 19{,}73 \;.

Die geschätzte Regressionsgerade lautet somit

\hat{y}_i = 19{,}73 + (- 0{,}98) \cdot x_i \;,

so dass man vermuten kann, dass bei jedem Euro mehr der Absatz im Durchschnitt um ungefähr eine Flasche sinkt.

 
World's Top Web Hosting providers awarded and reviewed. Find a reliable green hosting service, read greengeeks review
Google Search
Benutzerdefinierte Suche
Weitere Interessante Seiten:
Besucherzähler:
00014624
HeuteHeute31
GesternGestern40
Diese WocheDiese Woche101
Diesen MonatDiesen Monat1109
GesamtGesamt14624
Statistik created: 2012-02-22T21:51:34+01:00
US
UNITED STATES
US
User Online 0
Gäste Online 1
Registrierte User 2
Heute registriert 0