Wie interpretiere ich den AIC

Veröffentlicht in: Articles | 0
? (Sie können hier Probleme mit dem Inhalt dieser Seite melden)Möchten Sie Ihre Inhalte für R-Blogger freigeben? klicken Sie hier, wenn Sie einen Blog haben, oder hier, wenn Sie nicht.

Mein Schüler fragte heute, wie die AIC (Akaike ‚ s Information
Criteria) Statistik für die Modellauswahl zu interpretieren. Am Ende haben wir einen R
– Code ausgeblendet, um zu demonstrieren, wie die AIC für ein einfaches GLM berechnet wird (allgemeines
lineares Modell). Ich denke immer, wenn Sie die Ableitung einer
– Statistik verstehen können, ist es viel einfacher, sich daran zu erinnern, wie sie verwendet wird.,

Wenn Sie nun die Ableitung des AIC googeln, werden Sie wahrscheinlich auf eine Menge Mathematik stoßen. Aber die Prinzipien sind wirklich nicht so komplex. Also hier
wir werden einige einfache GLMs passen, dann leiten Sie ein Mittel ab, um das ‚beste‘
zu wählen.

Überspringen Sie bis zum Ende, wenn Sie nur die Grundprinzipien durchgehen möchten.

Bevor wir den AIC verstehen können, müssen wir die statistische Methodik der Wahrscheinlichkeiten verstehen.,

Wahrscheinlichkeiten erklären

Angenommen, Sie haben einige Daten, die normalerweise mit einem Mittelwert von 5
und einer sd von 3:

set.seed(126)n <- 50 #sample sizea <- 5sdy <- 3y <- rnorm(n, mean = a, sd = sdy)hist(y)

Jetzt möchten wir einige Parameter für die Population schätzen, aus der y abgetastet wurde, wie der Mittelwert und die Standardentwicklung (die wir hier kennen
um 5 und 3 zu sein, aber in der realen Welt werden Sie das nicht wissen).

Wir werden frequentistische Statistiken verwenden, um diese Parameter zu schätzen.,
Philosophisch bedeutet dies, dass wir glauben, dass es „einen wahren Wert“ für
jeden Parameter gibt, und die Daten, die wir beobachtet haben, werden durch diesen wahren
– Wert generiert.

m1 <- glm(y ~ 1, family = "gaussian")sm1 <- summary(m1)

Die Schätzung des Mittelwerts wird hier gespeichert coef(m1) =4.38, die geschätzte
Varianz hier sm1$dispersion= 5.91 oder die SD sqrt(sm1$dispersion)
=2.43. Um ganz klar zu sein, haben wir auch angegeben, dass wir glauben, dass die
– Daten einer normalen (auch „Gaußschen“) Verteilung folgen.,

Wir passen nur ein GLM an, das R auffordert, einen Abfangparameter zu schätzen (~1),
Das ist einfach der Mittelwert von y. Wir erhalten auch eine Schätzung der SD
(= $\sqrt variance$) Sie könnten denken, es ist übertrieben, einen GLM zu verwenden, um den Mittelwert und SD zu schätzen, wenn wir sie einfach direkt berechnen könnten.

Beachten Sie nun, dass R auch einige andere Größen geschätzt hat, wie die Restabweichung
und die AIC-Statistik.

Möglicherweise ist Ihnen auch bewusst, dass die Abweichung ein Maß für die Modellanpassung ist, ähnlich wie bei den Summen der Quadrate., Beachten Sie auch, dass der Wert des AIC
verdächtig nahe an der Abweichung liegt. Trotz seines seltsamen Namens sind die Konzepte
, die der Abweichung zugrunde liegen, ziemlich einfach.

Wie ich oben sagte, beobachten wir Daten, die aus einer
– Population mit einem wahren Mittelwert und einem wahren SD generiert werden. Da wir wissen, dass
Schätzungen dieser Größen vorliegen, die eine Wahrscheinlichkeitsverteilung definieren, können wir
auch die Wahrscheinlichkeit schätzen, einen neuen Wert von y zu messen, der
sagen = 7.,

Dazu stecken wir einfach die geschätzten Werte in die Gleichung für
die Normalverteilung und fragen nach der relativen Wahrscheinlichkeit von 7. Wir
tun dies mit der R-Funktion dnorm

sdest <- sqrt(sm1$dispersion)dnorm(7, mean = coef(m1), sd = sdest)## 0.09196167

Formal ist dies die relative Wahrscheinlichkeit des Werts 7 angesichts der
– Werte des Mittelwerts und der SD, die wir geschätzt haben (=4.8 bzw.,

Sie könnten fragen, warum die Wahrscheinlichkeit größer als 1 ist, sicherlich, da es
von einer Wahrscheinlichkeitsverteilung kommt, sollte es <1 sein. Nun, die normale
– Verteilung ist kontinuierlich, was bedeutet, dass sie eine Reihe von
möglichen y – Werten beschreibt, sodass die Wahrscheinlichkeit eines bestimmten Werts Null ist.
Die relative Wahrscheinlichkeit andererseits kann verwendet werden, um die
Wahrscheinlichkeit eines Bereichs von
Werten zu berechnen.,

Sie könnten also feststellen, dass die Berechnung der Wahrscheinlichkeit aller Daten
eine sinnvolle Methode wäre, um zu messen, wie gut unser „Modell“ (nur ein Mittelwert und
SD hier) zu den Daten passt.

So sieht die Wahrscheinlichkeit aus:

plot(y, dnorm(y, mean = coef(m1), sd = sdest), ylab = "Likelihood")

Es ist nur eine Normalverteilung.

Denken Sie dazu darüber nach, wie Sie die Wahrscheinlichkeit von
mehreren (unabhängigen) Ereignissen berechnen würden. Sagen wir, die Chance, dass ich mit dem Fahrrad zur Arbeit fahre
an einem bestimmten Tag ist 3/5 und die Chance, dass es regnet, ist 161/365 (wie
)!,), dann ist die chance, ich werde Reiten in der Regen 3/5 *
161/365 = 1/4, so dass ich am besten tragen Sie einen Mantel, wenn Reiten in Vancouver.

Wir können das gleiche für den Lebensunterhalt tun, multiplizieren Sie einfach die Wahrscheinlichkeit von
jedem einzelnen y Wert und wir haben die Gesamtwahrscheinlichkeit. Dies wird
eine sehr kleine Zahl sein,da wir viele kleine Zahlen miteinander multiplizieren., Ein Trick, den wir verwenden, besteht also darin, das Protokoll der Wahrscheinlichkeiten zu summieren, anstatt sie zu multiplizieren:

y_lik <- dnorm(y, mean = coef(m1), sd = sdest, log = TRUE)sum(y_lik)## -114.8636

Je größer (je weniger negativ) die Wahrscheinlichkeit unserer Daten ist Angesichts der Schätzungen des
– Modells passt das Modell umso besser zu den Daten. Die Abweichung wird
aus der Wahrscheinlichkeit berechnet und für die Abweichung zeigen kleinere Werte
eine engere Anpassung des Modells an die Daten an.

Die Parameterwerte, die uns den kleinsten Wert der
– log-likelihood geben, werden als Maximum likelihood estimates bezeichnet.,

Vergleich alternativer Hypothesen mit Wahrscheinlichkeiten

Jetzt sagen wir, dass wir Messungen und zwei Kovariaten haben, x1 und x2, von denen wir denken, dass sie sich auf y auswirken könnten:

a <- 5b <- 3n <- 100x1 <- rnorm(n)x2 <- rnorm(n)sdy <- 1y <- a + b*x1 + rnorm(n, sd = sdy)par(mfrow = c(1,2))plot(x1, y)plot(x2, y)

x1 ist also eine Ursache für y, aber x2 beeinflusst y nicht. Wie würden wir wählen
welche Hypothese ist am wahrscheinlichsten?, Nun, eine Möglichkeit wäre, Modelle
mit verschiedenen Kombinationen von Kovariaten zu vergleichen:

m1 <- glm(y ~ x1)m2 <- glm(y ~ x2)m3 <- glm(y ~ x1 + x2)

Jetzt passen wir eine Linie an y an, also ist unsere Schätzung des Mittelwerts jetzt die
– Linie der besten Passform, sie variiert mit dem Wert von x1. Um dies zu visualisieren:

plot(x1, y)lines(x1, predict(m1))

Die predict(m1) gibt die Linie der besten Passform an, dh den Mittelwert von y
, der bei jedem x1-Wert angegeben ist., Wir verwenden dann predict, um die Wahrscheinlichkeiten für jedes
– Modell abzurufen:

Die Wahrscheinlichkeit von m1 ist größer als m2, was sinnvoll ist, da
m2 die ‚falsche‘ Kovariate enthält. Die Wahrscheinlichkeit für m3 (die sowohl x1 als auch x2 enthält) ist fraktioniert größer als die Wahrscheinlichkeitm1,
Sollten wir dieses Modell also so beurteilen, dass es eine fast genauso gute Darstellung der Daten liefert?,

Da die Wahrscheinlichkeit nur ein kleines bisschen größer ist, hat die Addition von x2
nur einen winzigen Teil der Varianz in den Daten erklärt. Aber wo
zeichnen Sie die Linie zwischen Ein-und Ausschließen von x2? Sie stoßen auf ein ähnliches Problem
, wenn Sie R^2 für die Modellauswahl verwenden.

Was ist also, wenn wir die Wahrscheinlichkeit durch die Anzahl der Parameter bestrafen, die wir
schätzen müssen, um zum Modell zu passen? Wenn wir dann mehr Kovariaten
einbeziehen (und mehr Steigungsparameter schätzen), werden nur diejenigen, die einen
großen Teil der Variation ausmachen, die Strafe überwinden.,

Was wir wollen eine Statistik, die uns die sparsamste
Modell auswählen hilft.

Der AIC als Maß für parsimony

Eine Möglichkeit, die Wahrscheinlichkeit durch die Anzahl der Parameter zu bestrafen, ist
, einen Betrag hinzuzufügen, der proportional zur Anzahl der Parameter ist.
Zuerst multiplizieren wir die Log-Wahrscheinlichkeit mit -2, so dass sie positiv ist
und kleinere Werte zeigen eine engere Anpassung an.

LLm1 <- sum(dnorm(y, mean = predict(m1), sd = sqrt(sm1$dispersion), log = TRUE))-2*LLm1## 251.2428

Warum es -2 nicht -1 ist, kann ich mich nicht ganz erinnern, aber ich denke nur historische
Gründe.,

Addieren Sie dann 2*k, wobei k die Anzahl der geschätzten Parameter ist.

-2*LLm1 + 2*3## 257.2428

Für m1 gibt es drei Parameter, einen Intercept, eine Steigung und eine
Standardabweichung. Lassen Sie uns nun die AIC für alle drei Modelle berechnen:

Wir sehen, dass Modell 1 die niedrigste AIC hat und daher die sparsamste Passform hat. Modell 1 übertrifft jetzt Modell 3, das eine etwas
höhere Wahrscheinlichkeit hatte, aber wegen der zusätzlichen Kovariate auch eine höhere
Strafe hat.,

AIC Grundprinzipien

Zusammenfassend sind die Grundprinzipien, die die Verwendung des AIC leiten,:

  1. Niedriger zeigt ein sparsameres Modell an, relativ zu einem Modell, das
    mit einem höheren AIC passt.

  2. Es ist ein relatives Maß für Modellparsimonie, daher hat es nur
    Bedeutung, wenn wir die AIC für alternative Hypothesen vergleichen (= verschiedene
    – Modelle der Daten).

  3. Wir können nicht verschachtelte Modelle vergleichen. Zum Beispiel könnten wir ein
    linear mit einem nichtlinearen Modell vergleichen.,

  4. Die Vergleiche gelten nur für Modelle, die auf die gleiche Antwort
    Daten (dh Werte von y) passen.

  5. Die mit dem AIC durchgeführte Modellauswahl wählt dasselbe Modell wie die
    leave-one-Out-Kreuzvalidierung (bei der wir einen Datenpunkt
    weglassen und an das Modell anpassen, dann bewerten Sie seine Anpassung an diesen Punkt) für große
    – Stichprobengrößen.

  6. Sie sollten nicht zu viele Modelle mit dem AIC vergleichen., Sie werden
    mit dem Vergleich mehrerer Modelle auf dieselben Probleme stoßen wie
    mit p-Werten, da Sie möglicherweise zufällig ein Modell mit dem
    niedrigsten AIC finden, das nicht wirklich das am besten geeignete Modell ist.

  7. Wenn Sie den AIC verwenden, erhalten Sie möglicherweise mehrere Modelle, die
    ähnlich funktionieren. Sie haben also ähnliche Beweise
    Gewichte für verschiedene alternative Hypothesen. Im obigen Beispiel ist m3
    eigentlich ungefähr so gut wie m1.

  8. Sie sollten kleine Stichprobengrößen korrigieren, wenn Sie den AIC mit
    kleinen Stichprobengrößen verwenden, indem Sie die AICc-Statistik verwenden.,

Vorausgesetzt, es regnet den ganzen Tag, was für Vancouver vernünftig ist.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.