Aussagen wie „Die Chancen stehen 4:1, dass es morgen regnet“ oder „Die Chancen sind 50:50, dass Du in diesem Spiel gewinnst“ sind im Alltag häufig anzutreffen und sagen implizit etwas über die zugrunde liegende Wahrscheinlichkeit der entsprechenden Ereignisse aus. Was solche Aussagen mathematisch präzise bedeuten, schauen wir uns nun in diesem Kapitel genau an, weil es von großer Bedeutung für das Verständnis der logistischen Regression ist.

2.1 Der Begriff der Odds

Für ein Ereignis A (z. B. \(A = \) „Morgen regnet es“) bezeichnen wir mit \({\mathbb {P}}({A})\) die entsprechende Wahrscheinlichkeit und mit \(A^c\) das entsprechende Komplementär- oder Gegenereignis („nicht A“). Sobald man eine Wahrscheinlichkeit hat, kann man die sogenannten Odds definieren (wir verwenden typischerweise das englische Wort „Odds“ statt „Chance“).

Definition:  Odds (Chance)

Die Odds (Chance) eines Ereignisses A bezeichnen wir mit \({\text {odds}}\, ({A})\), wobeiFootnote 1

$$\begin{aligned} {\text {odds}}\, ({A}) = \frac{{\mathbb {P}}({A})}{{\mathbb {P}}\left( {A^c}\right) } = \frac{{\mathbb {P}}({A})}{1-{\mathbb {P}}({A})} \in [0{,} \infty ). \end{aligned}$$

Die Zahl \({\text {odds}}\, ({A})\) gibt uns also an, wievielmal wahrscheinlicher das Eintreten von A verglichen mit dem Nicht-Eintreten von A ist.

Bemerkung: \({\text {odds}}\, ({A})\) ist nur definiert für \({\mathbb {P}}({A}) < 1\).

Wenn man von einem Ereignis A den Wert von \({\text {odds}}\, ({A})\) kennt, dann kennt man automatisch auch \({\mathbb {P}}({A})\), denn es gilt

$$ {\mathbb {P}}({A}) = \frac{{\text {odds}}\, ({A})}{1 + {\text {odds}}\, ({A})}. $$

Dieser Zusammenhang ist in Abb. 2.1 (unten) dargestellt. Oder anders ausgedrückt: In den Odds steckt gleich viel Information wie in den Wahrscheinlichkeiten, einfach auf einer anderen Skala. Während eine Wahrscheinlichkeit auf dem Intervall [0, 1] „lebt“, ist dies bei Odds die Menge aller reellen Zahlen größer gleich Null.

Abb. 2.1
figure 1

Zusammenhang zwischen \({\text {odds}}\, ({A})\) und \({\mathbb {P}}({A})\)

Beispiel:  Regen

Die Wahrscheinlichkeit, dass es morgen regnet (Ereignis A) ist \({\mathbb {P}}({A}) = 0{.}8\). Die Odds, dass es morgen regnet, also \({\text {odds}}\, ({A})\), sind gemäß Formel

$$ {\text {odds}}\, ({A}) = \frac{0{.}8}{1 - 0{.}8} = \frac{0{.}8}{0{.}2} = 4. $$

Regen ist also viermal so wahrscheinlich wie kein Regen. Umgekehrt kann man aus den Odds die Wahrscheinlichkeit ausrechnen:

$$ {\mathbb {P}}({A}) = \frac{{\text {odds}}\, ({A})}{1 + {\text {odds}}\, ({A})} = \frac{4}{1 + 4}= 0{.}8 $$

Für die Modellierung in Kap. 3 wird es nützlich sein, einen Wert zu haben, der sich auf den ganzen reellen Zahlen (d. h. nicht nur auf der positiven Halbachse) abspielt. Dies erreicht man, indem man die Odds geeignet transformiert. Wenn man dabei die (natürliche) Logarithmus-Funktion verwendet, spricht man von sogenannten Log-Odds.

Abb. 2.2
figure 2

Zusammenhang zwischen \({\text {log-odds}}({A})\) und \({\mathbb {P}}({A})\)

Definition:  Log-Odds

Die Log-Odds eines Ereignisses A bezeichnen wir mit \({\text {log-odds}}({A})\), wobei

$$\begin{aligned} {\text {log-odds}}({A}) = \log ({\text {odds}}\, ({A})), \end{aligned}$$

d. h.

$$ {\text {odds}}\, ({A}) = \exp ({\text {log-odds}}({A})). $$

Bemerkung: \({\text {log-odds}}({A})\) ist nur definiert für \({\text {odds}}\, ({A}) > 0\).

Beispiel:  Regen (Fortsetzung)

Die Log-Odds, dass es morgen regnet, sind \({\text {log-odds}}({A}) = \log (4) \approx 1{.}386\). Umgekehrt können wir aus den Log-Odds die Odds

$$ {\text {odds}}\, ({A}) = \exp ({\text {log-odds}}({A})) = \exp (1{.}386) \approx 4 $$

und daraus die Wahrscheinlichkeit \({\mathbb {P}}({A})\) berechnen. Dies führt zur Formel

$$ {\mathbb {P}}({A}) = \frac{\exp ({\text {log-odds}}({A}))}{1 + \exp ({\text {log-odds}}({A}))} = 0{.}8. $$

Der Zusammenhang zwischen \({\text {log-odds}}({A})\) und \({\mathbb {P}}({A})\) ist in Abb. 2.2 dargestellt.

Wie alle bis jetzt gelernten Größen zusammenhängen und welche Eigenschaften diese haben, fassen wir folgendermaßen zusammen:

Intuition:  Wahrscheinlichkeiten, Odds und Log-Odds

Die wichtigsten Zusammenhänge und Merkregeln:

  • Wahrscheinlichkeit, Odds und Log-Odds eines Ereignisses sind redundant: Wenn man eine der Größen kennt, kann man die anderen beiden Größen damit berechnen. Der einzige Unterschied besteht darin, auf welcher Skala sich die Information befindet:

    $$\begin{aligned}\begin{gathered} 0 \le {\mathbb {P}}({A}) \le 1 \\ 0 \le {\text {odds}}\, ({A})< \infty \\ -\infty< {\text {log-odds}}({A}) < \infty \end{gathered}\end{aligned}$$
  • Änderungen gehen in die gleiche Richtung: Wenn man eine der drei Werte größer (bzw. kleiner) macht, werden die anderen beiden auch größer (bzw. kleiner). Zum Beispiel „Je größer die Odds, desto größer die Wahrscheinlichkeit“.

  • Für seltene Ereignisse (z. B. \({\mathbb {P}}({A}) \le 0{.}05\)) liefern Odds und Wahrscheinlichkeit in etwa die gleichen Zahlenwerte, d. h. \({\text {odds}}\, ({A}) \approx {\mathbb {P}}({A})\). So gilt z. B. für \({\mathbb {P}}({A})=0{.}05\), dass \({\text {odds}}\, ({A}) \approx 0{.}0526\).

  • Später nützliche Faustregeln für Log-Odds sind:

    $$\begin{aligned} \begin{array}{|c|c|c|c|c|c|c|c|} \hline {\text {log-odds}}({A}) &{} -3 &{} -2 &{} -1 &{} 0 &{} 1 &{} 2 &{} 3 \\ \hline {\mathbb {P}}({A}) &{} 5\,\% &{} 10\,\% &{} 25\,\% &{} 50\,\% &{} 75\,\% &{} 90\,\% &{} 95\,\% \\ \hline \end{array} \end{aligned}$$

    Bemerkung: Die Wahrscheinlichkeiten wurden hier jeweils auf \(5 \, \%\) gerundet.

Im Zusammenhang mit weiteren Ereignissen werden Odds auch mit bedingten Wahrscheinlichkeiten verwendet. Für die bedingte Wahrscheinlichkeit von A gegeben B schreiben wir \({\mathbb {P}}({A}\, |\, B)\). Die bedingte Wahrscheinlichkeit gegeben B ist nichts anderes als eine Wahrscheinlichkeit für die Situation, bei der wir wissen, dass B schon eingetreten ist. Die Odds von A gegeben B sind dann definiert als

$$ {\text {odds}}\, ({A}\, |\, B) = \frac{{\mathbb {P}}({A}\, |\, B)}{{\mathbb {P}}({A^c}\, |\, B)} = \frac{{\mathbb {P}}({A}\, |\, B)}{1 - {\mathbb {P}}({A}\, |\, B)}. $$

Man verwendet einfach die „normale“ Definition mit den entsprechenden bedingten Wahrscheinlichkeiten.

2.2 Vergleich von Wahrscheinlichkeiten und Odds

Eine Betrachtung mit bedingten Wahrscheinlichkeiten ist insbesondere dann nützlich, wenn man verschiedene Situationen miteinander vergleichen will. Wir könnten z. B. die Wahrscheinlichkeit (oder die Odds) betrachten für das Ereignis \(A = \) „Morgen regnet es“ für die zwei Situationen \(B = \) „Wetterprognose kündet Regen an“ und \(C = \) „Wetterprognose kündet Bewölkung aber keinen Regen an“. Oder aus dem medizinischen Bereich: Wie ändert sich die Wahrscheinlichkeit (oder die Odds) für Lungenkrebs (Ereignis A), wenn wir Raucher (B) mit Nichtrauchern (C) vergleichen?

Eine Möglichkeit für einen solchen Vergleich besteht darin, direkt die entsprechenden bedingten Wahrscheinlichkeiten zu betrachten. Dies führt zum sogenannten relativen Risiko (auf Englisch Risk-Ratio), abgekürzt mit RR, welches durch das Verhältnis der bedingten Wahrscheinlichkeiten gegeben ist (die Wahrscheinlichkeit für ein solches nachteiliges Ereignis nennt man auch „Risiko“). Formell schreiben wir dies als

$$ \text {RR}(A \mid B \, \text {vs.}\, C) = \frac{{\mathbb {P}}({A}\, |\, B)}{{\mathbb {P}}({A}\, |\, C)} $$

oder im Beispiel

$$ \text {RR}(\text {Lungenkrebs} \mid \text {Raucher vs. Nichtraucher}) = \frac{{\mathbb {P}}({\text {Lungenkrebs}}\, |\, \text {Raucher})}{{\mathbb {P}}({\text {Lungenkrebs}}\, |\, \text {Nichtraucher})}. $$

Das relative Risiko gibt uns hier direkt an, wievielmal wahrscheinlicher es in der Gruppe „Raucher“ ist, an Lungenkrebs zu erkranken, verglichen mit der Gruppe „Nichtraucher“. Neben dem relativen Risiko ist auch das absolute Risiko (d. h. die bedingte Wahrscheinlichkeit \({\mathbb {P}}({\text {Lungenkrebs}} | \text {Raucher})\)) von Bedeutung: Ein sehr großes relatives Risiko muss nicht zwangsläufig „bedrohlich“ sein, wenn das absolute Risiko immer noch für den Alltag bedeutungslos ist.

Beispiel:  Relatives und absolutes Risiko

Zwei Medikamente A und B kommen für eine Behandlung in Frage. Die Wahrscheinlichkeit für eine bestimmte Nebenwirkung ist bei Medikament A gleich 0.0001 und bei Medikament B gleich 0.001. Die Wahrscheinlichkeit für die Nebenwirkung ist also bei Medikament B zehnmal so groß wie bei Medikament A. Das relative Risiko ist 10 und somit scheint Medikament B deutlich gefährlicher als Medikament A. Allerdings ist das absolute Risiko bei Medikament B immer noch sehr klein. Je nach anderen Vorzügen dieses Medikaments könnte es daher dennoch zur Anwendung kommen.

Anstelle von bedingten Wahrscheinlichkeiten können wir auch die entspre chenden Odds miteinander vergleichen. Im Beispiel würden wir also \({\text {odds}}\left( {\text {Lungenkrebs}} | \text {Raucher}\right) \) mit \({\text {odds}}\left( {\text {Lungenkrebs}} | \text {Nichtraucher}\right) \) vergleichen. Wenn wir das entsprechende Verhältnis betrachten, führt dies zum sogenannten Odds-Ratio.

Definition:  Odds-Ratio

Das Odds-Ratio (auch: Chancenverhältnis oder relative Chancen) \({\text {OR}}({A}\,|\,{B}\,{\text {vs.}}\, {C})\) ist definiert als das Verhältnis von \({\text {odds}}\,({A}\,|\,B)\) zu \({\text {odds}}\,({A}\,|\,C)\), d. h.

$$ {\text {OR}}({A}\, | \,{B}\, {\text {vs.}}\, {C}) = \frac{{\text {odds}}\, ({A}\,|\,B)}{{\text {odds}}\, ({A}\,|\,C)} \quad \left( = \frac{{\mathbb {P}}({A}\,|\, B)}{{\mathbb {P}}({A}\,|\, C)} \cdot \frac{1 - {\mathbb {P}}({A}\,|\, C)}{1 - {\mathbb {P}}({A}\,|\, B)}\right) . $$

Weil die Odds schon selber ein Verhältnis sind, bezeichnet man das Odds-Ratio auch als Doppelverhältnis .

Beispiel:  Wirksamkeit eines Medikaments für zwei Patientengruppen

Wir schauen uns ein Medikament an und das Ereignis \(A = \) „Patient geheilt“ für die beiden Gruppen \(B = \) „Standardpatient“ und \(C = \) „Patient mit Zusatzerkrankungen“. Es seien

$$\begin{aligned} {\mathbb {P}}({A}\,|\, B) = 0{.}9 \, \text {bzw. \,} {\mathbb {P}}({A}\,|\, C) = 0{.}5. \end{aligned}$$

Für das relative Risiko gilt

$$ \text {RR}(A \mid B \text { vs. } C) = \frac{{\mathbb {P}}({A}\, |\, B)}{{\mathbb {P}}({A}\, |\, C)} = \frac{0{.}9}{0{.}5} = 1{.}8. $$

Die (bedingte) Wahrscheinlichkeit, geheilt zu werden, ist also bei Standardpatienten 1.8-mal so groß wie bei Patienten mit Zusatzerkrankungen.

Auf der Skala der Odds haben wir \({\text {odds}}\, ({A}\, |\, B) = 9\) und \({\text {odds}}\, ({A}\, |\, C) = 1\), was zu einem Odds-Ratio von

$$ {\text {OR}}({A}\, | \,{B}\, {\text {vs.}}\; {C}) = \frac{{\text {odds}}\, ({A}\, |\, B)}{{\text {odds}}\, ({A}\, |\, C)} = \frac{9}{1} = 9 $$

führt. Die Odds, geheilt zu werden, sind also bei den Standardpatienten 9-Mal so groß wie bei den Patienten mit Zusatzerkrankungen.

Bei all diesen Vergleichen ist es wichtig, dass diese im Alltag richtig interpretiert werden. Ein typischer Fehler besteht z. B. darin, das Odds-Ratio und das Risk-Ratio zu verwechseln. Die Interpretation ist für das Odds-Ratio zu Beginn sicher am schwierigsten. Wie wir später in Kap. 3 sehen werden, hat das Odds-Ratio diverse Vorteile und taucht später bei der logistischen Regression „ganz natürlich“ auf.

Die wichtigsten Merkregeln schreiben wir daher jetzt schon auf:

Intuition:  Merkregeln Odds-Ratio

Für das Odds-Ratio nützliche Merkregeln:

\({\text {OR}}({A}\, |\, {B}\, {\text {vs.}}\,{C}) = 1\):

Es gibt keinen Unterschied zwischen den Odds von A wenn man die Situationen B und C vergleicht (und damit ist auch die Wahrscheinlichkeit von A gleich).

\({\text {OR}}({A}\,| \,{B}\, {\text {vs.}}\,{C}) > 1\):

Die Odds von A sind in der Situation B erhöht verglichen mit C (und damit auch die Wahrscheinlichkeit von A).

\({\text {OR}}({A}\,| \,{B}\, {\text {vs.}}\,{C}) < 1\):

Die Odds von A sind in der Situation B reduziert verglichen mit C (und damit auch die Wahrscheinlichkeit von A).