Bayes'sche Netze Einführung

Bayes'sche Netze sind eine Methodik zum Schließen unter Unsicherheit. Bei praktisch allen Real-Life-Problemen spielen unbekannte und zufällige Einflüsse eine wesentliche Rolle. Diese Einflüsse verwischen / verrauschen die eigentlich zu modellierenden Zusammenhänge. Die resultierende Unsicherheit kann auf unterschiedliche Art und Weise berücksichtigt werden, z.B. durch die Modellierung mit Bayes'schen Wahrscheinlichkeiten. Die Bayes'sche Wahrscheinlichkeitsrechnung stellt einerseits eine konsistente mathematische Grundlage und andererseits eine intuitiv verständliche Beschreibungsmöglichkeit solcher stochastischer Zusammenhänge zur Verfügung. Insbesondere erlaubt sie die Formulierung rein subjektiver Wahrscheinlichkeiten und kann damit durch Experten formuliertes Wissen berücksichtigen.

Ein Bayes'sches Netz besteht aus einem Graph und bedingten Wahrscheinlichkeitsverteilungen:

Der Graph enthält Knoten, die Zufallsvariablen im Bayes'schen Sinne repräsentieren, sowie Kanten zwischen den Knoten, die (direkte) kausale Abhängigkeiten darstellen.
Die Kanten im Graph sind gerichtet und stellen damit jeweils einen kausalen Einfluss vom Knoten an dem die Kante beginnt (der Ursache) auf den Knoten auf den die Kante verweist (der Wirkung) dar.

Es sind nur solche Graphen zulässig, die keine (gerichteten) Zyklen enthalten. D.h. es dürfen keine zwei Knoten A und B existieren, bei denen man, unter Beachtung der Kantenrichtung, von Knoten A zu einem (beliebigen anderen) Knoten B und wieder zurück zu Knoten A gelangen könnte. Ein Graph der diese Bedingung erfüllt wird DAG (DirectedAcyclic Graph) genannt.
Das schließt jedoch nicht aus, dass es mehrere Wege von einem Knoten A zu einem Knoten B geben kann, es wird also keine Baumstruktur vorausgesetzt.
Auch muss nicht verlangt werden, dass es zwischen je zwei Knoten mindestens eine Verbindung (ungeachtet der Kantenrichtung) gibt, also der Graph verbunden (connected) ist. Da unverbundene Teilgraphen jedoch in jeder Hinsicht vollkommen unabhängig voneinander sind, ist es für die weitere Betrachtung einfacher solche unverbundenen Teilgraphen gleich als vollkommen eigenständige Netze zu betrachten. Es wird hier also im Weiteren von Verbundenen Graphen ausgegangen bei denen es zwischen je zwei Knoten A und B mindestens einen ("ungerichteten") Pfad von A nach B gibt, wobei dieser Pfad die Kantenrichtung nicht beachtet (z.B. gibt es im unten gezeigten Netz einen ungerichteten Pfad von "Unfälle" nach "Wetter" über "Sicht").

Beispiel-Netz

Durch die Graphen-Struktur hat jeder Knoten A eine Menge von Elternknoten pa(A). Diese umfasst all jene Knoten von denen eine Kante ausgeht, die auf den Knoten A zeigt. Dieser Satz von Elternknoten kann auch leer sein (pa(A)={}), was in einem DAG auch für mindestens einen Knoten der Fall sein muss. Entsprechendes gilt auch für die Menge der Kindknoten ch(A), also jene Knoten zu denen von A ausgehend eine Kante führt.¹⁾

Für jeden Knoten X im DAG müssen dann bedingte Wahrscheinlichkeitsverteilungen p(X|pa(X)) für den Knoten gegeben seine Eltern pa(X) definiert werden. Im Falle der häufig gemachten Einschränkung auf kategoriale Variablen haben diese Wahrscheinlichkeitsverteilungen die Form (mehrdimensionaler) Tafeln (CPTs). Für Variablen mit einer kontinuierlichen Zustandsmenge würden (mehrdimensionale) Dichteverteilungen benötigt. Dabei müssen aber mehrere Einschränkungen gemacht werden, die hier nicht weiter erläutert werden (siehe dazu den Abschnitt zu kontinuierlichen und hybriden Netzen). Für elternlose Knoten wird die sogenannte a-priori-Verteilung p(X) verlangt (die für diskrete Knoten verallgemeinert ebenfalls als CPT bezeichnet wird).

Beispiel-Netz mit bedingten
Wahrscheinlichkeitstafeln

Beispiel-Netz mit bedingten Wahrscheinlichkeiten (für einige der Knoten).
Für elternlose Knoten werden die A-Priori-Wahrscheinlichkeiten gegeben.

Neben der direkten kausalen Abhängigkeit zwischen Eltern- und Kindknoten gibt es in einem Bayes'schen Netz auch weiterreichende indirekte Abhängigkeitsbeziehungen. Dabei spielen auch die Mengen der Vorgänger an(A) und Nachfolger de(A) eines Knotens A eine Rolle. Diese Mengen enthalten neben den Elternknoten bzw. Kindknoten auch Knoten die über längere gerichtete (von A ausgehende bzw. zu A hinführende) Pfade mit A verbunden sind. Während unter einem (ungerichteten) Pfad jede Verbindung zweier Knoten über beliebig viele Kanten verstanden werden soll, bezeichnet ein gerichteter Pfad eine Verbindung in der nur entsprechend der Kantenrichtung vorgegangen werden darf.

Weiterreichende Abhängigkeiten zwischen Knoten können je nachdem über welche Knoten man Wissen aufgrund von Beobachtungen erlangt hat blockiert werden oder auch erst entstehen. Knoten deren Zustand bekannt ist werden als "gegeben" bezeichnet.

Es gilt:

Ein Knoten gegeben die Zustände seiner Elternknoten ist unabhängig von allen (sonstigen) Nicht-Nachfahren (das sind u.a. alle Vorfahren, da durch die Bedingungen an ein DAG ein Vorfahre nicht auch ein Nachfahre sein kann ohne einen gerichteten Zyklus zu erzeugen)

Für komplexere Unabhängigkeitsverhältnisse ist die Beschreibung mit Hilfe der d-separation / d-connection [1] hilfreicher:


serielle Verbindung	divergierende Verbindung	konvergierende Verbindung

Zwei Knoten A und B sind abhängig (d-connected) gegeben die aktuellen Beobachtungen, wenn es einen Pfad von A nach B gibt für den gilt:

Der Pfad enthält keine serielle oder divergierende Verbindung bei der der Zustand des mittleren Knotens (Knoten B in obigen Beispielen) beobachtet wurde - d.h. gegeben ist

Für die mittleren Knoten aller konvergierenden Verbindungen des Pfads liegt Information vor, entweder indem der Knoten direkt gegeben ist oder indem einer seiner Nachfolger bekannt ist.

Gibt es keinen solchen Pfad sind A und B d-separiert, d.h. unabhängig gegeben die aktuellen Beobachtungen. Die Stärke der Abhängigkeiten hängt von den Werten der bedingten Wahrscheinlichkeitstafeln ab. Diese können im Extremfall auch so gewählt sein, dass zwei Knoten obwohl d-connected dennoch tatsächlich unabhängig sind.¹⁾

¹⁾

Das ist z.B. immer der Fall wenn eine Gleichverteilung in allen Wahrscheinlichkeitstafeln hinterlegt wird.

In einem Bayes'schen Netz zu rechnen, bedeutet aus einem Satz von Beobachtungen bezüglich einiger (keinem...aller) Merkmale auf die resultierenden A-Posteriori-Wahrscheinlichkeitsverteilungen der unbeobachteten (unsicheren) Merkmale zu schließen. Man Beobachtet also z.B. Windrichtung, -stärke, Luftdruck, Temperatur, etc. und will nun die Regenwahrscheinlichkeit ermitteln.
Die einfachste, jedoch nur in sehr einfachen Netzen praktikable Möglichkeit dieses zu tun besteht darin, zunächst die Verbundwahrscheinlichkeitstafel aller Knoten über die Kettenregel zu bestimmen (s.a. Rechenregeln):

P(X1,...,XZ) =		P(Xi\|pa(Xi))
	i=1...Z

In dieser Tafel sind dann alle durch Beobachtung ausgeschlossenen Zustandskombinationen auf 0 zu setzen und die so gewonnene Tafel P* zu renormieren (so dass die Gesamtsumme aller Werte wieder 1 ergibt):

*P'(X1,...,XZ) = P(X1,...,XZ) /**		*P(X1,...,XZ)**
	i=1...Z

Aus der Tafel P' können dann die A-Posteriori-Wahrscheinlichkeitsverteilungen marginalisiert werden z.B. für den Knoten X durch:

P'(X) =		P'(X1,...,XZ)
	*{X1,...,XZ} \ X*

Leider ist eine Verbundtafel aller Knoten in nicht trivialen Netzen viel zu groß um damit effizient (oder überhaupt) rechnen zu können. Eine Lösung ergibt sich durch das ganz normale Distributivgesetz von Addition und Multiplikation (ab+ac = a(b+c)). Daraus folgt, dass abhängig von der Netzstruktur bereits bestimmte nicht mehr vorkommende Merkmale aus Zwischenergebnissen der Kettenregel "herausmarginalisiert" werden können. Leider ist dieses Verfahren abhängig davon für welches Merkmal die A-Posteriori-Verteilung berechnet werden soll, d.h. um alle unbekannten Knoten zu bestimmen muss mehrfach gerechnet werden.

Trotzdem lässt sich aus diesem Grundgedanken auch eine Methode ableiten, die auch dieses Problem löst. Dazu wird das Netz in mehreren Schritten in eine andere Form überführt, die es schließlich gestattet effizient aus der beobachteten Information bezüglich einzelner Variablen (Evidenz) Rückschlüsse auf die resultierenden Wahrscheinlichkeits-Verteilungen (A-Posteriori-Wahrscheinlichkeiten) der übrigen unbekannten Merkmale zu ziehen. Dieses Verfahren bestimmt zunächst eigentlich eine möglichst optimale Abfolge der Marginalisierungen, was durch ein graphisches Verfahren geschieht.

Dabei wird zunächst der sogenannte Moralische Graph aus dem DAG gebildet, indem für jeden Knoten X alle Eltern pa(X) paarweise durch ungerichtete Kanten verbunden werden (wenn sie noch nicht verbunden sind) und die gerichteten Kanten in ungerichtete Kanten überführt werden (einfach durch das Vernachlässigen der Richtung).

Ein weiterer Graph, der aus dem Moralischen Graph erzeugt wird ist der Triangulierte (Moralische) Graph.

Ein Graph ist trianguliert, wenn jeder (ungerichtete) zyklische Pfad mit mehr als drei Knoten eine direkte Abkürzung (ohne Zwischenstationen) enthält.

Ein Graph ist im allgemeinen auf vielfältige Art triangulierbar. Je nach Verwendungszweck können unterschiedliche Triangulierungen als optimal angesehen werden. Ein offensichtliches Kriterium ist die Anzahl zusätzlicher Kanten (Fill-Ins) möglichst klein zu halten. Im Zusammenhang mit Probabilistischen Netzen ist das eigentliche Ziel die Wahrscheinlichkeitstafeln, die zu den maximal verbundenen Teilgraphen (Cliquen, s.u.) des Triangulierten Graphs aufgestellt werden, klein zu halten. In grober Näherung kann man aber sagen, dass ein Graph, der in Bezug auf das eine Kriterium gut ist, in Bezug auf das andere Kriterium nicht allzu schlecht sein kann.

Cliquen sind die größten maximal verbundenen Teilgraphen eines triangulierten Graphen.
Maximal verbunden ist ein (Teil-)Graph wenn alle seine Knoten paarweise verbunden sind, d.h. keine Kante "fehlt".
Größter maximal verbundener Teilgraph heißt ein Teilgraph dann, wenn ihm kein weiterer Knoten hinzugerechnet werden kann, ohne dass das Maximal-Verbunden-Kriterium gebrochen würde.

Zur Triangulierung und Cliquen-Bestimmung kann der Eliminierungs-Algorithmus[1] verwendet werden:

Wähle einen Knoten X
Verbinde paarweise alle Nachbarn von X durch eine Kante (wenn noch nicht verbunden)
Sofern X und alle Nachbarn von X nicht schon Teil einer zuvor gefundenen Clique sind bilden sie eine neue Clique
Entferne (eliminiere) X
Wiederhole die Schritte 1-4 bis kein Knoten mehr übrig ist.

Um eine möglichst gute Triangulierung zu erreichen wird vor der eigentlichen Eliminierung jeder verbliebene Knoten ausprobiert ("One-Step-Look-Ahead-Heuristik") und dann der beste Hinsichtlich des Kriteriums (wenigste Fill-Ins, kleinste Tafel-Größe) gewählt. Dieses Verfahren liefert oft gute Ergebnisse. Eine optimale Triangulierung zu finden wäre aber NP-hard, so dass das optimale Ergebnis i.a. auch durch aufwändigere Verfahren nicht gewährleistet werden könnte. Mit deutlich höherem Rechenaufwand können für komplexe Netze teils noch erheblich bessere Triangulierungen gefunden werden. Hierfür gibt es verschiedene Ansätze die hier kurz dargestellt werden.
Dieses Verfahren sorgt u.a. auch dafür dass es für jeden Knoten X mindestens eine Clique gibt die sowohl X selbst als auch alle Elternknoten pa(X) enthält. Eine solche Clique wird als Home-Clique bezeichnet.

Triangulierter Moralischer Graph
Dieser Graph ist bereits durch die zusätzlichen Kanten zur "Moralisierung" (Verheiratung von Elternknoten gemeinsamer Kindknoten) auch trianguliert, ohne dass noch zusätzliche "Fill-Ins" eingefügt werden müssen.

Aus den Cliquen wird eine sekundäre Struktur, der Junction-Tree erzeugt. Im Junction-Tree bilden die Cliquen die (Hyper-)Knoten, während die Separatoren die Kanten darstellen.

Ein Separator ist die Schnittmenge der Knoten der beiden verbundenen Cliquen.

Die Cliquen müssen durch Separatoren derart verbunden werden, dass eine Baum-Struktur gebildet wird, die zusätzlich die Running-Intersection-Eigenschaft erfüllt (d.h. es werden i.d.R. nicht alle denkbaren Separatoren verwendet).

Ein Graph ist verbunden (connected), wenn es zwischen je zwei Knoten mindestens einen Pfad gibt
Eine verbundener Graph mit Z Knoten und Z-1 Kanten heißt Baum. In einem Baum sind alle Knoten über genau einen Pfad verbunden.
Die Running-Intersection-Eigenschaft ist dann erfüllt, wenn ein Knoten, der in zwei Cliquen auftritt auch in jeder Clique des (einzigen) Pfads zwischen diesen beiden Cliquen vorkommt (und damit auch in jedem Separator dieses Pfads). Dieses ist nur in triangulierten Graphen möglich.

Junction-Tree mit 3 Cliquen und 2 Separatoren (die enthaltenen Knoten sind hier nur für die Cliquen dargestellt), wie er mit folgender Eliminierungsreihenfolge entsteht: Tageszeit, Wetter, Sicht, Konzentration, Straße, Unfälle, wobei für die letzten drei Knoten keine Cliquen entstehen, da diese jeweils Teilmenge mind. einer anderen Cliquen wären.

Zu Cliquen, wie auch Separatoren werden dann die zugehörigen Wahrscheinlichkeitstafeln aufgestellt (s. Initialisierung) . Diese bestehen aus den Verbundwahrscheinlichkeiten (nicht mehr den bedingten Wahrscheinlichkeiten) der enthaltenen Knoten. Evidenz wird von Clique zu Clique über die Separatorentafeln weitergeleitet, um die vorhandene Information über den gesamten Junction-Tree zu propagieren und die resultierenden A-Posteriori-Wahrscheinlichkeitsverteilungen aller Knoten zu gewinnen. Es existieren verschiedene Propagations-Methoden, die einen Junction-Tree benutzen.

Verbundwahrscheinlichkeitstafeln für Clique 1 (unten rechts) und den Separator zwischen Clique 1 und Clique 2 (unten links) des Junction-Trees (nach Initialisierung und Propagation ohne Evidenz)

Ein Beispiel ist die HUGIN-Propagation [1]. Zunächst wird die Evidenz in den Junction-Tree eingebracht, indem Zellen die mit unmöglichen Zuständen korrespondieren auf 0 gesetzt werden. Das geschieht für jeden Knoten (mit Evidenz) in einer beliebigen, diesen Knoten enthaltenden Cliquen Tafel. Nachdem alle verfügbare Evidenz eingebracht ist, muss die Information über den gesamten Junction-Tree propagiert werden. Um Information von einer Clique C1 über einen Separator S zu einer Clique C2 weiterzuleiten wird folgendes Berechnungs-Schema verwendet:

P(C2') :=	*P(C2) / P(S) P(S')**
mit
P(S') :=		P(C1)
	C1 \ S
und
P(S) :=		P(C2)
	C2 \ S

Dabei sind:

P(C1) und P(C2) die beiden Cliquen-Tafeln (vor der Informationsweiterleitung),
P(S) ist die "alte" Separator-Tafel, die der Randwahrscheinlichkeit für S aus P(C2) entspricht und
P(S') ist die neue Tafel die die weiterzuleitende Information aus P(C1) enthält.
P(C2') schließlich ist die neue Cliquentafel der Clique C2.

Um alle Information über den gesamten Junction-Tree zu verteilen wird zunächst eine Informationsweiterleitungs-Sequenz in Form einer umgekehrten Tiefensuche von den Blättern (entfernteste Knoten) hin zur (frei wählbaren) Root-Clique des Junction-Trees ausgeführt. Dieser Schritt heisst Collect-Phase. Danach wird in umgekehrter Richtung von der Wurzel zu den Blättern propagiert (Distribute-Phase).

Die initialen Verbundwahrscheinlichkeiten zu den Cliquen und Separatoren werden durch folgendes Verfahren gewonnen:

Alle Cliquen- und Separatorentafeln werden mit 1 initialisiert
Die bedingte Wahrscheinlichkeitstafel jedes Knotens wird in eine Home-Clique dieses Knotens einmultipliziert
Nach einer vollständigen Propagation (Collect- und Distribute-Phase) ist der Junction-Tree initialisiert, d.h. die Verbundtafeln der Cliquen und Separatoren wurden erzeugt.

Neben den A-Posteriori-Verteilungen einzelner Merkmale ist u.U. auch eine A-Posteriori-Verteilung mehrerer Merkmale gesucht. Ohne weiteres ist dieses nur möglich wenn alle diese Merkmale in mind. einer Clique gemeinsam enthalten sind. Ansonsten kann diese Verteilung durch eine sogenannte Y-Propagation [1] gewonnen werden. Grob gesagt unterscheidet sich dieses Verfahren von dem zuvor beschriebenen nur dadurch, dass vermieden wird über Merkmale zu marginalisieren, für die die gemeinsame Verteilung gesucht ist (siehe Informationsweiterleitung). Die gesuchte Verteilung kann schließlich aus der Root-Clique erhalten werden (u.U. durch Marginalisierung über die restlichen Merkmale der Clique).

Hauptproblem aller exakten Berechnungsverfahren ist das Finden eines handhabbaren Junction-Trees. Diese Frage hängt auch mit der Triangulierung zusammen. Es ist nicht zu gewährleisten, dass hierfür eine optimale Lösung (in annehmbarer Zeit) gefunden werden kann. Es gibt jedoch auch Netzstrukturen für die selbst der optimale Junction-Tree noch zu komplex ist um mit ihm effektiv rechnen zu können. Neben der exakten Berechnung über einen Junction-Tree existieren daher auch noch approximative Verfahren. Diese schätzen die Verteilungen indem eine Anzahl von möglichen Beispielen (Samples) entsprechend der durch das Netz vorgegebenen Wahrscheinlichkeitsverteilungen erzeugt wird (Monte Carlo Sampling) (s.a. BN's und Daten).

Ein paar Formalitäten müssen dann doch noch sein...

Grundlage der Wahrscheinlichkeitsrechnung sind die Axiome vom Kolmogorov:

Axiom I: Die Wahrscheinlichkeitsfunktion P(.) ordnet jedem Ereignis x aus einer Ereignismenge W ("Omega") einen Wert zwischen 0 und 1 zu.
0 <= P(x) <= 1

Axiom II: W ("Omega") ist das sichere Ereignis, es gilt:
P(W) = 1

Axiom III: für zwei disjunkte (sich gegenseitig ausschließende) Ereignisse a und b gilt:
P(a or b) = P(a) + P(b)

Es gilt für die hier gemachten Berechnungen die Setzung:

0 / 0 := 0

Dies wird benötigt, da der Fall "0/0" z.B. in der Informationweiterleitung für durch Beobachtung ausgeschlossene Zustände auftritt (dabei soll es einfach bei "unmöglich" also P(.)=0 bleiben).

Die Multiplikation / Division / Addition / Subtraktion zweier Wahrscheinlichkeits-Tafeln ergibt eine Tafel die (formal) die Vereinigungsmenge der Merkmale beider Tafeln enthält:

P(A,B)

op

P(B,C)

=

P(A,B,C)

mit

P(a,b,c)

=

P(a,b)

op

P(b,c)

Dabei

steht op für den jeweiligen Operator aus {*, /, +, -}

gehen a,b,c über alle Kombinationen der Indizes der Zustände von A,B und C

Marginalisierung "entfernt" Merkmale aus einer Tafel, indem über alle Werte, die sich nur in den Zuständen der zu marginalisierenden Merkmale unterscheiden summiert wird.

					#C	#D
	*P(A,B,C,D) =*	*P(A,B)*	mit	P(a,b) =			P(a,b,c,d)
*C,D*					c = 1	d = 1

Dabei

sind #C bzw. #D die Anzahl der Zustände des Merkmals C bzw. D

und a,b nehmen alle Zustandskombinationen der Merkmale A und B an.

Ein weiteres Beispiel für ein Netz, das so einfach ist, dass man es noch relativ leicht "von Hand" nachrechnen kann (wenn man will):

Junction-Tree zum obigen Beispiel mit zwei Cliquen (B,C) und (A,B), einem Separator (B) und den zugehörigen Verbundwahrscheinlichkeiten:

Junction-Tree zum obigen Beispiel-Netz
A->B->C

Da es im Ausgangs-BN keine zwei Eltern-Knoten mit gemeinsamen Kind-Knoten gibt, entspricht der Ausgangs-DAG bereits dem "Moralischer Graph" (indem man lediglich die Kanten in ungerichtete Kanten überführt). Da auch keine (ungerichteten) Zyklen enthalten sind ist der Graph außerdem bereits trianguliert, so dass also weder zur "Moralisierung" noch zur Triangulierung Kanten hinzugefügt werden müssen. Damit ergeben sich zwei Cliquen (A,B) und (B,C) mit dem Separator B. Wobei hier die Clique (B,C) zur Root-Clique des Junction-Trees bestimmt wurde (was aber willkürlich ist).

Was hat denn eigentlich der Frosch mit der Sache zu tun?
Nun, Frösche haben ja bekanntlich die Fähigkeit das Wetter - also praktisch den Urquell aller Unsicherheit - vorherzusagen. Das ist etwas, was zugegebenermaßen auch mit Bayes'schen Netzen (noch) nicht wirklich möglich ist - aber man wird ja noch träumen dürfen. Ok, normalerweise sagt einem der Anblick einer übel gelaunten Kröte auch nichts, was man nicht durch einen Blick aus dem Fenster selbst rausgekriegt hätte, ... aber prinzipiell könnten sie wenn sie nur mal wollten (und nicht ständig so üble Laune hätten)...

Zum Kapitel über die Decomposition Bayes'scher Netze (triangulieren von Graphen)
Zum Kapitel über Dynamische Bayes'sche Netze
(zur Zeitreihenuntersuchung)
Zum Kapitel über Modulare Bayes'sche Netze
(Module statisch / dynamisch zusammenfügen)
Zum Kapitel über Bayes'sche Netze & Daten
(Struktur und bed. Wahrscheinlichkeiten aus Daten ableiten / Klassifikation / Daten-Sampling)
Zum Kapitel über Kontinuierliche und Hybride Netze
(Netze mit Knoten mit kontinuierlichen Wertebereichen)
Zu den (statischen) Anwendungs-Beispielen
(Explaining Away, Soft Evidence, Simpson Paradox, ...)
Für Safari, Google-Chrome und Mozilla-Browser (Firefox, Seamonkey), sowie mit Einschränkungen auch mit Opera¹⁾ nutzbar jetzt auch verschiedene interaktive Online-Beispiele (alle noch Beta):

Anwendungs-Beispiele
(Explaining Away, Soft Evidence, Simpson Paradox, Hidden-Markov-Models, ...)
Verschiedene Inferenz-Algorithmen
(Full-Joint, Junction-Tree, Loopy-Belief, LW-Sampling, Gibbs-Sampling)
Max-Propagation
(Full-Joint, Junction-Tree, Loopy-Belief)
Dynamische Netze
(d-HUGUN)
Lern-Algorithmen
(Lernen der bedingten Wahrscheinlichkeiten, Lernen der Struktur)
Hybride Netze
(Semi-Strong-Elimination-Tree, LW-Sampling)
Größere Beispielnetze
(bekannte Beispiele)
Optimierung der Triangulierung (Tree-Decomposition)
(mit Evolutionären Algorithmen)

¹⁾

Kanten werden nicht richtig dargestellt.

A
Addition (Tafeln)
Alpha=1-Methode
Ant-Colony-Optimization (Decomposition)
äquivalente Strukturen
Axiome von Kolmogorov
B
Baum-Welch-Algorithmus
Bayesian Information Criterion (BIC)
Bayesian Quality (BQ)
Bayes'sche Formel
bedingte Unabhängigkeit
bedingte Wahrscheinlichkeitsverteilung + Bsp.
Beta-Methode (Online-Demo¹⁾)
Beta-Verteilung
C
Cliquen
Collect-Phase (Online-Demo¹⁾)
Conditional Gaussians
connected (graph)
CPT (Conditional Probability Table) + Bsp.
D
d-connection
Decomposition (s.a triangulierter Graph)
Dirichlet-Verteilung
Diskretisierung
Distribute-Phase
divergierende Verbindung
Division (Tafeln)
d-separation
Dynamische Bayes'sche Netze (Online-Demo¹⁾)
E
Eliminations Algorithmus
Elimination-Tree (Online-Demo¹⁾)
EM-Algorithmus (Online-Demo¹⁾)
Entrollen (DBN)
Erwartungskosten
Evolutionäre Algorithmen (Decomposition)
Exchange-Operation (Online-Demo¹⁾)
(auf Conditional Gaussians)
Explaining Away (Online-Demo¹⁾)
F
Finding-Vektor
Frosch

G
Gibbs-Sampling (Online-Demo¹⁾)
Greedy-Search
H
Hidden Markov Model (HMM) (Online-Demo¹⁾)
Home-Clique
HUGIN-Propagierung (Online-Demo¹⁾)
Hybride Netze (Online-Demo¹⁾)
I
Inferenz
Informationsweiterleitung
J
Junction-Tree (Online-Demo¹⁾)
K
Kettenregel
Klassifikation
Kolmogorov (Axiome)
konjugierte Verteilung
kontinuierliche Knoten / Netze
konvergierende Verbindung
L
Likelihood
LW-Sampling (Online-Demo¹⁾)
Loopy-Belief-Propagation (Online-Demo¹⁾)
M
Marginalisierung
Markov Bedingung
Markov-Blanket
Maximum Likelihood Schätzung
Max-Propagation (Online-Demo¹⁾)
message passing
MDL Quality
Modulare Netze
Moralischer Graph
Multiplaktion (Tafeln)
N O
One-Step-Lookahead-Eliminierung

P
Propagierung (Junction-Tree)
Q
R
Root-Clique
Running-Intersection-Eigenschaft
S
Sampling (Online-Demo¹⁾)
Sampling in hybriden Netzen (Online-Demo¹⁾)
Separatoren
serielle Verbindung
Set-Tail-Operation
(auf Conditional Gaussians)
Simpson Pradox (Online-Demo¹⁾)
Simulated Annealing (Decomposition)
Soft Evidence (Online-Demo¹⁾)
stationär
Strong-Elimination-Tree
Strong-Semi-Elimination-Tree (Online-Demo¹⁾)
Strukturlernen (Online-Demo¹⁾)
Subtraktion (Tafeln)
T
Teilnetze (Modulare Netze)
Tree-Decomposition (Decomposition)
Tree-Width
triangulierter Graph
U
Unabhängigkeit von Merkmalen
Ungerichtete Verbindungen (Online-Demo¹⁾)
V
verbundener Graph
W X
Y
Y-Propagation (Online-Demo¹⁾)
Z
Zeitfenster
Zeitscheibe

¹⁾

Funktioniert nur mit neueren Safari-, Google-Chrome- oder Mozilla-Browsern (Firefox, SeaMonkey), sowie mit Einschränkungen auch mit Opera.

[1]

"An Introduction to Bayesian Networks" Finn V. Jensen, 1996, ISBN: 1-85728-332-5 HB

[2]

"Probabilistische Netze" Patrick Rammelt, 2005
Eine weitere ausführlichere Einführung in das Thema, einschließlich modularer und dynamischer Netze.

Download:

ProbNetze.pdf (PDF 950K)