Modelos gráficos - UPV

2014-2015
´
Aprendizaje Automatico
´
6. Modelos graficos
Francisco Casacuberta Nolla
([email protected])
Enrique Vidal Ruiz
([email protected])
`
Departament de Sistemas Informatics
i Computacio´ (DSIC)
`
`
Universitat Politecnica
de Valencia
(UPV)
December 17, 2014
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.1
Index
◦ 1 Introduccion
´ a los modelos graficos
´
2 Redes bayesianas
4
3 Inferencia en redes bayesianas
4 Aprendizaje de redes bayesianas
´
5 Otros modelos graficos
December 17, 2014
1
21
31
33
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.2
´
Modelos graficos
(MG)
´ compacta de distribuciones de probabilidad
• Concepto: Representacion
conjunta mediante grados dirigidos (redes bayesianas) y no dirigidos (campos
aleatorios markovianos) (Teor´ıa de grafos + teor´ıa de la probabilidad). Los
MGs generalizan a las redes neuronales y a los modelos de Markov ocultos
entre otros.
• Aspectos:
´ de probabilidad
– Inferencia: para responder cuestiones sobre la distribucion
´
´
– Aprendizaje: para obtener los parametros
y la estructura del modelo grafico
• Aplicaciones
´
´
– Diagnostico
medico,
de fallos, ...
´ por computador: segmentacion
´ de imagenes,
´
´ 3D,
– Vision
reconstruccion
´
analisis
de escenas
´ de
– Procesado del lenguaje natural: reconocimiento del habla, extraccion
´ textual, traduccion
´ automatica,
´
informacion
...
´
´ localizacion,
´ ...
– Robotica:
planificacion,
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.3
Algunos conceptos sobre la teor´ıa de las probabilidades
Probabilidad
P (x) :
P (x) = 1
x
Probabilidad conjunta
P (x, y) :
P (x, y) = 1
x
Probabilidad condicional
Marginales
P (x) =
P (x | y) :
P (x, y),
y
Regla de la probabilidad conjunta
y
x
P (x | y) = 1 ∀y
P (y) =
P (x, y)
x
P (x, y) = P (x) P (y | x)
N
Regla de la cadena
P (x1, x2, . . . , xN ) = P (x1)
i=2
Regla de Bayes
December 17, 2014
P (xi | x1, . . . , xi−1)
P (y | x) P (x) = P (y) P (x | y)
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.4
Index
´ a los modelos graficos
´
1 Introduccion
◦ 2 Redes bayesianas
1
4
3 Inferencia en redes bayesianas
21
4 Aprendizaje de redes bayesianas
´
5 Otros modelos graficos
31
33
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.5
Redes bayesianas
(Bishop. Pattern Recognition and Machine Learning. 2006)
Un ejemplo simple:
´ conjunta para tres variables: P (a, b, c) = P (a) P (b | a) P (c | a, b) que
Distribucion
se representa como un grafo ac´ıclico y dirigido:
a
b
c
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.6
´ ejemplos
Mas
P (a, b, c) =
P (a) P (b) P (c | a, b)
P (a, b, c, d, e, f ) =
P (a) P (b) P (c) P (d | b, c) P (e | a, b, d) P (f | a, c)
a
a
c
b
d
b
f
c
e
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.7
Un ejemplo detallado
P (A | L)
Lluvia (L)
n
s
Aspersor
P (L)
Aspersor (A)
f
p
0.40 0.60
0.01 0.99
Lluvia
Lluvia (L)
n
s
0.8 0.2
Césped
Aspersor
´
Cesped
Lluvia
f:
p:
m:
d:
s:
n:
funciona
parado
mojado
desecado
s´ı llueve
no llueve
P (C | A, L)
Aspersor (A)
p
p
f
f
Lluvia (L)
n
s
n
s
´
Cesped
(C)
m
d
0.00 1.00
0.80 0.20
0.90 0.10
0.99 0.01
´ conjunta: P (L, A, C) = P (L) P (A | L)P (C | L, A)
Distribucion
Ejercicio: calcular P (L = l, A = a, C = c),
December 17, 2014
l ∈ {s, n}, a ∈ {p, f}, c ∈ {m, d}.
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.8
Un ejemplo
´ es la probabilidad de que llueva si el cesped
´
• ¿Cual
esta´ mojado?
P (L = s, C = m)
P (C = m)
P (L = s | C = m) =
a∈{f,p} P (L
=
= s, A = a, C = m)
a∈{f,p},l∈{s,n} P (L
= l, A = a, C = m)
0.00198 + 0.1584
0.00198 + 0.288 + 0.1584 + 0.0
=
= 0.3577
´
• El cesped
esta´ mojado, ¿llueve?
arg max P (L = l | C = m) = n
l∈{s,n}
Ejercicio: a) Calcular P (A = a | L = l, C = c), a ∈ {p, f}, l ∈ {s, n}, c ∈ {m, d}.
´
b) Llueve y el cesped esta´ mojado, ¿como
esta´ el aspersor?
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.9
Otro ejemplo
P (P )
´ (P)
Polucion
a
b
0.1
0.9
P (X | C)
Rayos X (X)
´
Cancer
(C)
p
n
p
0.90 0.10
n
0.20 0.80
´
Polucion
Fumador
Disnea
Rayos X
´
Cancer
December 17, 2014
a:
b:
s:
n:
s:
n:
p:
n:
p:
n:
alto
bajo
s´ı
no
s´ı
no
positivo
negativo
positivo
negativo
P (F )
Polución
Fumador
Cáncer de
pulmón
Rayos X
Disnea
P (C | P, F )
´ (P)
Polucion
a
a
b
b
Fumador (F)
s
n
s
n
Fumador (F)
n
s
0.7
0.3
P (D | C)
Disnea (D)
´
Cancer
(C)
s
n
p
0.65 0.35
n
0.30 0.70
´
Cancer
(C)
p
n
0.05
0.95
0.08
0.92
0.03
0.97
0.001 0.999
´ es la probabilidad de que un paciente
Ejercicio: ¿Cual
´
no fumador no tenga cancer
si la radiograf´ıa ha dado un
resultado negativo pero sufre de disnea?
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.10
Redes bayesianas
Una red bayesiana es un grafo dirigido y ac´ıclico (“directed acyclic graph”
-DAG-) donde:
• Los nodos representan:
– variables (discretas o cont´ınuas)
– distribuciones de probabilidad condicional para cada variable xi dados
los valores de las variables asociadas a los nodos padres a(xi)
• Los arcos representan dependencias entre las variables
´ de
Una red bayesiana con nodos x1, . . . , xD define una distribucion
probabilidad conjunta:
D
P (x1, . . . , xD ) =
i=1
P (xi | a(xi))
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.11
Ejemplos simples de redes bayesianas
• El clasificador de Bayes (x ∈ Rd y c ∈ {1, . . . , C}):
c
P (c)
P (x, c) = P (c) P (x | c)
x
P (c | x) =
P (x | c)
P (x, c)
c P (x, c)
• Modelos naive-Bayes (xi ∈ R con 1 ≤ i ≤ d y c ∈ {1, . . . , C}):
c
P (c)
d
P (x1, . . . , xd, c) = P (c)
x1
P (x1 | c)
December 17, 2014
xd
i=1
P (xi | c)
P (xd | c)
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.12
Otro ejemplo: modelo oculto de Markov
P(q |q )
1 1
P(S|q ) P(q |q )
1
2 1
q
1
S ε {a, b, c}
P(q |q )
2 2
P(X |Q ) P(X |Q )
1 1
2 2
X1
X2
P(X |Q )
3 3
X3
P(X |Q )
4 4
X4
P(S|q )
2
q2
Q
1
P(Q )
1
Q
2
P(Q |Q )
2 1
Q
Q
3
P(Q |Q )
3 2
4
P(Q |Q )
4 3
P (X1 X2 X3 X4, Q1 Q2 Q3 Q4) =
P (Q1) P (X1 | Q1) P (Q2 | Q1) P (X2 | Q2) P (Q3 | Q2) P (X3 | Q3) P (Q4 | Q3) P (X4 | Q4)
P (X1 = a, X2 = a, X3 = b, X4 = c) =
P (X1 = a, X2 = a, X3 = b, X4 = c, Q1 = r1, Q2 = r2, Q3 = r3, Q4 = r4)
r1 ,r2 ,r3 ,r4 ∈{q1 ,q2 }
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.13
Independencia condicional
Se dice que a es independiente condicionalmente de b dado
´ que a esta´ D-separado de b por c, y se denota
c (o tambien
como: a b | c) si:
P (a | b, c) = P (a | c) ⇔ P (a, b | c) = P (a | c)P (b | c)
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.14
Independencia condicional: estructuras t´ıpicas de RBs
´ causal a
Direccion
b
c
a
P (a, b | c) =
c
a
a
P (a)P (c | a)P (b | c)
= P (a | c)P (b | c)
P (c)
Causa comun
´ a
P (a, b | c) =
b
b|c
P (c)P (a | c)P (b | c)
= P (a | c)P (b | c)
P (c)
Estructura en V a / b | c
b
En general P (a, b | c) =
c
b|c
P (a)P (b)P (c | a, b)
= P (a | c)P (b | c)
P (c)
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.15
Independencia condicional (I)
´ es la relacion
´ entre a y b?
• Caso 1: ¿Cual
P (a, b, c) = P (a)P (c | a)P (b | c)
a
c
b
P (a, b) =
c P (a)P (c
| a)P (b | c)
En general P (a, b) = P (a)P (b) ⇒ a / b | ∅
a
c
b
P (a, b | c) =
P (a, b, c) P (a)P (c | a)P (b | c)
=
P (c)
P (c)
= P (a | c)P (b | c) ⇒ a
b|c
El nodo c es cabeza-con-cola con respecto al camino desde a a b via c: Dos
nodos a y b conectados via un nodo c cabeza-con-cola son independientes
condicionalmen si c esta´ dado (nodo c bloquea al camino desde a a b).
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.16
Independencia conditional (II)
´ es la relacion
´ entre a y b?
• Caso 2: ¿Cual
P (a, b, c) = P (a | c)P (b | c)P (c)
c
P (a, b) =
a
c P (a
| c)P (b | c)P (c)
En general P (a, b) = P (a)P (b) ⇒ a / b | ∅
b
c
P (a, b | c) =
a
P (a, b, c)
= P (a | c)P (b | c) ⇒ a
P (c)
b|c
b
El nodo c es cola-con-cola con respecto a el camino desde a a b via c:
Dos nodos a y b conectados via un nodo c cola-con-cola son independientes
condicionalmente si c esta´ dado, (nodo c bloquea al camino desde a a b).
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.17
Independencia conditional (III)
´ es la relacion
´ entre a y b?
• Caso 3: ¿Cual
a
b
P (a, b, c) = P (a)P (b)P (c | a, b)
P (a, b) =
= P (a)P (b) ⇒ a
c
a
b
P (a, b | c) =
c
c P (a)P (b)P (c
| a, b)
b|∅
P (a, b, c) P (a)P (b)P (c | a, b)
=
P (c)
P (c)
En general P (a, b | c) = P (a | c)P (b | c) ⇒ a / b | c
El nodo c es to cabeza-con cabeza con respecto al camino desde a a b via c: Dos
nodos a y b conectados via un nodo c cabeza-con-cabeza no son independientes
condicionalmete si c esta´ dado, pero en caso contrario son independientes
condicionalmente (nodo c bloquea al camino desde a a b cunado c esta´ dado).
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.18
Independencia condicional: Ejemplo
• B es el estado de la bater´ıa (cargada B = 1 o descargada B = 0)
´
• C es el estado del deposito
de combustible (lleno C = 1 o vac´ıo C = 0)
´
• I es el estado del indicador electrico
del combustible (lleno I = 1 o vac´ıo I = 0)
P (B = 1) = P (C = 1) = 0.9
B
C
P (I = 1 | B = 1, C = 1) = 0.8
P (I = 1 | B = 1, C = 0) = 0.2
I
P (I = 1 | B = 0, C = 1) = 0.2
P (I = 1 | B = 0, C = 0) = 0.1
P (B, I, C) = P (B) P (C) P (I | B, C)
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.19
Independencia condicional
P (B
P (B
P (I =
P (I =
P (I =
P (I =
= 1) = P (C
= 0) = P (C
1 | B = 1, C
1 | B = 1, C
1 | B = 0, C
1 | B = 0, C
=
=
=
=
=
=
1)
0)
1)
0)
1)
0)
=
=
=
=
=
=
0.9
0.1
0.8
0.2
0.2
0.1
B
C
I
B
C
I
P (B, I, C) = P (B) P (C) P (I | B, C)
´ sobre I ¿cual
´ es la probabilidad conjunta de B y C ?:
Si no tenemos informacion
P (B = 0, C = 0) = P (B = 0, C = 0, I = 0)+P (B = 0, C = 0, I = 1) = 0.01 = P (B = 0) P (C = 0)
⇒ B C|∅
´ es la probabilidad P (B = 0, C = 0 | I = 0)?
Supongamos que vemos I = 0, ¿Cual
P (B = 0, C = 0 | I = 0) =
P (B = 0 | I = 0) =
P (C = 0 | I = 0) =
P (B = 0) P (C = 0) P (I = 0 | B = 0, C = 0)
= 0.02857
b,c∈{0,1} P (B = b) P (C = c) P (I = 0 | B = b, C = c)
P (B = 0) P (C = c) P (I = 0 | B = 0, C = c)
= 0.25714
P (B = b) P (C = 0) P (I = 0 | B/! = /!b, C = 0)
= 0.25714
c∈{0,1}
b,c∈{0,1}
b∈{0,1}
P (B = b) P (C = c) P (I = 0 | B = b, C = c))
b,c∈{0,1}
P (B = b) P (C = c) P (I = 0 | B = b, C = c))
P (B = 0, C = 0 | I = 0) = P (B = 0 | I = 0) P (C = 0 | I = 0) = 0.06612 ⇒ B / C | I
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.20
Independencia condicional
P (B
P (B
P (I =
P (I =
P (I =
P (I =
= 1) = P (C
= 0) = P (C
1 | B = 1, C
1 | B = 1, C
1 | B = 0, C
1 | B = 0, C
=
=
=
=
=
=
1)
0)
1)
0)
1)
0)
=
=
=
=
=
=
0.9
0.1
0.8
0.2
0.2
0.1
B
B
C
C
B
C
I
I
I
P (B, I, C) = P (B) P (C) P (I | B, C)
´ es la probabilidad P (C = 0 | I = 0)?
Supongamos que vemos I = 0, ¿Cual
P (C = 0 | I = 0)
=
=
P (I = 0, C = 0)
=
P (I = 0)
B∈{0,1}
B∈{0,1}
=
B∈{0,1}
B∈{0,1}
P (I = 0, C = 0, B)
C∈{0,1}
P (I = 0, C, B)
P (I = 0 | B, C = 0)P (B)P (C = 0)
C∈{0,1}
P (I = 0 | B, C)P (B)P (C)
0.9 · 0.1 · 0.1 + 0.8 · 0.9 · 0.1
≈ 0.257 > P (C = 0)
0.315
Supongamos que vemos B = 0, P (C = 0 | I = 0, B = 0) ≈ 0.111 < P (C = 0 | I = 0)
Por otra parte, si no conocemos I , P (C = 0 | B = 0) = 0.1 = P (C = 0)
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.21
Index
´ a los modelos graficos
´
1 Introduccion
2 Redes bayesianas
4
◦ 3 Inferencia en redes bayesianas
4 Aprendizaje de redes bayesianas
´
5 Otros modelos graficos
December 17, 2014
1
21
31
33
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.22
Inferencia con redes bayesianas
• En general, el problema consiste en calcular la probabilidad a posteriori de alguna
variable x a partir de las distribuciones conjuntas asociadas a una RB, dada alguna
evidencia e (como valores dados de alguna otra variable) y sin importar los valores
de resto de las variable f :
P (x | e) =
P (x, e)
con P (e) =
P (e)
P (x, e, f ) y P (x, e) =
x,f
P (x, e, f )
f
• El objetivo es calcular eficientemente P (e)
´ conjunta dada por
• Por ejemplo: Sea P (x1, x2, x3, x4) una distribucion
P (x1, x2, x3, x4) = P (x2)P (x1 | x2)P (x3 | x2)P (x4 | x3)
y se pretende calcular P (x3). Si xi ∈ X para i = 1, 2, 3 verifica que |X| = n
– P (x3) =
x1 ,x2 ,x4
– P (x3) =
x2
=
x2
P (x2)P (x1 | x2)P (x3 | x2)P (x4 | x3) ⇒ O(n3) operaciones.
P (x2)P (x3 | x2)
x1
P (x1 | x2)
x4
P (x4 | x3)
P (x2)P (x3 | x2) ⇒ O(n) operaciones.
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.23
Inferencia con redes bayesianas
Situaciones donde es util
´ calcular las probabilidades a-posteriori:
´ ¿Cual
´ es la probabilidad de observar un s´ıntoma sabiendo que se
• Prediccion:
tiene una determinada enfermedad?
´
´ es la probabilidad de que una determinada enfermedad
• Diagnostico:
¿Cual
´
sea un diagnostico
correcto dados algunos s´ıntomas?
´ de los enlaces entre variables no restringe el tipo de preguntas
En RB, la direccion
que se pueden hacer.
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.24
Tipos de redes bayesianas
Cadena
Árbol
Grafo
Poli-árbol
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.25
Inferencia en una cadena.
´ de creencias (“Belief propagation”)
Propagacion
xi
x i+1
Ex+
n
x n-1
xn
x n+1
x f-1
xf
Exn
´ dados
Supongamos que el menor xi ∈ Ex+n y el mayor xf ∈ Ex−n estan
P (xn | xi, xf ) =
P (xi, xf | xn) P (xn)
P (xi, xf )
=
P (xi | xn) P (xf | xn) P (xn)
P (xi, xf )
=
P (xn | xi) P (xi) P (xf | xn) P (xn)
P (xn) P (xi, xf )
= α P (xn | xi) P (xf | xn)
(Indepencia condicional)
(Regla de Bayes)
(α = P (xi)/P (xi, xf ))
´ conocemos xi ∈ Ex+n con i < i?
• Ejercicio: ¿Que´ ocurre si tambien
´ conocemos xf ∈ Ex−n con f > f ?
• Ejercicio: ¿Que´ ocurre si tambien
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.26
Inferencia en una cadena
π (xn )
xi
x i+1
x n-1
Ex+
n
λ (x )
n
xn
x n+1
x f-1
xf
Exn
def
P (xn | xi, xf ) = α P (xn | xi) P (xf | xn) = α π(xn) λ(xn)
donde π(xn) y λ(xn) se calculan como:
π(xi) = 1
λ(xf ) = 1
π(xn) =
xn−1
P (xn | xn−1) π(xn−1)
λ(xn) =
xn+1
P (xn+1 | xn) λ(xn+1)
• Ejercicio: P (xn)
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.27
´ I)
Inferencia en una cadena (derivacion
π (xn-1 )
xi
x i+1
Ex+
n
π(xn) = P (xn | xi) =
=
xn−1
=
xn−1
π (xn )
x n-1
xn−1
xn
x n+1
x f-1
xf
Exn
P (xn, xn−1 | xi)
P (xn−1 | xi) P (xn | xi, xn−1) =
xn−1
P (xn−1 | xi) P (xn | xn−1)
π(xn−1) P (xn | xn−1)
π(xi) = 1
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.28
´ II)
Inferencia en una cadena (derivacion
λ (xn+1 )
λ (x )
n
xi
x i+1
x n-1
Ex+
n
λ(xn) = P (xf | xn) =
=
xn+1
=
xn+1
xn+1
x n+1
xn
x f-1
xf
Exn
P (xf , xn+1 | xn)
P (xn+1 | xn) P (xf | xn, xn+1) =
xn+1
P (xn+1 | xn) P (xf | xn+1)
P (xn+1 | xn) λ(xn+1)
λ(xf ) = 1
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.29
´
Inferencia en un arbol
ui
π x (ui )
λ x(uj i )
λ y (xj)
E+xj
j
xj
k
π y (x j)
k
y
k
E-xj
Para calcular P (xj | Ex+j , Ex−j ) = α π(xj ) λ(xj )
m
λyk (xj ) con λyk (xj ) =
λ(xj ) =
k=1
π(xj ) =
ui
December 17, 2014
yk
λ(yk ) P (yk | xj )
P (xj | ui) πxj (ui) con πxj (ui) = α
λxj (ui) π(ui)
j =j
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.30
Inferencia en otros tipos de grafos
• Poli-arboles (“Polytrees”). Los nodo pueden tener multiples
´
padres, pero solo puede existir un camnino unico
entre cualquier
´
´ del algoritmo sobre un arbol.
´
par de nodos: una generalizacion
´
´ en
• Arboles
conjuntos (“Junction Trees”). Con bucles: conversion
´
un poli-arbol
• Grafos generales. Inferencia aproximada:
´
– Metodos
variacionales.
´
– Metodos
basados en el muestreo.
´ del algoritmo suma– “Loopy belief propagation”: aplicacion
producto en el grafo general.
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.31
Index
´ a los modelos graficos
´
1 Introduccion
2 Redes bayesianas
4
3 Inferencia en redes bayesianas
◦ 4 Aprendizaje de redes bayesianas
´
5 Otros modelos graficos
December 17, 2014
1
21
31
33
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.32
Aprendizaje de redes bayesianas
• Dada la estructura, aprender las distribuciones de probabilidad a partir de
un conjunto de entrenamiento.
´
´ de la verosimilitud.
– Metodos
basados en la maximizacion
– Aprendizaje bayesiano.
• Aprender la estructura a partir de un conjunto de entrenamiento.
´ de modelos: busqueda
– Un problema de seleccion
en el espacio de
´
grafos.
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.33
Index
´ a los modelos graficos
´
1 Introduccion
2 Redes bayesianas
4
3 Inferencia en redes bayesianas
4 Aprendizaje de redes bayesianas
◦ 5 Otros modelos graficos
´
December 17, 2014
1
21
31
33
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.34
Campos de Markov aleatorios
• Aspectos generales:
– Independencia conditional simplificada
´ compleja de distribuciones de probabilidad.
– Asignacion
´ de un campo de Markov aleatorio
• Definicion
– Dado un conjunto de variables V = {x1, . . . , xN }
– Un grafo no-dirigido R = (V, E)
– Para un clique C in R (Un subgrafo completamente conectado), VC es el
conjunto variables en el clique C:
P (x1, . . . , xN ) =
1
Z
ψC (VC )
∀C∈R
´ potential (estrictamente positiva) y Z es un factor de
ψC (VC ) is a funcion
´ (funcion
´ de particion).
´
normalizacion
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.35
Campos de Markov aleatorios
P (x1, . . . , xN ) =
1
Z
ψC (VC )
∀C∈R
• Las funciones de potencial son de la forma: ψC (VC ) = exp (−E(VC )),
´ de energ´ıa.
donde E(VC ) es una funcion
´ de energ´ıa interesante es el queda definido mediante
• Un tipo de funcion
funciones lineales generalizadas:
E(xC ) = −
θC,k fC,k (VC )
k
• A partir de una red bayesiana se puede construir un campo de Markov
aleatorio
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.36
Un ejemplo
(Bishop. Pattern Recognition and Machine Learning. 2006)
Una matriz x de p´ıxeles binarios
xi ∈ {−1, +1}, 1 ≤ i ≤ D
La imagen esta´ corrupta con probabilidad
10% en una matriz y de p´ıxeles binarios
yi ∈ {−1, +1}, 1 ≤ i ≤ D
El objetivo es recuperar la imagen original
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.37
Un ejemplo
(Bishop. Pattern Recognition and Machine Learning. 2006)
´ entre xi y yi
• Hay una fuerte correlacion
yi
´ entre xi y xj si los dos p´ıxeles
• Hay una correlacion
son vecinos.
xi
´ de energ´ıa (cliques maximos:
´
• La funcion
(xi, xj∈N (i)), (xi, yi)):
E(x1, . . . , xD , y1, . . . , yD ) = −β
i,j
xi xj − ν
xiyi
i
´ conjunta:
• La distribucion
P (x1, . . . , xD , y1, . . . , yD ) =
December 17, 2014
1
exp (−E(x1, . . . , xD , y1, . . . , yD ))
Z
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.38
Un ejemplo
(Bishop. Pattern Recognition and Machine Learning. 2006)
´ conjunta:
• A partir de la distribucion
P (x1, . . . , xD , y1, . . . , yD ) =

1
exp β
Z
xi xj + ν
i,j
i

xiyi
• el objetivo es: (ˆ
x1 , . . . , x
ˆD ) = arg max P (x1, . . . , xD | y1, . . . , yD )
x1 ,...,xD
Esto es:
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.39
Inferencia con campos de Markov aleatorios
´ (”Backward-Forward
• En cadenas: Algoritmo Adelante-Atras
algorithm”)
´
• En arboles:
Algoritmo Suma-Producto
´
´ (“Junction
• En grafos generales: Algoritmo de arbol
de union
tree algorithms”)
December 17, 2014
DSIC – UPV
´
Aprendizaje Automatico.
2014-2015
´
Modelos graficos:
6.40
Algunos toolkits
• GMTK
http://melodi.ee.washington.edu/˜bilmes/gmtk/
• GraphLab
http://graphlab.org/toolkits/graphical-models/
• PMTK3 probabilistic modeling toolkit for Matlab/Octave
https://github.com/probml/pmtk
• Software Packages for Graphical Models
http://www.cs.ubc.ca/˜murphyk/Software/bnsoft.html
December 17, 2014
DSIC – UPV