POMDP (Partially Observable Markov Decision Process)

I POMDP descrivono l’ultima classe di problemi in cui applicheremo i processi decisionali di Markov. Essi descrivono problemi in cui l’ambiente è soltanto parzialmente osservabile.

Per ovviare a tale problema viene aggiunto un modello sensoriale basato su osservazioni empiriche del mondo in cui si trova l’agente.

Di fatto, la risoluzione di un POMPD avviene allo stesso modo di un MDP, con l’unica differenza che l’agente risolutore non si trova all’interno del mondo vero ma si trova all’interno di quello che chiameremo belief state, ovvero uno stato in cui la descrizione del mondo viene astratta tramite un insieme di probabilità tutte conosciute dall’agente, il quale cercherà dunque di risolvere il problema postogli all’interno del belief state.

Abbiamo però bisogno di stimare tale belief state e le probabilità racchiuse in esso. Partendo dall’assunzione di Markov avremo come transition model

\tag{$\clubs$}b'(s')=\alpha P(e \mid s') \sum_s P(s' \mid s, \, a)b(s)

A parole: la stima del belief state dello stato corrente b'(s') è pari alla somma di tutti i belief state b(s) degli stati precedenti pesati per la loro probabilità di verificarsi effettuando l’azione a. La somma di tali belief state viene inoltre moltiplicata per le osservazioni dello stato corrente P(e \mid s') e normalizzata tramite il fattore \alpha.

Possiamo inoltre esprimere (\clubs) in maniera ricorsiva utilizzando

b'=\text{FOREWARD}(b, \, a, \, e)

Un agente POMDP viene quindi posto all’interno del belief state del problema, nel quale esegue l’azione giudicata migliore dalla sua policy utilizzata. Dopo aver eseguito l’azione vengono osservati i nuovi percept (evidence) e che tale azione crea, aggiornando il belief state corrente in base a tali osservazioni.

La probabilità di effettuare un’osservazione e dopo aver eseguito l’azione a dal belief state b è data dalla somma di tutti gli stati s' raggiungibili dallo stato corrente:

P(e\mid a,\,b)=\sum_{s'}P(e \mid s')\sum_{s} P(s'\mid s,\,a)b(s)

Inoltre, partendo dall’equazione (\clubs) si può ottenere il transition model per il problema: la quantità P(b' \mid b, \, a) rappresenta la probabilità di passare dallo stato b allo stato b' tramite l’azione a, e il suo valore è dato da

P(b' \mid b, \, a)=\sum_e P(b' \mid e, \, a, \, b) \sum_{s'} P(e \mid s') \sum_s P(s' \mid s, \, a)b(s)

dove

P(b' \mid e, \, a, \, b)=
\begin{cases}
1 & \text{se } b'=\text{ FOREWARD}(b, \, a, \, e)\\
0 & \text{altrimenti}
\end{cases}

Nel belief state sarà inoltre necessaria una funzione reward che possiamo definire come

\rho(b, \, a)= \sum_s b(s) \sum_{s'} P(s' \mid s, \, a)R(s, \, a, \, s')

A parole: …

Nota bene: le equazioni P(b' \mid e, \, a, \, b) e \rho(b, \, a) trasformano un POMDP in un MPD.

Si può dimostrare che, se esiste una soluzione ottimale per il nuovo problema MDP creato partendo dal POMDP originale, tale soluzione è ottima anche per il problema originale (a patto di accontentarci di un’approssimazione basata su una descrizione del mondo tramite un numero finito di probabilità—quando sarebbe invece necessario un numero infinito di probabilità per specificare effettivamente il mondo in ogni dettaglio senza approssimazioni).

Se hai trovato errori o informazioni mancanti scrivi a:
giacomo.dandria@esercizistem.com

Se hai trovato errori o informazioni mancanti scrivi a:
giacomo.dandria@esercizistem.com

Questa pagina è stata utile?
No
Torna in alto