Cos’è una Loss function e quali sono delle funzioni comuni utilizzate

Definiamo una funzione loss L(x,\,y,\,\hat{y}) come la quantità di utilità persa tramite la previsione h(x)=\hat{y} quando la previsione corretta sarebbe invece stata f(x)=y.

Un algoritmo di Machine Learning deve quindi cercare di minimizzare la funzione di loss con una qualche tecnica, generalmente di tipo iterativo, che cerca di avvicinarsi sempre di più al risultato desiderato, ovvero il valore più basso possibile per L(x,\,y,\,\hat{y}).

Delle funzioni di loss comunemente utilizzate sono:

  • Funzione di loss valore assoluto: L_1(y,\,\hat{y})=\lvert y-\hat{y}\rvert
  • Funzione di loss errore quadratico: L_2(y,\,\hat{y})=\left(y-\hat{y}\right)^2

Nota: generalmente, le funzioni di loss dipendono dalla distribuzione di probabilità dei dati, e si rende talvolta necessaria una semplificazione del problema per ridurne la complessità, anche se non sempre si è in grado, quindi è spesso necessario progettare algoritmi che cerchino di minimizzare da sé la complessità dei problemi.

Esempio: prendiamo in considerazione un problema di regressione lineare, dove, di fatto, abbiamo bisogno di trovare i parametri w_0,\,w_1 per la funzione

h_W(x)=w_1x+w_0

Una funzione di loss che possiamo considerare è quella che minimizza l’errore quadratico medio, dunque minimizza la distanza dalla retta per ogni punto considerato

\tag{$\spades$}L(h_W)=\sum_j \left(y_j-(w_1x_j+w_0)\right)^2

Di fatto, in questo modo cerchiamo di trovare la coppia di (w_0,\,w_1) che minimizza (\spades).

Nota: nel caso in cui si abbia a che fare con più variabili la funzione h_W(x) dipende da un numero arbitrario di valori {\bf w}, che dovremo esplicitare tramite l’utilizzo dell’algoritmo di gradient descent.

Altre funzioni di loss

Altre funzioni di loss utilizzare sono:

  • Generalization loss: utilizzando un’ipotesi h rispetto alla funzione di loss, dove \varepsilon rappresenta l’insieme di tutti i possibili esempi input/output
    \text{GenLoss}L(h)=\sum_{(x,\,y)\,\,\in\displaystyle\varepsilon} L(y,\,h(x))P(x,\,y)
  • Empirical loss: nel caso in cui la distribuzione di probabilità sia sconosciuta, dunque ogni evento è equiprobabile
    \text{EmpLoss}{L,E}(h)=\sum_{(x,\,y)\in E} L(y,\,h(x))\cdot\dfrac{1}{N}
  • La miglior ipotesi \widehat{h^*} per il minimo dell’empirical loss
    \widehat{h^*}=\argmin_{h\in H}\{\text{EmpLoss}_{L,E}(h)\}

In poche parole

‎‏‏‎ ‎‏‏‎✅ Una funzione di loss è una misura della quantità di utilità persa da un algoritmo di Machine Learning. L’obiettivo degli algoritmi è quello minimizzare la funzione di loss, che in generale dipende dalla distribuzione di probabilità dei dati e può alle volte richiedere una semplificazione del problema stesso per ridurne la complessità e renderlo più facile da trattare. Nel caso di più variabili si utilizza una tecnica particolare per minimizzare la funzione di loss, ovvero il gradient descent.

Se hai trovato errori o informazioni mancanti scrivi a:
giacomo.dandria@esercizistem.com

Se hai trovato errori o informazioni mancanti scrivi a:
giacomo.dandria@esercizistem.com

Questa pagina è stata utile?
No
Torna in alto