Torneremo ora all’esempio precedente di classificare 100 persone (che comprende 40 donne incinte e le restanti 60 non sono donne incinte e uomini con una pancia grassa) come incinte o non incinte. Su 40 donne incinte 30 donne incinte sono classificate correttamente e le restanti 10 donne incinte sono classificate come non incinte dall’algoritmo di apprendimento automatico. D’altra parte, su 60 persone nella categoria non gravida, 55 sono classificate come non gravide e le restanti 5 sono classificate come gravide.,
In questo caso, TN = 55, FP = 5, FN = 10, TP = 30. La matrice di confusione è la seguente.
Qual è la precisione del modello di apprendimento automatico per questa attività di classificazione?,
Precisione rappresenta il numero di classificato correttamente le istanze di dati rispetto al numero totale di istanze di dati.
In questo esempio, Precisione = (55 + 30)/(55 + 5 + 30 + 10 ) = 0.85 e in percentuale la precisione sarà dell ‘ 85%.
La precisione è la misura migliore?
La precisione potrebbe non essere una buona misura se il set di dati non è bilanciato (entrambe le classi negative e positive hanno un numero diverso di istanze di dati)., Spiegheremo questo con un esempio.
Considera il seguente scenario: ci sono 90 persone sane (negative) e 10 persone che hanno qualche malattia (positiva). Ora diciamo che il nostro modello di apprendimento automatico ha classificato perfettamente le persone 90 come sane, ma ha anche classificato le persone malsane come sane. Cosa succederà in questo scenario? Vediamo la matrice confusione e scoprire la precisione?
In questo esempio, TN = 90, FP = 0, FN = 10 e TP = 0. La matrice di confusione è la seguente.,
La precisione in questo caso sarà (90 + 0)/(100) = 0.9 e in percentuale la precisione è del 90%.
C’è qualcosa di sospetto?
La precisione, in questo caso, è del 90% ma questo modello è molto povero perché tutte le 10 persone che sono malsane sono classificate come sane., Con questo esempio quello che stiamo cercando di dire è che la precisione non è una buona metrica quando il set di dati è sbilanciato. L’uso della precisione in tali scenari può comportare un’interpretazione fuorviante dei risultati.
Quindi ora ci spostiamo ulteriormente per scoprire un’altra metrica per la classificazione. Ancora una volta torniamo all’esempio di classificazione della gravidanza.
Ora troveremo la precisione (valore predittivo positivo) nella classificazione delle istanze di dati., La precisione è definito come segue:
che Cosa precisione media?
La precisione dovrebbe idealmente essere 1 (alta) per un buon classificatore. La precisione diventa 1 solo quando il numeratore e il denominatore sono uguali cioè TP = TP + FP, questo significa anche che FP è zero. Man mano che FP aumenta il valore del denominatore diventa maggiore del numeratore e il valore di precisione diminuisce (cosa che non vogliamo).
Quindi nell’esempio di gravidanza, precisione = 30/(30+ 5) = 0.,857
Ora introdurremo un’altra importante metrica chiamata recall. Il richiamo è anche conosciuta come la sensibilità o la vera tasso positivo ed è definito come segue:
Richiamare idealmente, dovrebbero essere 1 (alta) per una buona classificazione. Richiamo diventa 1 solo quando il numeratore e denominatore sono uguali cioè TP = TP + FN, questo significa anche FN è zero., Man mano che FN aumenta il valore del denominatore diventa maggiore del numeratore e il valore di richiamo diminuisce (che non vogliamo).
Quindi nell’esempio di gravidanza vediamo quale sarà il richiamo.
Richiamo = 30/(30+ 10) = 0.75
Quindi idealmente in un buon classificatore, vogliamo che sia la precisione che il richiamo siano uno che significa anche che FP e FN sono zero. Pertanto abbiamo bisogno di una metrica che tenga conto sia della precisione che del richiamo., F1-score è una metrica che prende in considerazione sia la precisione e richiamo ed è definito come segue:
F1 Punteggio diventa 1 solo quando la precisione e recall sono entrambi 1. Il punteggio F1 diventa alto solo quando sia la precisione che il richiamo sono alti. Il punteggio F1 è la media armonica di precisione e richiamo ed è una misura migliore della precisione.
Nell’esempio di gravidanza, punteggio F1 = 2* ( 0.857 * 0.75)/(0.857 + 0.75) = 0.799.,
Reading List
Di seguito è riportato un interessante articolo sulla metrica di classificazione binaria comune di neptune.ai. Il link all’articolo è disponibile qui: https://neptune.ai/blog/f1-score-accuracy-roc-auc-pr-auc
Lascia un commento