we gaan nu terug naar het eerdere voorbeeld van het classificeren van 100 mensen (waaronder 40 zwangere vrouwen en de overige 60 zijn geen zwangere vrouwen en mannen met een dikke buik) als zwanger of niet zwanger. Van de 40 zwangere vrouwen worden 30 zwangere vrouwen correct geclassificeerd en de resterende 10 zwangere vrouwen worden geclassificeerd als niet zwanger door het machine learning-algoritme. Aan de andere kant, van de 60 mensen in de categorie niet zwanger, 55 worden geclassificeerd als niet zwanger en de overige 5 worden geclassificeerd als zwanger.,
In dit geval, TN = 55, FP = 5, FN = 10, TP = 30. De verwarring matrix is als volgt.
Wat is de nauwkeurigheid van het machine learning model voor deze classificatietaak?,
Nauwkeurigheid is het aantal correct geclassificeerde gegevens exemplaren over het totaal aantal data-exemplaren.
in dit voorbeeld, nauwkeurigheid = (55 + 30)/(55 + 5 + 30 + 10 ) = 0.85 en in percentage zal de nauwkeurigheid 85% zijn.
is nauwkeurigheid de beste maat?
nauwkeurigheid is mogelijk geen goede maatstaf als de dataset niet evenwichtig is (zowel negatieve als positieve klassen hebben een verschillend aantal gegevensinstances)., We zullen dit uitleggen met een voorbeeld.
overweeg het volgende scenario: er zijn 90 mensen die gezond zijn (negatief) en 10 mensen die een ziekte hebben (positief). Laten we zeggen dat ons machine learning model de 90 mensen perfect classificeerde als gezond, maar het classificeerde ook de ongezonde mensen als gezond. Wat zal er in dit scenario gebeuren? Laten we de verwarmingsmatrix zien en de nauwkeurigheid achterhalen?
in dit voorbeeld, TN = 90, FP = 0, Fn = 10 en TP = 0. De verwarring matrix is als volgt.,