Matricea confuziei în învățarea automată cu EXEMPLU

Cuprins:

Anonim

Ce este Confusion Matrix?

O matrice de confuzie este o tehnică de măsurare a performanței pentru clasificarea învățării automate. Este un fel de tabel care vă ajută să cunoașteți performanța modelului de clasificare pe un set de date de testare pentru care sunt cunoscute valorile adevărate. Termenul matrice de confuzie în sine este foarte simplu, dar terminologia sa legată poate fi puțin confuză. Aici, sunt oferite câteva explicații simple pentru această tehnică.

În acest tutorial, veți învăța,

  • Ce este matricea Confusion?
  • Patru rezultate ale matricei confuziei
  • Exemplu de matrice de confuzie:
  • Cum se calculează o matrice de confuzie
  • Alți termeni importanți folosind o matrice de confuzie
  • De ce ai nevoie de matricea Confusion?

Patru rezultate ale matricei confuziei

Matricea de confuzie vizualizează acuratețea unui clasificator comparând clasele reale și cele prezise. Matricea de confuzie binară este compusă din pătrate:

Tabel de confuzie
  • TP: Adevărat pozitiv: valorile prezise corect prezise ca pozitive reale
  • FP: Valorile prezise au prezis incorect un pozitiv real. adică, valorile negative prezise ca pozitive
  • FN: fals negativ: valori pozitive prezise ca negative
  • TN: Adevărat negativ: valorile prezise corect prezise ca un efect negativ

Puteți calcula testul de precizie din matricea de confuzie:

Exemplu de matrice de confuzie:

Confusion Matrix este o metodă utilă de învățare automată care vă permite să măsurați Recall, Precision, Precision și curba AUC-ROC. Mai jos este prezentat un exemplu pentru a cunoaște termenii Adevărat pozitiv, Adevărat negativ, Fals negativ și Adevărat negativ.

Adevărat pozitiv:

Ai proiectat pozitiv și sa dovedit a fi adevărat. De exemplu, ați prezis că Franța va câștiga Cupa Mondială și a câștigat.

Adevărat negativ:

Când ai prezis negativ și este adevărat. Ați prezis că Anglia nu va câștiga și că va pierde.

Fals pozitiv:

Predicția dvs. este pozitivă și este falsă.

Ați prezis că Anglia va câștiga, dar a pierdut.

Fals negativ:

Predicția dvs. este negativă, iar rezultatul este, de asemenea, fals.

Ați prezis că Franța nu va câștiga, dar a câștigat.

Trebuie să vă amintiți că descriem valorile prezise ca fiind adevărate sau false sau pozitive și negative.

Cum se calculează o matrice de confuzie

Aici, este un proces pas cu pas pentru calcularea unei Matrici de confuzie în data mining

  • Pasul 1) Mai întâi, trebuie să testați setul de date cu valorile rezultate așteptate.
  • Pasul 2) Preziceți toate rândurile din setul de date de testare.
  • Pasul 3) Calculați predicțiile și rezultatele așteptate:
  1. Totalul predicțiilor corecte ale fiecărei clase.
  2. Totalul predicțiilor incorecte ale fiecărei clase.

După aceea, aceste numere sunt organizate în metodele date mai jos:

  • Fiecare rând al matricei se leagă de o clasă prezisă.
  • Fiecare coloană a matricei corespunde unei clase reale.
  • Numărul total al clasificării corecte și incorecte este introdus în tabel.
  • Suma predicțiilor corecte pentru o clasă intră în coloana prevăzută și rândul așteptat pentru valoarea clasei respective.
  • Suma predicțiilor incorecte pentru o clasă intră în rândul așteptat pentru acea valoare a clasei și coloana prezisă pentru acea valoare specifică a clasei.

Alți termeni importanți folosind o matrice de confuzie

  • Valoare predictivă pozitivă (PVV): Aceasta este foarte aproape de precizie. O diferență semnificativă între cei doi termeni este că PVV consideră prevalența. În situația în care clasele sunt perfect echilibrate, valoarea predictivă pozitivă este aceeași cu precizia.
  • Rată de eroare nulă: acest termen este folosit pentru a defini de câte ori predicția dvs. ar fi greșită dacă puteți prevedea clasa majoritară. Puteți să o considerați ca o valoare de bază pentru a compara clasificatorul.
  • Scorul F: Scorul F1 este un scor mediu ponderat al adevăratului pozitiv (rechemare) și precizie.
  • Curba Roc: curba Roc arată ratele pozitive adevărate față de rata fals pozitivă în diferite puncte de tăiere. De asemenea, demonstrează un compromis între sensibilitate (reamintire și specificitate sau rata negativă adevărată).
  • Precizie: metrica de precizie arată acuratețea clasei pozitive. Măsurează cât de probabil este corectă predicția clasei pozitive.

Scorul maxim este 1 atunci când clasificatorul clasifică perfect toate valorile pozitive. Precizia singură nu este foarte utilă, deoarece ignoră clasa negativă. Valoarea este de obicei asociată cu valoarea Recall. Revocarea se mai numește sensibilitate sau adevărată rată pozitivă.

  • Sensibilitate : Sensibilitatea calculează raportul dintre clasele pozitive detectate corect. Această valoare indică cât de bun este modelul pentru a recunoaște o clasă pozitivă.

De ce ai nevoie de matricea Confusion?

Iată avantajele / avantajele utilizării unei matrice de confuzie.

  • Acesta arată cum orice model de clasificare este confuz atunci când face predicții.
  • Matricea de confuzie nu numai că vă oferă informații despre erorile făcute de clasificatorul dvs., ci și despre tipurile de erori care se fac.
  • Această defalcare vă ajută să depășiți limitarea utilizării preciziei de clasificare.
  • Fiecare coloană a matricei de confuzie reprezintă instanțele acelei clase prezise.
  • Fiecare rând al matricei de confuzie reprezintă instanțele clasei reale.
  • Oferă informații nu numai despre erorile făcute de un clasificator, ci și despre erorile care se fac.