Învățare automată supravegheată: Ce este, algoritmi, exemplu

Cuprins:

Anonim

Ce este învățarea automată supravegheată?

În învățarea supravegheată, instruiți mașina folosind date care sunt bine „etichetate ”. Înseamnă că unele date sunt deja etichetate cu răspunsul corect. Poate fi comparat cu învățarea care are loc în prezența unui supraveghetor sau a unui profesor.

Un algoritm de învățare supravegheat învață din datele de formare etichetate, vă ajută să preziceți rezultatele pentru datele neprevăzute.

Construirea, scalarea și implementarea cu succes a unor modele precise de învățare automată supravegheate necesită timp și expertiză tehnică de la o echipă de oameni de știință cu date foarte calificate. Mai mult, omul de știință al datelor trebuie să reconstruiască modele pentru a se asigura că informațiile oferite rămân adevărate până la modificarea datelor sale.

În acest tutorial, veți învăța:

  • Ce este învățarea automată supravegheată?
  • Cum funcționează învățarea supravegheată
  • Tipuri de algoritmi de învățare automată supravegheați
  • Tehnici de învățare automată supravegheată vs.
  • Provocări în învățarea automată supravegheată
  • Avantajele învățării supravegheate:
  • Dezavantaje ale învățării supravegheate
  • Cele mai bune practici pentru învățarea supravegheată

Cum funcționează învățarea supravegheată

De exemplu, doriți să instruiți o mașină pentru a vă ajuta să preziceți cât de mult vă va dura să conduceți acasă de la locul de muncă. Aici, începeți prin crearea unui set de date etichetate. Aceste date includ

  • Conditiile meteo
  • Timpul zilei
  • Sărbători

Toate aceste detalii sunt contribuțiile dvs. Rezultatul este cantitatea de timp necesară pentru a reveni acasă în acea zi specifică.

Știi instinctiv că, dacă plouă afară, atunci îți va lua mai mult timp să conduci acasă. Dar aparatul are nevoie de date și statistici.

Să vedem acum cum puteți dezvolta un model de învățare supravegheat al acestui exemplu care să ajute utilizatorul să determine timpul de navetă. Primul lucru pe care trebuie să îl creați este un set de antrenament. Acest set de antrenament va conține timpul total de deplasare și factori corespunzători, cum ar fi vremea, ora etc. Pe baza acestui set de antrenament, aparatul dvs. poate vedea că există o relație directă între cantitatea de ploaie și timpul pe care îl veți lua pentru a ajunge acasă.

Deci, se constată că, cu cât plouă mai mult, cu atât veți conduce mai mult timp pentru a vă întoarce acasă. S-ar putea vedea, de asemenea, legătura dintre timpul în care pleci de la serviciu și timpul în care vei fi pe drum.

Cu cât ești mai aproape de ora 18, cu atât îți ia mai mult timp până ajungi acasă. Aparatul dvs. poate găsi unele dintre relațiile cu datele etichetate.

Acesta este începutul modelului dvs. de date. Începe să aibă impact asupra modului în care ploaia influențează modul în care oamenii conduc. De asemenea, începe să se vadă că mai mulți oameni călătoresc într-un anumit moment al zilei.

Tipuri de algoritmi de învățare automată supravegheați

Regresie:

Tehnica de regresie prezice o singură valoare de ieșire folosind datele de antrenament.

Exemplu : puteți utiliza regresia pentru a prezice prețul casei din datele de instruire. Variabilele de intrare vor fi localitatea, dimensiunea unei case etc.

Puncte forte : Ieșirile au întotdeauna o interpretare probabilistică, iar algoritmul poate fi regularizat pentru a evita supraadaptarea.

Puncte slabe : Regresia logistică poate avea performanțe slabe atunci când există limite de decizie multiple sau neliniare. Această metodă nu este flexibilă, deci nu surprinde relații mai complexe.

Regresie logistică:

Metoda de regresie logistică utilizată pentru estimarea valorilor discrete pe baza unui set dat de variabile independente. Vă ajută să preziceți probabilitatea apariției unui eveniment prin adaptarea datelor la o funcție logit. Prin urmare, este cunoscută și sub numele de regresie logistică. Deoarece prezice probabilitatea, valoarea sa de ieșire se situează între 0 și 1.

Iată câteva tipuri de algoritmi de regresie

Clasificare:

Clasificare înseamnă gruparea ieșirii într-o clasă. Dacă algoritmul încearcă să eticheteze intrarea în două clase distincte, se numește clasificare binară. Selectarea dintre mai mult de două clase este denumită clasificare multiclass.

Exemplu : Determinarea faptului dacă cineva va fi sau nu contravenient al împrumutului.

Puncte forte : Arborele de clasificare se comportă foarte bine în practică

Puncte slabe : copacii individuali, fără constrângeri, sunt predispuși la supraadezionare.

Iată câteva tipuri de algoritmi de clasificare

Clasificatoare Naïve Bayes

Modelul bayesian naiv (NBN) este ușor de construit și foarte util pentru seturi de date mari. Această metodă este compusă din grafice aciclice directe cu un părinte și mai mulți copii. Presupune independență între nodurile copilului separate de părintele lor.

Arbori de decizie

Arborii deciziilor clasifică instanța prin sortarea acestora pe baza valorii caracteristicii. În această metodă, fiecare mod este caracteristica unei instanțe. Ar trebui clasificat și fiecare ramură reprezintă o valoare pe care nodul o poate asuma. Este o tehnică larg utilizată pentru clasificare. În această metodă, clasificarea este un arbore cunoscut sub numele de arbore de decizie.

Vă ajută să estimați valorile reale (costul achiziționării unei mașini, numărul de apeluri, vânzările lunare totale etc.).

Suport Machine Vector

Mașina vectorială de suport (SVM) este un tip de algoritm de învățare dezvoltat în 1990. Această metodă se bazează pe rezultatele teoriei învățării statistice introduse de Vap Nik.

Mașinile SVM sunt, de asemenea, strâns legate de funcțiile kernel, care este un concept central pentru majoritatea sarcinilor de învățare. Cadrul de nucleu și SVM sunt utilizate într-o varietate de domenii. Include regăsirea informațiilor multimedia, bioinformatica și recunoașterea tiparelor.

Tehnici de învățare automată supravegheată vs.

Bazat pe Tehnica de învățare automată supravegheată Tehnica de supraveghere automată fără supraveghere
Date de intrare Algoritmii sunt instruiți folosind date etichetate. Algoritmii sunt folosiți împotriva datelor care nu sunt etichetate
Complexitatea Computațională Învățarea supravegheată este o metodă mai simplă. Învățarea fără supraveghere este complexă din punct de vedere al calculului
Precizie Metodă foarte precisă și de încredere. Metodă mai puțin precisă și de încredere.

Provocări în învățarea automată supravegheată

Iată care sunt provocările cu care se confruntă învățarea automată supravegheată:

  • Caracteristica irelevantă de intrare a datelor actuale de instruire ar putea da rezultate inexacte
  • Pregătirea și prelucrarea datelor este întotdeauna o provocare.
  • Precizia are de suferit atunci când valori imposibile, improbabile și incomplete au fost introduse ca date de antrenament
  • Dacă expertul în cauză nu este disponibil, atunci cealaltă abordare este „forța brută”. Înseamnă că trebuie să vă gândiți la caracteristicile potrivite (variabile de intrare) pentru a antrena mașina. Ar putea fi inexact.

Avantajele învățării supravegheate:

  • Învățarea supravegheată vă permite să culegeți date sau să produceți rezultate din experiența anterioară
  • Vă ajută să optimizați criteriile de performanță folosind experiența
  • Învățarea automată supravegheată vă ajută să rezolvați diferite tipuri de probleme de calcul din lumea reală.

Dezavantaje ale învățării supravegheate

  • Limita de decizie ar putea fi suprasolicitată dacă setul dvs. de antrenament care nu are exemple pe care doriți să le aveți într-o clasă
  • Trebuie să selectați o mulțime de exemple bune din fiecare clasă în timp ce pregătiți clasificatorul.
  • Clasificarea datelor mari poate fi o adevărată provocare.
  • Pregătirea pentru învățarea supravegheată necesită mult timp de calcul.

Cele mai bune practici pentru învățarea supravegheată

  • Înainte de a face orice altceva, trebuie să decideți ce fel de date urmează să fie utilizate ca set de instruire
  • Trebuie să decideți structura funcției învățate și a algoritmului de învățare.
  • Gathere rezultate corespunzătoare fie de la experți umani, fie din măsurători

rezumat

  • În învățarea supravegheată, instruiți mașina folosind date care sunt bine „etichetate”.
  • Doriți să instruiți o mașină care vă ajută să preziceți cât de mult vă va dura să conduceți acasă de la locul de muncă. Este un exemplu de învățare supravegheată
  • Regresia și clasificarea sunt două tipuri de tehnici de învățare automată supravegheate.
  • Învățarea supravegheată este o metodă mai simplă, în timp ce învățarea nesupravegheată este o metodă complexă.
  • Cea mai mare provocare în învățarea supravegheată este că caracteristica de intrare irelevantă a datelor actuale de formare ar putea da rezultate inexacte.
  • Principalul avantaj al învățării supravegheate este că vă permite să culegeți date sau să produceți rezultate din experiența anterioară.
  • Dezavantajul acestui model este că limita de decizie ar putea fi suprasolicitată dacă setul dvs. de antrenament nu are exemple pe care doriți să le aveți într-o clasă.
  • Ca cea mai bună practică de supraveghere a învățării, trebuie mai întâi să decideți ce fel de date ar trebui utilizate ca set de instruire.