Învățare fără supraveghere
Învățarea fără supraveghere este o tehnică de învățare automată în care utilizatorii nu trebuie să supravegheze modelul. În schimb, permite modelului să funcționeze pe cont propriu pentru a descoperi tipare și informații care anterior nu erau detectate. Se ocupă în principal de datele neetichetate.
Algoritmi de învățare fără supraveghere
Algoritmii de învățare fără supraveghere permit utilizatorilor să efectueze sarcini de procesare mai complexe în comparație cu învățarea supravegheată. Deși, învățarea nesupravegheată poate fi mai imprevizibilă în comparație cu alte metode de învățare naturale. Algoritmii de învățare nesupravegheați includ gruparea, detectarea anomaliilor, rețelele neuronale etc.
În acest tutorial, veți învăța:
- Exemplu de învățare automată fără supraveghere
- De ce învățarea nesupravegheată?
- Tipuri de învățare fără supraveghere
- Clustering
- Tipuri de clustere
- Asociere
- Învățare automată supravegheată vs.
- Aplicații ale învățării automate nesupravegheate
- Dezavantaje ale învățării fără supraveghere
Exemplu de învățare automată fără supraveghere
Să luăm cazul unui bebeluș și al câinelui ei de familie.
Ea cunoaște și identifică acest câine. Câteva săptămâni mai târziu, un prieten de familie aduce un câine și încearcă să se joace cu copilul.
Copilul nu a văzut acest câine mai devreme. Dar recunoaște multe trăsături (2 urechi, ochi, mers pe 4 picioare) sunt ca câinele ei de companie. Ea identifică noul animal ca pe un câine. Aceasta este o învățare nesupravegheată, în care nu sunteți învățat, dar învățați din datele (în acest caz date despre un câine.) Dacă această învățare ar fi fost supravegheată, prietenul familiei i-ar fi spus copilului că este un câine.
De ce învățarea nesupravegheată?
Iată care sunt principalele motive pentru utilizarea învățării fără supraveghere:
- Învățarea automată fără supraveghere găsește tot felul de tipare necunoscute în date.
- Metodele nesupravegheate vă ajută să găsiți caracteristici care pot fi utile pentru clasificare.
- Acesta are loc în timp real, astfel încât toate datele de intrare să fie analizate și etichetate în prezența cursanților.
- Este mai ușor să obțineți date neetichetate de pe un computer decât datele etichetate, care necesită intervenție manuală.
Tipuri de învățare fără supraveghere
Problemele de învățare nesupravegheate s-au grupat în continuare în probleme de grupare și de asociere.
Clustering
Clusterizarea este un concept important atunci când vine vorba de învățare nesupravegheată. Se ocupă în principal de găsirea unei structuri sau tipare într-o colecție de date necategorizate. Algoritmii de grupare vă vor procesa datele și vor găsi clustere naturale (grupuri) dacă acestea există în date. De asemenea, puteți modifica câte clustere ar trebui să identifice algoritmii dvs. Vă permite să ajustați granularitatea acestor grupuri.
Există diferite tipuri de clusterizare pe care le puteți utiliza:
Exclusiv (partiționare)
În această metodă de grupare, datele sunt grupate astfel încât o singură dată să poată aparține unui singur cluster.
Exemplu: K-înseamnă
Aglomerativ
În această tehnică de grupare, fiecare dată este un cluster. Uniunile iterative dintre cele două cele mai apropiate clustere reduc numărul de clustere.
Exemplu: clusterizare ierarhică
Suprapunere
În această tehnică, seturile fuzzy sunt utilizate pentru a grupa date. Fiecare punct poate aparține a două sau mai multe clustere cu grade separate de apartenență.
Aici, datele vor fi asociate cu o valoare de membru adecvată. Exemplu: F-C-Means
Probabilistic
Această tehnică utilizează distribuția probabilității pentru a crea clusterele
Exemplu: Următoarele cuvinte cheie
- „pantoful bărbatului”.
- „pantof de dama”.
- „mănușa de femeie”.
- „mănușa bărbatului”.
pot fi grupate în două categorii „pantof” și „mănușă” sau „bărbat” și „femei”.
Tipuri de clustere
- Gruparea ierarhică
- K-înseamnă grupare
- K-NN (k cei mai apropiați vecini)
- Analiza componentelor principale
- Descompunerea unei valori singulare
- Analiza componentelor independente
Clusterizarea ierarhică:
Clusterizarea ierarhică este un algoritm care construiește o ierarhie de clustere. Începe cu toate datele care sunt alocate unui cluster propriu. Aici, două grupuri apropiate vor fi în același grup. Acest algoritm se termină atunci când mai rămâne un singur cluster.
K-înseamnă Clustering
K înseamnă că este un algoritm de grupare iterativ care vă ajută să găsiți cea mai mare valoare pentru fiecare iterație. Inițial, se selectează numărul dorit de clustere. În această metodă de grupare, trebuie să grupați punctele de date în k grupuri. Un k mai mare înseamnă grupuri mai mici, cu mai multă granularitate în același mod. Un k inferior înseamnă grupuri mai mari cu o granularitate mai mică.
Ieșirea algoritmului este un grup de „etichete”. Atribuie punct de date unuia dintre grupurile k. În k-înseamnă grupare, fiecare grup este definit prin crearea unui centroid pentru fiecare grup. Centroizii sunt ca inima clusterului, care captează punctele cele mai apropiate de ele și le adaugă la cluster.
Clusterizarea medie K definește în continuare două subgrupuri:
- Gruparea aglomerativă
- Dendrogramă
Clustere aglomerative:
Acest tip de K-clustering începe cu un număr fix de clustere. Alocă toate datele în numărul exact de clustere. Această metodă de clusterizare nu necesită numărul de clustere K ca intrare. Procesul de aglomerare începe prin formarea fiecărei date ca un singur cluster.
Această metodă utilizează o anumită măsură a distanței, reduce numărul de clustere (câte unul în fiecare iterație) prin procesul de fuzionare. În sfârșit, avem un cluster mare care conține toate obiectele.
Dendrogramă:
În metoda de grupare Dendrogram, fiecare nivel va reprezenta un posibil cluster. Înălțimea dendrogramului arată nivelul de asemănare între două clustere de îmbinare. Cu cât sunt mai aproape de partea de jos a procesului, acestea sunt grupuri mai asemănătoare, care constată grupul din dendrogramă, care nu este natural și mai ales subiectiv.
K- Vecinii cei mai apropiați
K- cel mai apropiat vecin este cel mai simplu dintre toate clasificatoarele de învățare automată. Se diferențiază de alte tehnici de învățare automată, prin faptul că nu produce un model. Este un algoritm simplu care stochează toate cazurile disponibile și clasifică noi instanțe pe baza unei măsuri de similaritate.
Funcționează foarte bine atunci când există o distanță între exemple. Viteza de învățare este lentă când setul de antrenament este mare, iar calculul distanței este netivial.
Analiza componentelor principale:
În cazul în care doriți un spațiu cu dimensiuni superioare. Trebuie să selectați o bază pentru acel spațiu și doar cele mai importante 200 de scoruri ale acelei baze. Această bază este cunoscută ca o componentă principală. Subsetul pe care îl selectați constituie un spațiu nou, de dimensiuni reduse comparativ cu spațiul original. Menține cât mai multă complexitate a datelor.
Asociere
Regulile de asociere vă permit să stabiliți asociații între obiecte de date în baze de date mari. Această tehnică nesupravegheată este despre descoperirea unor relații interesante între variabile în baze de date mari. De exemplu, persoanele care cumpără o casă nouă cel mai probabil să cumpere mobilier nou.
Alte exemple:
- Un subgrup de pacienți cu cancer grupați după măsurătorile lor de expresie genică
- Grupuri de cumpărători pe baza istoricelor de navigare și cumpărare
- Grup de filme după evaluarea acordată de spectatorii de filme
Învățare automată supravegheată vs.
Parametrii | Tehnica de învățare automată supravegheată | Tehnica de supraveghere automată fără supraveghere |
Date de intrare | Algoritmii sunt instruiți folosind date etichetate. | Algoritmii sunt folosiți împotriva datelor care nu sunt etichetate |
Complexitatea Computațională | Învățarea supravegheată este o metodă mai simplă. | Învățarea fără supraveghere este complexă din punct de vedere al calculului |
Precizie | Metodă foarte precisă și de încredere. | Metodă mai puțin precisă și de încredere. |
Aplicații ale învățării automate nesupravegheate
Unele aplicații ale tehnicilor de învățare automată nesupravegheate sunt:
- Clusterizarea împarte automat setul de date în grupuri pe baza asemănărilor lor
- Detectarea anomaliilor poate descoperi puncte de date neobișnuite în setul de date. Este util pentru găsirea tranzacțiilor frauduloase
- Exploatarea prin asociere identifică seturi de articole care apar adesea împreună în setul de date
- Modelele variabile latente sunt utilizate pe scară largă pentru preprocesarea datelor. De exemplu, reducerea numărului de caracteristici dintr-un set de date sau descompunerea setului de date în mai multe componente
Dezavantaje ale învățării fără supraveghere
- Nu puteți obține informații precise cu privire la sortarea datelor, iar rezultatul ca date utilizate în învățarea nesupravegheată este etichetat și nu este cunoscut
- O mai mică acuratețe a rezultatelor se datorează faptului că datele de intrare nu sunt cunoscute și nu sunt etichetate de oameni în prealabil. Aceasta înseamnă că aparatul necesită să facă acest lucru singur.
- Clasele spectrale nu corespund întotdeauna claselor informaționale.
- Utilizatorul trebuie să petreacă timp interpretând și etichetând clasele care urmează acelei clasificări.
- Proprietățile spectrale ale claselor se pot modifica, de asemenea, în timp, astfel încât să nu puteți avea aceleași informații despre clasă în timp ce vă deplasați de la o imagine la alta.
rezumat
- Învățarea fără supraveghere este o tehnică de învățare automată, în care nu trebuie să supravegheați modelul.
- Învățarea automată fără supraveghere vă ajută să găsiți tot felul de tipare necunoscute în date.
- Clusterizarea și asocierea sunt două tipuri de învățare fără supraveghere.
- Patru tipuri de metode de grupare sunt 1) Exclusiv 2) Aglomerativ 3) Suprapus 4) Probabilistic.
- Tipurile importante de clusterizare sunt: 1) Clusterizarea ierarhică 2) K-înseamnă gruparea 3) K-NN 4) Analiza componentelor principale 5) Descompunerea valorii unice 6) Analiza componentelor independente.
- Regulile de asociere vă permit să stabiliți asociații între obiecte de date în baze de date mari.
- În învățarea supravegheată, algoritmii sunt instruiți folosind date etichetate, în timp ce în învățarea nesupravegheată, algoritmii sunt folosiți împotriva datelor care nu sunt etichetate.
- Detectarea anomaliilor poate descoperi puncte de date importante din setul de date, care sunt utile pentru găsirea tranzacțiilor frauduloase.
- Cel mai mare dezavantaj al învățării fără supraveghere este că nu puteți obține informații precise cu privire la sortarea datelor.