Top 50 Întrebări și răspunsuri la interviul științei datelor

Următoarele sunt întrebările frecvente în interviurile de angajare pentru studenții proaspăt, precum și pentru expertul în date.

1. Ce este Data Science?

Știința datelor este o combinație de algoritmi, instrumente și tehnică de învățare automată care vă ajută să găsiți modele ascunse comune din datele brute date.

2. Ce este regresia logistică în știința datelor?

Regresia logistică este numită și ca model logit. Este o metodă de a prognoza rezultatul binar dintr-o combinație liniară de variabile predictive.

3. Numiți trei tipuri de prejudecăți care pot apărea în timpul eșantionării

În procesul de eșantionare, există trei tipuri de prejudecăți, care sunt:

Bias de selecție
Sub prejudecată de acoperire
Tendința de supraviețuire

4. Discutați algoritmul Arborelui Decizional

Un arbore de decizie este un algoritm popular de învățare automată supravegheat. Este utilizat în principal pentru regresie și clasificare. Permite descompunerea unui set de date în subseturi mai mici. Arborele decizional poate gestiona atât date categorice, cât și date numerice.

5. Care este probabilitatea și probabilitatea anterioară?

Probabilitatea anterioară este proporția variabilei dependente din setul de date, în timp ce probabilitatea este probabilitatea de a clasifica un observator dat în prezența altei variabile.

6. Explicați sistemele de recomandare?

Este o subclasă de tehnici de filtrare a informațiilor. Vă ajută să preziceți preferințele sau evaluările pe care utilizatorii ar putea să le acorde unui produs.

7. Numiți trei dezavantaje ale utilizării unui model liniar

Trei dezavantaje ale modelului liniar sunt:

Presupunerea liniarității erorilor.
Nu puteți utiliza acest model pentru rezultate binare sau de numărare
Există o mulțime de probleme de overfitting pe care nu le poate rezolva

8. De ce trebuie să efectuați eșantionarea?

Eșantionarea se face în cazuri de mai jos:

Estimarea acurateței statisticilor eșantionului prin desenarea aleatorie cu înlocuirea dintr-un set de puncte de date sau folosind ca subseturi de date accesibile
Înlocuirea etichetelor pe punctele de date atunci când efectuați testele necesare
Validarea modelelor folosind subseturi aleatorii

9. Enumerați bibliotecile din Python utilizate pentru analiza datelor și calcule științifice.

SciPy
Panda
Matplotlib
NumPy
SciKit
Seaborn

10. Ce este analiza de putere?

Analiza puterii este o parte integrantă a proiectării experimentale. Vă ajută să determinați dimensiunea eșantionului pentru a afla efectul unei dimensiuni date dintr-o cauză cu un nivel specific de asigurare. De asemenea, vă permite să implementați o anumită probabilitate într-o constrângere de dimensiune a eșantionului.

11. Explicați filtrarea colaborativă

Filtrare colaborativă utilizată pentru a căuta modele corecte prin colaborarea punctelor de vedere, a mai multor surse de date și a diferiților agenți.

12. Ce este prejudecata?

Bias este o eroare introdusă în modelul dvs. din cauza simplificării excesive a unui algoritm de învățare automată. "Poate duce la sub-montare.

13. Discutați „Naive” într-un algoritm Naive Bayes?

Modelul Naive Bayes Algorithm se bazează pe teorema Bayes. Descrie probabilitatea unui eveniment. Se bazează pe cunoașterea prealabilă a condițiilor care ar putea fi legate de acel eveniment specific.

14. Ce este o regresie liniară?

Regresia liniară este o metodă de programare statistică în care scorul unei variabile „A” este prezis din scorul unei a doua variabile „B”. B este denumită variabila predictor și A ca variabilă criteriu.

15. Precizați diferența dintre valoarea așteptată și valoarea medie

Nu sunt multe diferențe, dar ambii termeni sunt utilizați în contexte diferite. Valoarea medie este în general menționată atunci când discutați despre o distribuție de probabilitate, în timp ce valoarea așteptată este menționată în contextul unei variabile aleatorii.

16. Care este scopul efectuării testării A / B?

Testarea AB utilizată pentru a efectua experimente aleatorii cu două variabile, A și B. Scopul acestei metode de testare este de a afla modificările unei pagini web pentru a maximiza sau a crește rezultatul unei strategii.

17. Ce este Ensemble Learning?

Ansamblul este o metodă de combinare a unui set divers de cursanți împreună pentru a improviza asupra stabilității și puterii predictive a modelului. Două tipuri de metode de învățare ale ansamblului sunt:

Împachetat

Metoda de împachetare vă ajută să implementați cursanți similari pe populații de eșantioane mici. Vă ajută să faceți predicții mai apropiate.

Stimularea

Stimularea este o metodă iterativă care vă permite să ajustați greutatea unei observații depinde de ultima clasificare. Creșterea scade eroarea de părtinire și vă ajută să construiți modele predictive puternice.

18. Explicați valoarea proprie și vectorul propriu

Vectorii proprii sunt pentru înțelegerea transformărilor liniare. Oamenii de știință ai datelor trebuie să calculeze vectorii proprii pentru o matrice de covarianță sau o corelație. Valorile proprii sunt direcțiile de-a lungul utilizării unor acte specifice de transformare liniară prin comprimare, răsucire sau întindere.

19. Definiți termenul de validare încrucișată

Validarea încrucișată este o tehnică de validare pentru evaluarea modului în care rezultatele analizei statistice se vor generaliza pentru un set de date independent. Această metodă este utilizată în medii în care obiectivul este prognozat și trebuie estimat cât de precis va realiza un model.

20. Explicați pașii pentru un proiect de analiză a datelor

Următorii pași importanți implicați într-un proiect de analiză:

Înțelegeți problema afacerii
Explorează datele și studiază-le cu atenție.
Pregătiți datele pentru modelare găsind valori lipsă și transformând variabile.
Începeți să rulați modelul și să analizați rezultatul Big Data.
Validați modelul cu un nou set de date.
Implementați modelul și urmăriți rezultatul pentru a analiza performanța modelului pentru o anumită perioadă.

21. Discutați despre rețelele neuronale artificiale

Rețelele neuronale artificiale (ANN) sunt un set special de algoritmi care au revoluționat învățarea automată. Vă ajută să vă adaptați în funcție de intrarea în schimbare. Deci, rețeaua generează cel mai bun rezultat posibil fără a reproiecta criteriile de ieșire.

22. Ce este propagarea spatelui?

Propagarea înapoi este esența antrenamentului rețelei neuronale. Metoda de reglare a greutăților unei rețele neuronale depinde de rata de eroare obținută în epoca anterioară. Reglarea corectă a dispozitivului vă ajută să reduceți ratele de eroare și să faceți modelul de încredere prin creșterea generalizării acestuia.

23. Ce este o pădure aleatorie?

Pădurea aleatorie este o metodă de învățare automată care vă ajută să efectuați toate tipurile de sarcini de regresie și clasificare. Este, de asemenea, utilizat pentru tratarea valorilor lipsă și a valorilor anterioare.

24. Care este importanța unei părtiniri de selecție?

Biasul de selecție apare atunci când nu există o randomizare specifică realizată în timp ce alegeți indivizi sau grupuri sau date care urmează să fie analizate. Aceasta sugerează că eșantionul dat nu reprezintă exact populația care a fost intenționată să fie analizată.

25. Ce este metoda de grupare K-means?

K-înseamnă gruparea este o metodă importantă de învățare nesupravegheată. Este tehnica de clasificare a datelor folosind un anumit set de clustere care se numește K clustere. Este implementat pentru grupare pentru a afla similaritatea în date.

26. Explicați diferența dintre Știința datelor și Analiza datelor

Oamenii de știință ai datelor trebuie să tranșeze datele pentru a extrage informații valoroase pe care un analist de date le poate aplica scenariilor de afaceri din lumea reală. Principala diferență dintre cele două este că oamenii de știință de date au mai multe cunoștințe tehnice decât analistul de afaceri. Mai mult, nu au nevoie de o înțelegere a activității necesare pentru vizualizarea datelor.

27. Explicați valoarea p?

Când efectuați un test de ipoteză în statistici, o valoare p vă permite să determinați puterea rezultatelor. Este un număr numeric între 0 și 1. Pe baza valorii, vă va ajuta să indicați puterea rezultatului specific.

28. Definiți termenul de învățare profundă

Învățarea profundă este un subtip de învățare automată. Este preocupat de algoritmi inspirați de structura numită rețele neuronale artificiale (ANN).

29. Explicați metoda de colectare și analiză a datelor pentru a utiliza rețelele sociale pentru a prezice starea vremii.

Puteți colecta date de pe rețelele sociale folosind Facebook, Twitter, API-urile Instagram. De exemplu, pentru tweeter, putem construi o caracteristică din fiecare tweet, cum ar fi data tweeted, retweets, lista de urmăritori, etc. Apoi puteți utiliza un model de serie temporală multivariat pentru a prezice starea vremii.

30. Când trebuie să actualizați algoritmul în Știința datelor?

Trebuie să actualizați un algoritm în următoarea situație:

Doriți ca modelul dvs. de date să evolueze ca fluxuri de date folosind infrastructura
Sursa de date subiacentă se schimbă
Dacă este non-staționar

31. Ce este distribuția normală

O distribuție normală este un set de variabile continue răspândite pe o curbă normală sau sub forma unei curbe de clopot. O puteți considera ca o distribuție continuă a probabilității, care este utilă în statistici. Este util să analizăm variabilele și relațiile lor atunci când utilizăm curba de distribuție normală.

32. Care limbă este cea mai bună pentru analiza textului? R sau Python?

Python va fi mai potrivit pentru analiza textului, deoarece este format dintr-o bibliotecă bogată cunoscută sub numele de panda. Vă permite să utilizați instrumente de analiză de date la nivel înalt și structuri de date, în timp ce R nu oferă această caracteristică.

33. Explicați avantajele utilizării statisticilor de către oamenii de știință a datelor

Statisticile îi ajută pe cercetătorul de date să își facă o idee mai bună despre așteptările clienților. Utilizarea metodei statistice Oamenii de știință pot obține cunoștințe cu privire la interesul consumatorului, comportamentul, implicarea, reținerea etc. Vă ajută, de asemenea, să construiți modele de date puternice pentru a valida anumite inferențe și predicții.

34. Numiți diferite tipuri de cadre de învățare profundă

Pytorch
Microsoft Cognitive Toolkit
TensorFlow
Caffe
Lanț
Keras

35. Explicați codificatorul automat

Autoencoderii sunt rețele de învățare. Vă ajută să transformați intrările în ieșiri cu un număr mai mic de erori. Aceasta înseamnă că veți obține o ieșire cât mai aproape de intrare.

36. Definiți mașina Boltzmann

Mașinile Boltzmann sunt un algoritm simplu de învățare. Vă ajută să descoperiți acele caracteristici care reprezintă regularități complexe în datele de instruire. Acest algoritm vă permite să optimizați greutățile și cantitatea pentru problema dată.

37. Explicați de ce este esențială Curățarea datelor și ce metodă utilizați pentru a menține datele curate

Datele murdare duc adesea la interiorul incorect, ceea ce poate afecta perspectiva oricărei organizații. De exemplu, dacă doriți să derulați o campanie de marketing direcționată. Cu toate acestea, datele noastre vă spun în mod incorect că un anumit produs va fi la cerere cu publicul dvs. țintă; campania va eșua.

38. Ce este Distribuția înclinată și distribuția uniformă?

Distribuția înclinată are loc atunci când datele sunt distribuite pe orice parte a parcelei, în timp ce distribuția uniformă este identificată atunci când datele sunt răspândite egale în interval.

39. Când are loc montarea insuficientă într-un model static?

Sub-montarea apare atunci când un model statistic sau un algoritm de învățare automată nu este capabil să capteze tendința de bază a datelor.

40. Ce este învățarea prin întărire?

Învățarea prin întărire este un mecanism de învățare despre cum să mapezi situațiile în acțiuni. Rezultatul final ar trebui să vă ajute să creșteți semnalul de recompensă binară. În această metodă, elevului nu i se spune ce acțiune să ia, ci trebuie să descopere care acțiune oferă o recompensă maximă. Deoarece această metodă se bazează pe mecanismul de recompensare / penalizare.

41. Denumiți algoritmi utilizați în mod obișnuit.

Patru algoritmi cei mai frecvent utilizați de cercetătorul de date sunt:

Regresie liniara
Regresie logistică
Pădure aleatorie
KNN

42. Ce este precizia?

Precizia este cel mai frecvent utilizat mecanism de clasificare metrică n. Intervalul său este de la 0 la 1, unde 1 reprezintă 100%

43. Ce este o analiză univariată?

O analiză care se aplică la atributul none la un moment dat este cunoscută sub numele de analiză univariată. Boxplot este un model univariat utilizat pe scară largă.

44. Cum depășești provocările constatărilor tale?

Pentru a depăși provocările pe care le-am găsit, trebuie să încurajez discuțiile, să demonstrez conducerea și să respectăm diferite opțiuni.

45. Explicați tehnica de eșantionare a clusterelor în Știința datelor

O metodă de eșantionare în cluster este utilizată atunci când este dificil să se studieze populația țintă răspândită, iar eșantionarea simplă aleatorie nu poate fi aplicată.

46. Indicați diferența dintre un set de validare și un set de testare

Un set de validare considerat în cea mai mare parte ca parte a setului de antrenament, deoarece este utilizat pentru selectarea parametrilor, ceea ce vă ajută să evitați supra-montarea modelului construit.

În timp ce un set de testare este utilizat pentru testarea sau evaluarea performanței unui model de învățare automată instruit.

47. Explicați termenul Formula probabilității binomiale?

"Distribuția binomială conține probabilitățile fiecărui succes posibil pe N studii pentru evenimente independente care au o probabilitate de apariție π."

48. Ce este o rechemare?

O rechemare este un raport dintre rata reală pozitivă și rata reală pozitivă. Acesta variază de la 0 la 1.

49. Discutați despre distribuția normală

Distribuția normală distribuită în mod egal ca atare media, mediana și modul sunt egale.

50. În timp ce lucrați la un set de date, cum puteți selecta variabile importante? Explica

Următoarele metode de selectare a variabilelor le puteți utiliza:

Eliminați variabilele corelate înainte de a selecta variabile importante
Utilizați regresia liniară și selectați variabilele care depind de acele valori p.
Utilizați înapoi, selecție înainte și selecție în trepte
Utilizați Xgboost, Random Forest și trageți diagrama importanței variabilei.
Măsurați câștigul informațiilor pentru setul dat de caracteristici și selectați cele mai importante caracteristici n mod corespunzător.

51. Este posibil să surprindem corelația dintre variabila continuă și categorie?

Da, putem folosi analiza tehnicii de covarianță pentru a surprinde asocierea dintre variabilele continue și categorice.

52. Tratarea unei variabile categorice ca o variabilă continuă ar duce la un model predictiv mai bun?

Da, valoarea categorică ar trebui considerată ca o variabilă continuă numai atunci când variabila este de ordin ordinal. Deci este un model predictiv mai bun.