Top 62 Întrebări despre interviul inginerului de date & Răspunsuri

Anonim

Aici sunt întrebări frecvente adresate interviului pentru inginerii de date, pentru candidați, precum și pentru candidații cu experiență pentru a obține locul de muncă potrivit.

1) Explicați Ingineria datelor.

Ingineria datelor este un termen folosit în big data. Se concentrează pe aplicarea colectării datelor și a cercetării. Datele generate din diverse surse sunt doar date brute. Ingineria datelor ajută la convertirea acestor date brute în informații utile.

2) Ce este modelarea datelor?

Modelarea datelor este metoda de documentare a proiectării software complexe ca o diagramă, astfel încât oricine să poată înțelege cu ușurință. Este o reprezentare conceptuală a obiectelor de date care sunt asociate între diferite obiecte de date și reguli.

3) Enumerați diferite tipuri de scheme de proiectare în Modelarea datelor

Există, în principal, două tipuri de scheme în modelarea datelor: 1) Schema stelelor și 2) Schema fulgului de zăpadă.

4) Distingeți între date structurate și nestructurate

Urmează o diferență între datele structurate și cele nestructurate:

Parametru Date structurate Date nestructurate
Depozitare SGBD Structuri de fișiere neadministrate
Standard ADO.net, ODBC și SQL STMP, XML, CSV și SMS
Instrument de integrare ELT (extrage, transformă, încarcă) Introducere manuală de date sau procesare în lot care include coduri
scalare Scalarea schemei este dificilă Scalarea este foarte ușoară.

5) Explicați toate componentele unei aplicații Hadoop

Următoarele sunt componentele aplicației Hadoop:

  • Hadoop Common: este un set comun de utilități și biblioteci care sunt utilizate de Hadoop.
  • HDFS: Această aplicație Hadoop se referă la sistemul de fișiere în care sunt stocate datele Hadoop. Este un sistem de fișiere distribuit cu lățime de bandă mare.
  • Hadoop MapReduce: Se bazează în conformitate cu algoritmul pentru furnizarea de prelucrări de date pe scară largă.
  • Hadoop YARN: Este utilizat pentru gestionarea resurselor în cadrul clusterului Hadoop. Poate fi folosit și pentru programarea sarcinilor pentru utilizatori.

6) Ce este NameNode?

Este elementul central al HDFS. Stochează date HDFS și urmărește diferite fișiere din clustere. Aici, datele reale nu sunt stocate. Datele sunt stocate în DataNodes.

7) Definiți streaming Hadoop

Este un utilitar care permite crearea hărții și reduce joburile și le supune unui cluster specific.

8) Care este forma completă a HDFS?

HDFS înseamnă Hadoop Distributed File System.

9) Definiți Block and Block Scanner în HDFS

Blocurile sunt cea mai mică unitate a unui fișier de date. Hadoop împarte automat fișiere uriașe în bucăți mici.

Block Scanner verifică lista blocurilor care sunt prezentate pe un DataNode.

10) Care sunt pașii care apar atunci când Block Scanner detectează un bloc de date deteriorat?

Iată pașii care apar atunci când Block Scanner găsește un bloc de date deteriorat:

1) În primul rând, când Block Scanner găsește un bloc de date corupt, DataNode raportează la NameNode

2) NameNode începe procesul de creare a unei noi replici utilizând o replică a blocului corupt.

3) Numărul de replici al replicilor corecte încearcă să se potrivească cu factorul de replicare. Dacă meciul a fost găsit, blocul de date deteriorat nu va fi șters.

11) Numiți două mesaje pe care NameNode le primește de la DataNode?

Există două mesaje pe care NameNode le primește de la DataNode. Acestea sunt 1) raport de bloc și 2) bătăi de inimă.

12) Enumerați diferite fișiere de configurare XML în Hadoop?

Există cinci fișiere de configurare XML în Hadoop:

  • Mapred-site
  • Core-site
  • Site-ul HDFS
  • Fire-site

13) Care sunt patru V-uri de date mari?

Patru V de date mari sunt:

  • Viteză
  • varietate
  • Volum
  • Veridicitatea

14) Explicați caracteristicile Hadoop

Caracteristicile importante ale Hadoop sunt:

  • Este un cadru open-source disponibil gratuit.
  • Hadoop este compatibil cu numeroasele tipuri de hardware și este ușor de accesat hardware-ul nou într-un anumit nod.
  • Hadoop acceptă procesarea mai rapid distribuită a datelor.
  • Stochează datele în cluster, care este independent de restul operațiunilor.
  • Hadoop permite crearea a 3 replici pentru fiecare bloc cu noduri diferite.

15) Explicați principalele metode ale Reducerului

  • setup (): este utilizat pentru configurarea parametrilor precum dimensiunea datelor de intrare și a cache-ului distribuit.
  • cleanup (): Această metodă este utilizată pentru a curăța fișierele temporare.
  • reduce (): Este o inimă a reductorului care este numită o dată pe cheie cu sarcina redusă asociată

16) Care este abrevierea lui COSHH?

Abrevierea COSHH este programul bazat pe clasificare și optimizare pentru sistemele Hadoop heterogene.

17) Explicați schema stelelor

Star Schema sau Star Join Schema este cel mai simplu tip de schemă Data Warehouse. Este cunoscut sub numele de schemă stelară, deoarece structura sa este ca o stea. În schema Stelei, centrul stelei poate avea un tabel de fapte și mai multe tabele de dimensiuni asociate. Această schemă este utilizată pentru interogarea seturilor mari de date.

18) Cum se implementează o soluție de date mari?

Urmați pașii următori pentru a implementa o soluție de date mari.

1) Integrarea datelor folosind surse de date precum RDBMS, SAP, MySQL, Salesforce

2) Stocați datele extrase fie în baza de date NoSQL, fie în HDFS.

3) Implementați soluția de date mari folosind cadre de procesare precum Pig, Spark și MapReduce.

19) Explicați FSCK

Verificarea sistemului de fișiere sau FSCK este comanda utilizată de HDFS. Comanda FSCK este utilizată pentru a verifica neconcordanțele și problemele din fișier.

20) Explicați schema fulgului de zăpadă

O schemă de fulgi de zăpadă este o extensie a unei scheme de stele și adaugă dimensiuni suplimentare. Este așa-numitul fulg de zăpadă, deoarece diagrama sa arată ca un fulg de zăpadă. Tabelele de dimensiuni sunt normalizate, ceea ce împarte datele în tabele suplimentare.

21) Distingeți între Schema Stelei și fulgului de zăpadă

Stea Schema SnowFlake
Ierarhiile dimensiunilor sunt stocate în tabelul dimensional. Fiecare ierarhie este stocată în tabele separate.
Șansele de redundanță a datelor sunt mari Șansele de redundanță a datelor sunt scăzute.
Are un design DB foarte simplu Are un design complex de DB
Oferiți o modalitate mai rapidă de procesare a cubului Procesarea cubului este lentă datorită îmbinării complexe.

22) Explicați sistemul de fișiere distribuite Hadoop

Hadoop funcționează cu sisteme de fișiere distribuite scalabile precum S3, HFTP FS, FS și HDFS. Sistemul de fișiere distribuite Hadoop este realizat pe sistemul de fișiere Google. Acest sistem de fișiere este conceput astfel încât să poată rula cu ușurință pe un cluster mare al sistemului computerizat.

23) Explicați principalele responsabilități ale unui inginer de date

Inginerii de date au multe responsabilități. Ei gestionează sistemul sursă de date. Inginerii de date simplifică structura complexă a datelor și împiedică reduplicarea datelor. De multe ori oferă și ELT și transformarea datelor.

24) Care este forma completă de YARN?

Forma completă a YARN este încă un alt negociator de resurse.

25) Enumerați diferite moduri în Hadoop

Modurile din Hadoop sunt 1) Mod independent 2) Mod Pseudo distribuit 3) Mod complet distribuit.

26) Cum se realizează securitatea în Hadoop?

Efectuați următorii pași pentru a obține securitate în Hadoop:

1) Primul pas este securizarea canalului de autentificare al clientului către server. Furnizați clientului un marcaj de timp.

2) În al doilea pas, clientul folosește marcajul de timp primit pentru a solicita TGS pentru un bilet de serviciu.

3) În ultimul pas, clientul utilizează biletul de serviciu pentru auto-autentificare pe un server specific.

27) Ce este Heart Beat în Hadoop?

În Hadoop, NameNode și DataNode comunică între ele. Heartbeat este semnalul trimis de DataNode către NameNode în mod regulat pentru a-și arăta prezența.

28) Distingeți între NAS și DAS în Hadoop

NAS DAS
Capacitatea de stocare este de 10 9 până la 10 12 octeți. Capacitatea de stocare este de 10 9 octeți.
Costul de administrare pe GB este moderat. Costul de administrare pe GB este ridicat.
Transmite date folosind Ethernet sau TCP / IP. Transmite date folosind IDE / SCSI

29) Enumerați câmpurile sau limbile importante utilizate de inginerul de date

Iată câteva câmpuri sau limbi utilizate de inginerul de date:

  • Probabilitate, precum și algebră liniară
  • Învățare automată
  • Analiza tendinței și regresia
  • Hive baze de date QL și SQL

30) Ce este Big Data?

Este o cantitate mare de date structurate și nestructurate, care nu pot fi procesate cu ușurință prin metodele tradiționale de stocare a datelor. Inginerii de date folosesc Hadoop pentru a gestiona datele mari.

31) Ce este programarea FIFO?

Este un algoritm de planificare Hadoop Job. În această planificare FIFO, un reporter selectează lucrări dintr-o coadă de lucru, cea mai veche lucrare mai întâi.

32) Menționați numerele de port implicite pe care urmăritorul de activități, NameNode și urmăritorul de joburi rulează în Hadoop

Numerele de port implicite pe care se execută trackerul de sarcini, NameNode și trackerul de joburi în Hadoop sunt următoarele:

  • Task Tracker rulează pe portul 50060
  • NameNode rulează pe portul 50070
  • Job Tracker rulează pe portul 50030

33) Cum se dezactivează Block Scanner pe HDFS Data Node

Pentru a dezactiva Block Scanner pe HDFS Data Node, setați dfs.datanode.scan.period.hours la 0.

34) Cum se definește distanța dintre două noduri în Hadoop?

Distanța este egală cu suma distanței până la nodurile cele mai apropiate. Metoda getDistance () este utilizată pentru a calcula distanța dintre două noduri.

35) De ce să utilizăm hardware de marfă în Hadoop?

Hardware-ul de marfă este ușor de obținut și accesibil. Este un sistem care este compatibil cu Windows, MS-DOS sau Linux.

36) Definiți factorul de replicare în HDFS

Factorul de replicare este un număr total de replici ale unui fișier din sistem.

37) Ce date sunt stocate în NameNode?

Namenode stochează metadatele pentru HDFS, cum ar fi informații despre blocuri și informații despre spațiu de nume.

38) Ce vrei să spui prin Rack Awareness?

În clusterul Haddop, Namenode folosește Datanode pentru a îmbunătăți traficul de rețea în timp ce citește sau scrie orice fișier care este mai aproape de rack-ul din apropiere pentru a citi sau a scrie cerere. Namenode menține codul de rack al fiecărui DataNode pentru a obține informații despre rack. Acest concept este numit Rack Awareness in Hadoop.

39) Care sunt funcțiile secundarului NameNode?

Următoarele sunt funcțiile Secondary NameNode:

  • FsImage care stochează o copie a fișierului EditLog și FsImage.
  • NameNode crash: Dacă NameNode se blochează, atunci FsImage SecondName NameNode poate fi folosit pentru a recrea NameNode.
  • Punct de verificare: este utilizat de Secondary NameNode pentru a confirma că datele nu sunt corupte în HDFS.
  • Actualizare: actualizează automat fișierul EditLog și FsImage. Ajută la menținerea actualizată a fișierului FsImage în Secondary NameNode.

40) Ce se întâmplă când NameNode este oprit și utilizatorul trimite un nou job?

NameNode este singurul punct de eșec din Hadoop, astfel încât utilizatorul nu poate trimite un job nou nu poate fi executat. Dacă NameNode este oprit, atunci jobul poate eșua, deoarece acest utilizator trebuie să aștepte repornirea NameNode înainte de a rula orice job.

41) Care sunt fazele de bază ale reductorului în Hadoop?

Există trei faze de bază ale unui reductor în Hadoop:

1. Shuffle: Aici, Reducer copiază ieșirea din Mapper.

2. Sortare: În sortare, Hadoop sortează intrarea la Reducer folosind aceeași cheie.

3. Reduceți: în această fază, valorile de ieșire asociate cu o cheie sunt reduse pentru a consolida datele în ieșirea finală.

42) De ce Hadoop folosește obiectul contextual?

Cadrul Hadoop folosește obiectul contextual cu clasa Mapper pentru a interacționa cu sistemul rămas. Obiectul contextual primește detaliile de configurare a sistemului și jobul în constructorul său.

Folosim obiectul Context pentru a transmite informațiile în metodele setup (), cleanup () și map (). Acest obiect pune la dispoziție informații vitale în timpul operațiilor de hartă.

43) Definiți Combinatorul în Hadoop

Este un pas opțional între Map și Reduce. Combiner preia ieșirea din funcția Hartă, creează perechi de valori cheie și trimite la Hadoop Reducer. Sarcina combinatorului este de a rezuma rezultatul final de la Harta în înregistrări rezumative cu o cheie identică.

44) Care este factorul implicit de replicare disponibil în HDFS Ce indică?

Factorul implicit de replicare disponibil în HDFS este de trei. Factorul implicit de replicare indică faptul că vor exista trei replici ale fiecărei date.

45) Ce vrei să spui Data Locality în Hadoop?

Într-un sistem Big Data, dimensiunea datelor este imensă și de aceea nu are sens să mutați datele prin rețea. Acum, Hadoop încearcă să apropie calculul de date. În acest fel, datele rămân locale la locația stocată.

46) Definiți Balancer în HDFS

În HDFS, balancerul este un instrument administrativ utilizat de personalul administratorului pentru a reechilibra datele între DataNodes și mută blocuri de la noduri suprautilizate la noduri subutilizate.

47) Explicați modul sigur în HDFS

Este un mod de citire numai al NameNode într-un cluster. Inițial, NameNode se află în Safemode. Împiedică scrierea în sistemul de fișiere în Safemode. În acest moment, colectează date și statistici de la toate DataNodes.

48) Care este importanța cache-ului distribuit în Apache Hadoop?

Hadoop are o caracteristică utilă utilă, așa-numita cache distribuită, care îmbunătățește performanța lucrărilor prin cache a fișierelor utilizate de aplicații. O aplicație poate specifica un fișier pentru cache utilizând configurația JobConf.

Cadrul Hadoop face o replică a acestor fișiere către nodurile pe care trebuie executată o sarcină. Acest lucru se face înainte de începerea executării sarcinii. Cache-ul distribuit acceptă distribuirea fișierelor numai în citire, precum și a fișierelor zip și jar.

49) Ce este Metastore în Hive?

Stochează schema, precum și locația tabelului Hive.

Tabelul Hive definește, mapează și metadatele stocate în Metastore. Acesta poate fi stocat în RDBMS acceptat de JPOX.

50) Ce înseamnă SerDe în Hive?

SerDe este un nume scurt pentru Serializer sau Deserializer. În Hive, SerDe vă permite să citiți date din tabel și să scrieți într-un anumit câmp în orice format doriți.

51) Listează componentele disponibile în modelul de date Hive

Există următoarele componente în modelul de date Hive:

  • Mese
  • Partiții
  • Cupe

52) Explicați utilizarea Hive în ecosistemul Hadoop.

Hive oferă o interfață pentru gestionarea datelor stocate în ecosistemul Hadoop. Hive este utilizat pentru cartografierea și lucrul cu tabelele HBase. Interogările Hive sunt convertite în joburi MapReduce pentru a ascunde complexitatea asociată cu crearea și rularea joburilor MapReduce.

53) Lista diverselor tipuri complexe de date / colectare sunt acceptate de Hive

Hive acceptă următoarele tipuri de date complexe:

  • Hartă
  • Struct
  • Matrice
  • Uniune

54) Explicați cum este utilizat fișierul .hiverc din Hive?

În Hive, .hiverc este fișierul de inițializare. Acest fișier este încărcat inițial când pornim Command Line Interface (CLI) pentru Hive. Putem seta valorile inițiale ale parametrilor în fișierul .hiverc.

55) Este posibil să creați mai multe tabele în Hive pentru un singur fișier de date?

Da, putem crea mai multe scheme de tabel pentru un fișier de date. Hive salvează schema în Hive Metastore. Pe baza acestei scheme, putem prelua rezultate diferite din aceleași date.

56) Explicați diferite implementări SerDe disponibile în Hive

Există multe implementări SerDe disponibile în Hive. De asemenea, puteți scrie propria dvs. implementare SerDe personalizată. Următoarele sunt câteva implementări SerDe celebre:

  • OpenCSVSerde
  • RegexSerDe
  • DelimitedJSONSerDe
  • ByteStreamTypedSerDe

57) Lista funcțiilor de generare a tabelelor disponibile în Hive

Urmează o listă a funcțiilor de generare a tabelelor:

  • Exploda (matrice)
  • JSON_tuple ()
  • Grămadă()
  • Explodați (harta)

58) Ce este o masă înclinată în Hive?

Un tabel înclinat este un tabel care conține mai des valorile coloanelor. În Hive, când specificăm un tabel ca SKEWED în timpul creării, valorile înclinate sunt scrise în fișiere separate, iar valorile rămase merg în alt fișier.

59) Enumerați obiectele create de declarația create în MySQL.

Obiectele create de declarația create în MySQL sunt după cum urmează:

  • Bază de date
  • Index
  • Masa
  • Utilizator
  • Procedură
  • Declanșator
  • Eveniment
  • Vedere
  • Funcţie

60) Cum se vede structura bazei de date în MySQL?

Pentru a vedea structura bazei de date în MySQL, puteți utiliza

Comanda DESCRIBE. Sintaxa acestei comenzi este DESCRIERE Numele tabelului ;.

61) Cum să căutați un șir specific în coloana tabelului MySQL?

Utilizați operatorul regex pentru a căuta un șir în coloana MySQL. Aici, putem defini, de asemenea, diferite tipuri de expresie regulată și căutarea utilizării regex.

62) Explicați cum analizele de date și datele mari pot crește veniturile companiei?

Următoarele sunt modalitățile în care analiza datelor și big data pot crește veniturile companiei:

  • Folosiți datele în mod eficient pentru a vă asigura că această creștere a afacerii.
  • Creșteți valoarea clientului.
  • Transformarea analitică pentru a îmbunătăți previziunile privind nivelul de personal.
  • Reducerea costului de producție al organizațiilor.