Top 25 de întrebări pentru interviuri de testare ETL & Răspunsuri

Următoarele sunt întrebările frecvente în interviurile pentru noi, precum și tester și dezvoltator ETL cu experiență.

1) Ce este ETL?

În arhitectura de stocare a datelor, ETL este o componentă importantă, care gestionează datele pentru orice proces de afaceri. ETL înseamnă Extract, Transform and Load . Extract face procesul de citire a datelor dintr-o bază de date. Transform face conversia datelor într-un format care ar putea fi adecvat pentru raportare și analiză. În timp ce, încărcare face procesul de scriere a datelor în baza de date țintă.

2) Explicați ce includ operațiunile de testare ETL?

Testarea ETL include

Verificați dacă datele se transformă corect în funcție de cerințele companiei
Verificați dacă datele proiectate sunt încărcate în depozitul de date fără trunchiere și pierderi de date
Asigurați-vă că aplicația ETL raportează date nevalide și se înlocuiește cu valori implicite
Asigurați-vă că datele se încarcă la intervalul de timp preconizat pentru a îmbunătăți scalabilitatea și performanța

3) Menționați care sunt tipurile de aplicații de depozitare a datelor și care este diferența dintre extragerea datelor și depozitarea datelor?

Tipurile de aplicații de depozitare de date sunt

Prelucrarea informațiilor
Prelucrare analitică
Exploatarea datelor

Exploatarea datelor poate fi definită ca procesul de extragere a informațiilor predictive ascunse din baze de date mari și interpretarea datelor, în timp ce depozitarea datelor poate utiliza o mină de date pentru procesarea analitică a datelor într-un mod mai rapid. Depozitarea datelor este procesul de agregare a datelor din mai multe surse într-un depozit comun

4) Care sunt diferitele instrumente utilizate în ETL?

Fluxul de decizii Cognos
Oracle Warehouse Builder
Obiecte de afaceri XI
Depozit de afaceri SAS
Server SAS Enterprise ETL

5) Ce este faptul? Care sunt tipurile de fapte?

Este o componentă centrală a unui model multidimensional care conține măsurile care trebuie analizate. Faptele sunt legate de dimensiuni.

Tipurile de fapte sunt

Fapte aditive
Fapte semi-aditive
Fapte neaditive

6) Explicați ce sunt Cuburile și Cuburile OLAP?

Cuburile sunt unități de procesare a datelor compuse din tabele de date și dimensiuni din depozitul de date. Oferă analize multi-dimensionale.

OLAP reprezintă Procesarea analizei online, iar cubul OLAP stochează date mari în formă multidimensională în scopul raportării. Se compune din fapte numite ca măsuri clasificate pe dimensiuni.

7) Explicați ce este nivelul de urmărire și care sunt tipurile?

Nivelul de urmărire este cantitatea de date stocate în fișierele jurnal. Nivelul de urmărire poate fi clasificat în două Normal și Verbose. Nivelul normal explică nivelul de urmărire într-un mod detaliat, în timp ce detaliat explică nivelurile de urmărire la fiecare rând.

8) Explicați ce este bobul de fapt?

Faptul de cereale poate fi definit ca nivelul la care sunt stocate informațiile despre fapte. Este, de asemenea, cunoscut sub numele de Fact Granularity

9) Explicați ce este schema de fapt fără fapt și ce este Măsurile?

Un tabel de fapte fără măsuri este cunoscut sub numele de tabel de fapte Factless. Poate vizualiza numărul de evenimente care au loc. De exemplu, este folosit pentru a înregistra un eveniment, cum ar fi numărul de angajați într-o companie.

Datele numerice bazate pe coloane dintr-un tabel de date sunt cunoscute sub numele de Măsuri

10) Explicați ce este transformarea?

O transformare este un obiect de depozit care generează, modifică sau transmite date. Transformarea este de două tipuri active și pasive

11) Explicați utilizarea Transformării căutării?

Transformarea căutării este utilă pentru

Obținerea unei valori conexe dintr-un tabel utilizând o valoare a coloanei
Actualizați tabelul de dimensiuni care se schimbă încet
Verificați dacă există deja înregistrări în tabel

12) Explicați ce este partiționarea, partiționarea hash și partiția round robin?

Pentru a îmbunătăți performanța, tranzacțiile sunt subdivizate, aceasta se numește partiționare. Partionarea permite Informatica Server pentru crearea de conexiuni multiple la diverse surse

Tipurile de partiții sunt

Partiționare Round-Robin:

Prin informatica, datele sunt distribuite uniform între toate partițiile
În fiecare partiție în care numărul de rânduri de procesat este aproximativ același, se aplică această partiționare

Partiționare Hash:

În scopul partiționării cheilor pentru gruparea datelor între partiții Serverul Informatica aplică o funcție hash
Este utilizat atunci când se asigură că trebuie asigurate grupurile de procese de rânduri cu aceeași cheie de partiționare în aceeași partiție

13) Menționează care este avantajul utilizării adaptorului de destinație DataReader?

Avantajul utilizării adaptorului de destinație DataReader este că populează un set de înregistrări ADO (format din înregistrări și coloane) în memorie și expune datele din sarcina DataFlow prin implementarea interfeței DataReader, astfel încât alte aplicații să poată consuma datele.

14) Folosind SSIS (SQL Server Integration Service) care sunt modalitățile posibile de actualizare a tabelului?

Pentru a actualiza tabelul folosind SSIS, modalitățile posibile sunt:

Utilizați o comandă SQL
Utilizați o masă de organizare
Utilizați memoria cache
Utilizați sarcina de script
Folosiți numele complet al bazei de date pentru actualizare dacă este utilizat MSSQL

15) În cazul în care aveți o sursă non-OLEDB (Object Linking and Embedding Database) pentru căutare, ce ați face?

În cazul în care aveți o sursă non-OLEBD pentru căutare, atunci trebuie să utilizați Cache pentru a încărca date și a le utiliza ca sursă

16) În ce caz utilizați cache-ul dinamic și cache-ul static în transformările conectate și neconectate?

Memoria cache dinamică este utilizată atunci când trebuie să actualizați tabelul principal și să schimbați încet dimensiunile (SCD) de tip 1
Pentru fișierele plate se utilizează cache-ul static

17) Explicați care sunt diferențele dintre căutarea neconectată și cea conectată?

Căutare conectată	Căutare neconectată
Căutarea conectată participă la cartografiere	- Este utilizat atunci când funcția de căutare este utilizată în locul unei transformări de expresie în timpul mapării
Mai multe valori pot fi returnate	- Returnează un singur port de ieșire
Poate fi conectat la alte transformări și returnează o valoare	O altă transformare nu poate fi conectată
Memoria cache statică sau dinamică poate fi utilizată pentru căutarea conectată	Deconectat ca numai cache static
Căutarea conectată acceptă valorile implicite definite de utilizator	Căutarea neconectată nu acceptă valorile implicite definite de utilizator
În Connected Lookup, mai multe coloane pot fi returnate din același rând sau inserate în memoria cache de căutare dinamică	Căutarea neconectată desemnează un port de returnare și returnează o coloană din fiecare rând

18) Explicați ce este vizualizarea sursei de date?

O vizualizare a sursei de date permite definirea schemei relaționale care va fi utilizată în bazele de date ale serviciilor de analiză. Mai degrabă decât direct din obiectele sursei de date, dimensiunile și cuburile sunt create din vizualizările sursei de date.

19) Explicați care este diferența dintre instrumentele OLAP și instrumentele ETL?

Diferența dintre instrumentul ETL și OLAP este că

Instrumentul ETL este destinat extragerii datelor din sistemele vechi și încărcării într-o bază de date specificată cu un anumit proces de curățare a datelor.

Exemplu: Etapa de date, Informatica etc.

În timp ce OLAP este destinat raportării în datele OLAP disponibile în modelul multidirecțional.

Exemplu: Business Objects, Cognos etc.

20) Cum puteți extrage datele SAP utilizând Informatica?

Cu opțiunea de conectare la alimentare, extrageți date SAP utilizând informatica
Instalați și configurați instrumentul PowerConnect
Importați sursa în Source Analyzer. Între Informatica și SAP Powerconnect acționează ca o evadare. Următorul pas este de a genera codul ABAP pentru mapare, apoi numai informatica poate extrage date din SAP
Pentru a conecta și importa surse din sisteme externe se folosește Power Connect

21) Menționează care este diferența dintre Power Mart și Power Center?

Power Center	Power Mart
Să presupunem că procesăm un volum imens de date	Să presupunem că procesăm un volum redus de date
Suportă surse ERP precum SAP, oameni soft etc.	Nu acceptă surse ERP
Acceptă depozitul local și global	Acceptă depozitul local
Se convertește local în depozit global	Nu are nicio specificație pentru a converti localul în depozit global

22) Explicați ce este zona de repartizare și care este scopul unei zone de repartizare?

Stadializarea datelor este o zonă în care păstrați datele temporar pe serverul de depozitare de date. Stadializarea datelor include următorii pași

Extragerea datelor sursă și transformarea datelor (restructurare)
Transformarea datelor (curățarea datelor, transformarea valorii)
Atribuții cheie surogat

23) Ce este Schema de autobuz?

Pentru ca diferitele procese de afaceri să identifice dimensiunile comune, se utilizează schema BUS. Acesta vine cu dimensiuni conforme, împreună cu o definiție standardizată a informațiilor

24) Explicați ce înseamnă purjarea datelor?

Purjarea datelor este un proces de ștergere a datelor din depozitul de date. Șterge datele nedorite precum rândurile cu valori nule sau spații suplimentare.

25) Explicați ce sunt obiecte de schemă?

Obiectele schemă sunt structura logică care se referă direct la datele bazelor de date. Obiectele Schema includ tabele, vizualizări, sinonime de secvență, indici, clustere, pachete de funcții și linkuri la baze de date

26) Explicați acești termeni Sesiune, Worklet, Mapplet și Workflow?

Mapplet: Aranjează sau creează seturi de transformare
Worklet: reprezintă un set specific de sarcini date
Flux de lucru: este un set de instrucțiuni care îi spun serverului cum să execute sarcini
Sesiune: este un set de parametri care îi spune serverului cum să mute datele din surse către țintă

Descărcare PDF gratuită: Întrebări și răspunsuri la interviuri de testare ETL