Următoarele sunt întrebările frecvente în interviurile pentru noi, precum și tester și dezvoltator ETL cu experiență.
1) Ce este ETL?
În arhitectura de stocare a datelor, ETL este o componentă importantă, care gestionează datele pentru orice proces de afaceri. ETL înseamnă Extract, Transform and Load . Extract face procesul de citire a datelor dintr-o bază de date. Transform face conversia datelor într-un format care ar putea fi adecvat pentru raportare și analiză. În timp ce, încărcare face procesul de scriere a datelor în baza de date țintă.
2) Explicați ce includ operațiunile de testare ETL?
Testarea ETL include
- Verificați dacă datele se transformă corect în funcție de cerințele companiei
- Verificați dacă datele proiectate sunt încărcate în depozitul de date fără trunchiere și pierderi de date
- Asigurați-vă că aplicația ETL raportează date nevalide și se înlocuiește cu valori implicite
- Asigurați-vă că datele se încarcă la intervalul de timp preconizat pentru a îmbunătăți scalabilitatea și performanța
3) Menționați care sunt tipurile de aplicații de depozitare a datelor și care este diferența dintre extragerea datelor și depozitarea datelor?
Tipurile de aplicații de depozitare de date sunt
- Prelucrarea informațiilor
- Prelucrare analitică
- Exploatarea datelor
Exploatarea datelor poate fi definită ca procesul de extragere a informațiilor predictive ascunse din baze de date mari și interpretarea datelor, în timp ce depozitarea datelor poate utiliza o mină de date pentru procesarea analitică a datelor într-un mod mai rapid. Depozitarea datelor este procesul de agregare a datelor din mai multe surse într-un depozit comun
4) Care sunt diferitele instrumente utilizate în ETL?
- Fluxul de decizii Cognos
- Oracle Warehouse Builder
- Obiecte de afaceri XI
- Depozit de afaceri SAS
- Server SAS Enterprise ETL
5) Ce este faptul? Care sunt tipurile de fapte?
Este o componentă centrală a unui model multidimensional care conține măsurile care trebuie analizate. Faptele sunt legate de dimensiuni.
Tipurile de fapte sunt
- Fapte aditive
- Fapte semi-aditive
- Fapte neaditive
6) Explicați ce sunt Cuburile și Cuburile OLAP?
Cuburile sunt unități de procesare a datelor compuse din tabele de date și dimensiuni din depozitul de date. Oferă analize multi-dimensionale.
OLAP reprezintă Procesarea analizei online, iar cubul OLAP stochează date mari în formă multidimensională în scopul raportării. Se compune din fapte numite ca măsuri clasificate pe dimensiuni.
7) Explicați ce este nivelul de urmărire și care sunt tipurile?
Nivelul de urmărire este cantitatea de date stocate în fișierele jurnal. Nivelul de urmărire poate fi clasificat în două Normal și Verbose. Nivelul normal explică nivelul de urmărire într-un mod detaliat, în timp ce detaliat explică nivelurile de urmărire la fiecare rând.
8) Explicați ce este bobul de fapt?
Faptul de cereale poate fi definit ca nivelul la care sunt stocate informațiile despre fapte. Este, de asemenea, cunoscut sub numele de Fact Granularity
9) Explicați ce este schema de fapt fără fapt și ce este Măsurile?
Un tabel de fapte fără măsuri este cunoscut sub numele de tabel de fapte Factless. Poate vizualiza numărul de evenimente care au loc. De exemplu, este folosit pentru a înregistra un eveniment, cum ar fi numărul de angajați într-o companie.
Datele numerice bazate pe coloane dintr-un tabel de date sunt cunoscute sub numele de Măsuri
10) Explicați ce este transformarea?
O transformare este un obiect de depozit care generează, modifică sau transmite date. Transformarea este de două tipuri active și pasive
11) Explicați utilizarea Transformării căutării?
Transformarea căutării este utilă pentru
- Obținerea unei valori conexe dintr-un tabel utilizând o valoare a coloanei
- Actualizați tabelul de dimensiuni care se schimbă încet
- Verificați dacă există deja înregistrări în tabel
12) Explicați ce este partiționarea, partiționarea hash și partiția round robin?
Pentru a îmbunătăți performanța, tranzacțiile sunt subdivizate, aceasta se numește partiționare. Partionarea permite Informatica Server pentru crearea de conexiuni multiple la diverse surse
Tipurile de partiții sunt
Partiționare Round-Robin:
- Prin informatica, datele sunt distribuite uniform între toate partițiile
- În fiecare partiție în care numărul de rânduri de procesat este aproximativ același, se aplică această partiționare
Partiționare Hash:
- În scopul partiționării cheilor pentru gruparea datelor între partiții Serverul Informatica aplică o funcție hash
- Este utilizat atunci când se asigură că trebuie asigurate grupurile de procese de rânduri cu aceeași cheie de partiționare în aceeași partiție
13) Menționează care este avantajul utilizării adaptorului de destinație DataReader?
Avantajul utilizării adaptorului de destinație DataReader este că populează un set de înregistrări ADO (format din înregistrări și coloane) în memorie și expune datele din sarcina DataFlow prin implementarea interfeței DataReader, astfel încât alte aplicații să poată consuma datele.
14) Folosind SSIS (SQL Server Integration Service) care sunt modalitățile posibile de actualizare a tabelului?
Pentru a actualiza tabelul folosind SSIS, modalitățile posibile sunt:
- Utilizați o comandă SQL
- Utilizați o masă de organizare
- Utilizați memoria cache
- Utilizați sarcina de script
- Folosiți numele complet al bazei de date pentru actualizare dacă este utilizat MSSQL
15) În cazul în care aveți o sursă non-OLEDB (Object Linking and Embedding Database) pentru căutare, ce ați face?
În cazul în care aveți o sursă non-OLEBD pentru căutare, atunci trebuie să utilizați Cache pentru a încărca date și a le utiliza ca sursă
16) În ce caz utilizați cache-ul dinamic și cache-ul static în transformările conectate și neconectate?
- Memoria cache dinamică este utilizată atunci când trebuie să actualizați tabelul principal și să schimbați încet dimensiunile (SCD) de tip 1
- Pentru fișierele plate se utilizează cache-ul static
17) Explicați care sunt diferențele dintre căutarea neconectată și cea conectată?
Căutare conectată |
Căutare neconectată |
|
- Este utilizat atunci când funcția de căutare este utilizată în locul unei transformări de expresie în timpul mapării |
|
- Returnează un singur port de ieșire |
|
|
|
|
|
|
|
|
18) Explicați ce este vizualizarea sursei de date?
O vizualizare a sursei de date permite definirea schemei relaționale care va fi utilizată în bazele de date ale serviciilor de analiză. Mai degrabă decât direct din obiectele sursei de date, dimensiunile și cuburile sunt create din vizualizările sursei de date.
19) Explicați care este diferența dintre instrumentele OLAP și instrumentele ETL?
Diferența dintre instrumentul ETL și OLAP este că
Instrumentul ETL este destinat extragerii datelor din sistemele vechi și încărcării într-o bază de date specificată cu un anumit proces de curățare a datelor.
Exemplu: Etapa de date, Informatica etc.
În timp ce OLAP este destinat raportării în datele OLAP disponibile în modelul multidirecțional.
Exemplu: Business Objects, Cognos etc.
20) Cum puteți extrage datele SAP utilizând Informatica?
- Cu opțiunea de conectare la alimentare, extrageți date SAP utilizând informatica
- Instalați și configurați instrumentul PowerConnect
- Importați sursa în Source Analyzer. Între Informatica și SAP Powerconnect acționează ca o evadare. Următorul pas este de a genera codul ABAP pentru mapare, apoi numai informatica poate extrage date din SAP
- Pentru a conecta și importa surse din sisteme externe se folosește Power Connect
21) Menționează care este diferența dintre Power Mart și Power Center?
Power Center |
Power Mart |
|
|
|
|
|
|
|
|
22) Explicați ce este zona de repartizare și care este scopul unei zone de repartizare?
Stadializarea datelor este o zonă în care păstrați datele temporar pe serverul de depozitare de date. Stadializarea datelor include următorii pași
- Extragerea datelor sursă și transformarea datelor (restructurare)
- Transformarea datelor (curățarea datelor, transformarea valorii)
- Atribuții cheie surogat
23) Ce este Schema de autobuz?
Pentru ca diferitele procese de afaceri să identifice dimensiunile comune, se utilizează schema BUS. Acesta vine cu dimensiuni conforme, împreună cu o definiție standardizată a informațiilor
24) Explicați ce înseamnă purjarea datelor?
Purjarea datelor este un proces de ștergere a datelor din depozitul de date. Șterge datele nedorite precum rândurile cu valori nule sau spații suplimentare.
25) Explicați ce sunt obiecte de schemă?
Obiectele schemă sunt structura logică care se referă direct la datele bazelor de date. Obiectele Schema includ tabele, vizualizări, sinonime de secvență, indici, clustere, pachete de funcții și linkuri la baze de date
26) Explicați acești termeni Sesiune, Worklet, Mapplet și Workflow?
- Mapplet: Aranjează sau creează seturi de transformare
- Worklet: reprezintă un set specific de sarcini date
- Flux de lucru: este un set de instrucțiuni care îi spun serverului cum să execute sarcini
- Sesiune: este un set de parametri care îi spune serverului cum să mute datele din surse către țintă
Descărcare PDF gratuită: Întrebări și răspunsuri la interviuri de testare ETL