Conceptele de depozit de date
Conceptul de bază al unui Data Warehouse este de a facilita o singură versiune a adevărului pentru o companie pentru luarea deciziilor și prognoză. Un depozit de date este un sistem de informații care conține date istorice și comutative din surse unice sau multiple. Conceptele Data Warehouse simplifică procesul de raportare și analiză al organizațiilor.
Caracteristicile depozitului de date
Conceptele de depozit de date au următoarele caracteristici:
- Orientat spre subiect
- Integrat
- Varianta timpului
- Ne volatil
Orientat spre subiect
Un depozit de date este orientat spre subiect, deoarece oferă informații cu privire la o temă în loc de operațiunile în desfășurare ale companiilor. Aceste subiecte pot fi vânzări, marketing, distribuții etc.
Un depozit de date nu se concentrează niciodată pe operațiunile în desfășurare. În schimb, a pus accent pe modelarea și analiza datelor pentru luarea deciziilor . De asemenea, oferă o viziune simplă și concisă asupra subiectului specific prin excluderea datelor care nu sunt utile pentru a sprijini procesul decizional.
Integrat
În Data Warehouse, integrarea înseamnă stabilirea unei unități comune de măsură pentru toate datele similare din baza de date diferită. De asemenea, datele trebuie stocate în Datawarehouse într-un mod comun și universal acceptabil.
Un depozit de date este dezvoltat prin integrarea datelor din surse variate, cum ar fi un mainframe, baze de date relaționale, fișiere plate, etc.
Această integrare ajută la analiza eficientă a datelor. Trebuie asigurată consistența în convențiile de denumire, măsurile atributelor, structura de codificare etc. Luați în considerare următorul exemplu:
În exemplul de mai sus, există trei aplicații diferite etichetate A, B și C. Informațiile stocate în aceste aplicații sunt Sex, Data și Sold. Cu toate acestea, datele fiecărei aplicații sunt stocate în mod diferit.
- În aplicația Un câmp de gen stocează valori logice precum M sau F.
- În aplicația B, câmpul de gen este o valoare numerică,
- În aplicația Aplicație C, câmp de gen stocat sub forma unei valori de caracter.
- Același lucru este cazul cu Data și soldul
Cu toate acestea, după procesul de transformare și curățare, toate aceste date sunt stocate în format comun în Data Warehouse.
Varianta în timp
Orizontul de timp pentru depozitul de date este destul de extins în comparație cu sistemele operaționale. Datele colectate într-un depozit de date sunt recunoscute cu o anumită perioadă și oferă informații din punct de vedere istoric. Conține un element de timp, în mod explicit sau implicit.
Un astfel de loc în care datele Datawarehouse afișează variația timpului se află în structura cheii de înregistrare. Fiecare cheie primară conținută de DW ar trebui să aibă implicit sau explicit un element de timp. Ca ziua, luna săptămânii etc.
Un alt aspect al variației timpului este că, odată ce datele sunt introduse în depozit, acestea nu pot fi actualizate sau modificate.
Ne volatil
Depozitul de date este, de asemenea, non-volatil, înseamnă că datele anterioare nu sunt șterse când sunt introduse noi date în acesta.
Datele sunt doar în citire și actualizate periodic. Acest lucru ajută, de asemenea, să analizăm datele istorice și să înțelegem ce și când s-a întâmplat. Nu necesită mecanisme de proces de tranzacție, recuperare și control al concurenței.
Activități precum ștergerea, actualizarea și inserarea care sunt efectuate într-un mediu operațional de aplicație sunt omise în mediul de depozitare de date. Doar două tipuri de operațiuni de date efectuate în Data Warehousing sunt
- Încărcarea datelor
- Acces la date
Iată câteva diferențe majore între aplicație și Data Warehouse
Aplicație operațională | Depozit de date |
Programul complex trebuie codificat pentru a vă asigura că procesele de actualizare a datelor păstrează o integritate ridicată a produsului final. | Acest tip de probleme nu se întâmplă deoarece actualizarea datelor nu este efectuată. |
Datele sunt plasate într-o formă normalizată pentru a asigura o redundanță minimă. | Datele nu sunt stocate în formă normalizată. |
Tehnologia necesară pentru a sprijini problemele tranzacțiilor, recuperarea datelor, restabilirea și rezoluția, întrucât blocajul său este destul de complex. | Oferă relativă simplitate în tehnologie. |
Arhitectura Data Warehouse
Data Warehouse Architecture este complexă deoarece este un sistem informațional care conține date istorice și comutative din mai multe surse. Există 3 abordări pentru construirea straturilor Data Warehouse: Single Tier, Two Tier și Three Tier. Această arhitectură pe 3 niveluri a Data Warehouse este explicată după cum urmează.
Arhitectură cu un singur nivel
Obiectivul unui singur strat este de a minimiza cantitatea de date stocate. Acest obiectiv este de a elimina redundanța datelor. Această arhitectură nu este frecvent utilizată în practică.
Arhitectură pe două niveluri
Arhitectura în două straturi este unul dintre straturile Data Warehouse care separă sursele disponibile fizic și depozitul de date. Această arhitectură nu poate fi extinsă și, de asemenea, nu acceptă un număr mare de utilizatori finali. De asemenea, are probleme de conectivitate din cauza limitărilor rețelei.
Arhitectură de depozitare a datelor pe trei niveluri
Aceasta este cea mai utilizată Arhitectură a Data Warehouse.
Se compune din nivelul superior, mediu și inferior.
- Nivelul inferior: baza de date a serverelor Datawarehouse ca nivel inferior. Este de obicei un sistem de baze de date relaționale. Datele sunt curățate, transformate și încărcate în acest strat folosind instrumente back-end.
- Nivelul mediu: nivelul mediu din depozitul de date este un server OLAP care este implementat utilizând fie modelul ROLAP, fie MOLAP. Pentru un utilizator, acest nivel al aplicației prezintă o vedere abstractizată a bazei de date. Acest strat acționează și ca un mediator între utilizatorul final și baza de date.
- Nivel superior : nivelul superior este un strat client frontal. Nivelul superior este instrumentele și API-ul pe care le conectați și obțineți date din depozitul de date. Ar putea fi instrumente de interogare, instrumente de raportare, instrumente de interogare gestionate, instrumente de analiză și instrumente de extragere a datelor.
Componente Datawarehouse
Vom afla despre componentele Datawarehouse și arhitectura Data Warehouse cu diagramă, după cum se arată mai jos:
Data Warehouse se bazează pe un server RDBMS, care este un depozit central de informații, care este înconjurat de câteva componente cheie de Data Warehousing pentru a face întregul mediu funcțional, ușor de gestionat și accesibil.
Există în principal cinci componente de depozit de date:
Baza de date Data Warehouse
Baza de date centrală este fundamentul mediului de depozitare a datelor. Această bază de date este implementată pe tehnologia RDBMS. Deși, acest tip de implementare este constrâns de faptul că sistemul tradițional RDBMS este optimizat pentru procesarea tranzacțională a bazelor de date și nu pentru depozitarea datelor. De exemplu, interogarea ad-hoc, îmbinările cu mai multe tabele, agregatele sunt consumatoare de resurse și încetinesc performanța.
Prin urmare, abordările alternative la baza de date sunt utilizate așa cum sunt enumerate mai jos-
- Într-o casă de date, bazele de date relaționale sunt implementate în paralel pentru a permite scalabilitatea. Bazele de date relaționale paralele permit, de asemenea, memoria partajată sau modelul nimic partajat pe diverse configurații multiprocesor sau procesoare paralele masive.
- Noi structuri de index sunt utilizate pentru a ocoli scanarea relațională a tabelelor și pentru a îmbunătăți viteza.
- Utilizarea bazei de date multidimensionale (MDDB) pentru a depăși orice limitări care sunt puse din cauza modelelor relaționale de depozit de date. Exemplu: Essbase de la Oracle.
Instrumente de aprovizionare, achiziție, curățare și transformare (ETL)
Instrumentele de aprovizionare, transformare și migrare a datelor sunt utilizate pentru efectuarea tuturor conversiilor, rezumărilor și a tuturor modificărilor necesare transformării datelor într-un format unificat în datawarehouse. Acestea sunt, de asemenea, numite Instrumente de extragere, transformare și încărcare (ETL).
Funcționalitatea acestora include:
- Anonimizați datele conform prevederilor de reglementare.
- Eliminarea încărcării datelor nedorite din bazele de date operaționale în depozitul de date.
- Căutați și înlocuiți denumirile și definițiile comune pentru datele provenite din surse diferite.
- Calcularea rezumatelor și a datelor derivate
- În cazul lipsei datelor, completați-le cu valori implicite.
- De-duplicarea datelor repetate provenite din mai multe surse de date.
Aceste instrumente de extragere, transformare și încărcare pot genera joburi cron, joburi de fundal, programe Cobol, scripturi shell etc., care actualizează în mod regulat datele în datawarehouse. Aceste instrumente sunt utile și pentru menținerea metadatelor.
Aceste instrumente ETL trebuie să facă față provocărilor eterogenității bazelor de date și a datelor.
Metadate
Numele Meta Data sugerează câteva concepte tehnologice de depozitare a datelor la nivel înalt. Cu toate acestea, este destul de simplu. Metadatele sunt date despre date care definesc depozitul de date. Este utilizat pentru construirea, întreținerea și gestionarea depozitului de date.
În Arhitectura Depozitului de Date, meta-datele joacă un rol important, deoarece specifică sursa, utilizarea, valorile și caracteristicile datelor din depozitul de date. De asemenea, definește modul în care datele pot fi schimbate și prelucrate. Este strâns conectat la depozitul de date.
De exemplu, o linie din baza de date de vânzări poate conține:
4030 KJ732 299.90
Aceasta este o informație fără sens până când consultăm Meta-ul care ne spune că a fost
- Număr model: 4030
- ID agent vânzări: KJ732
- Suma totală a vânzărilor de 299,90 USD
Prin urmare, Meta Data sunt ingrediente esențiale în transformarea datelor în cunoaștere.
Metadatele vă ajută să răspundeți la următoarele întrebări
- Ce tabele, atribute și chei conține Data Warehouse?
- De unde au venit datele?
- De câte ori se reîncarcă datele?
- Ce transformări s-au aplicat cu curățarea?
Metadatele pot fi clasificate în următoarele categorii:
- Metadate tehnice : acest tip de metadate conține informații despre depozit, care sunt utilizate de proiectanții și administratorii depozitelor de date.
- Meta Date de afaceri: acest tip de metadate conține detalii care oferă utilizatorilor finali o modalitate ușor de înțeles informațiile stocate în depozitul de date.
Instrumente de interogare
Unul dintre principalele obiecte ale stocării datelor este furnizarea de informații întreprinderilor pentru a lua decizii strategice. Instrumentele de interogare permit utilizatorilor să interacționeze cu sistemul de depozitare a datelor.
Aceste instrumente se împart în patru categorii diferite:
- Instrumente de interogare și raportare
- Instrumente de dezvoltare a aplicațiilor
- Instrumente de extragere a datelor
- Instrumente OLAP
1. Instrumentele de interogare și raportare:
Instrumentele de interogare și raportare pot fi împărțite în continuare
- Instrumente de raportare
- Instrumente de interogare gestionate
Instrumente de raportare:
Instrumentele de raportare pot fi împărțite în continuare în instrumente de raportare a producției și scriitor de rapoarte desktop.
- Scriitori de rapoarte: acest tip de instrument de raportare sunt instrumente concepute pentru utilizatorii finali pentru analiza lor.
- Raportarea producției: Acest tip de instrumente permite organizațiilor să genereze rapoarte operaționale regulate. Suportă, de asemenea, volum mare de sarcini, cum ar fi imprimarea și calculul. Unele instrumente populare de raportare sunt Brio, Business Objects, Oracle, PowerSoft, SAS Institute.
Instrumente de interogare gestionate:
Acest tip de instrumente de acces ajută utilizatorii finali să rezolve problemele din baza de date și SQL și structura bazei de date prin inserarea meta-stratului între utilizatori și bază de date.
2. Instrumente de dezvoltare a aplicațiilor:
Uneori, instrumentele grafice și analitice încorporate nu satisfac nevoile analitice ale unei organizații. În astfel de cazuri, rapoartele personalizate sunt dezvoltate folosind instrumente de dezvoltare a aplicațiilor.
3. Instrumente de extragere a datelor:
Exploatarea datelor este un proces de descoperire a unei corelații noi semnificative, a modelelor și a tendințelor prin extragerea datelor cu cantități mari. Instrumentele de extragere a datelor sunt utilizate pentru a face acest proces automat.
4. Instrumente OLAP:
Aceste instrumente se bazează pe concepte ale unei baze de date multidimensionale. Permite utilizatorilor să analizeze datele folosind vederi multidimensionale elaborate și complexe.
Depozit de date Bus Architecture
Depozitul de date Autobuzul determină fluxul de date din depozitul dvs. Fluxul de date dintr-un depozit de date poate fi clasificat ca Inflow, Upflow, Downflow, Outflow și Meta flow.
În timp ce proiectați un autobuz de date, trebuie să luați în considerare dimensiunile partajate, faptele din martorii de date.
Data Marts
Data mart este un strat de acces care este utilizat pentru a transmite date utilizatorilor. Este prezentat ca o opțiune pentru depozitul de date de dimensiuni mari, deoarece este nevoie de mai puțin timp și bani pentru a construi. Cu toate acestea, nu există o definiție standard a unui martor de date care diferă de la persoană la persoană.
Într-un cuvânt simplu Data mart este o filială a unui depozit de date. Data mart este utilizat pentru partiția de date care este creată pentru grupul specific de utilizatori.
Data marts ar putea fi create în aceeași bază de date ca Datawarehouse sau o bază de date separată fizic.
Cele mai bune practici pentru arhitectura depozitului de date
Pentru a proiecta arhitectura Data Warehouse, trebuie să urmați cele mai bune practici date mai jos:
- Utilizați modele de depozit de date care sunt optimizate pentru recuperarea informațiilor, care pot fi modul dimensional, denormalizat sau abordare hibridă.
- Alegeți abordarea de proiectare adecvată ca abordare de sus în jos și de jos în sus în Data Warehouse
- Trebuie să vă asigurați că datele sunt procesate rapid și precis. În același timp, ar trebui să luați o abordare care să consolideze datele într-o singură versiune a adevărului.
- Proiectați cu atenție procesul de achiziție și curățare a datelor pentru depozitul de date.
- Proiectați o arhitectură MetaData care permite partajarea metadatelor între componentele Data Warehouse
- Luați în considerare implementarea unui model ODS atunci când necesitatea de recuperare a informațiilor este aproape de partea de jos a piramidei de extragere a datelor sau când sunt necesare mai multe surse operaționale pentru a fi accesate.
- Ar trebui să vă asigurați că modelul de date este integrat și nu doar consolidat. În acest caz, ar trebui să luați în considerare modelul de date 3NF. De asemenea, este ideal pentru achiziționarea de instrumente de curățare ETL și date
Rezumat:
- Depozitul de date este un sistem de informații care conține date istorice și comutative din surse unice sau multiple. Aceste surse pot fi tradiționale Data Warehouse, Cloud Data Warehouse sau Virtual Data Warehouse.
- Un depozit de date este orientat spre subiect, deoarece oferă informații cu privire la subiect, în loc de operațiunile desfășurate de organizație.
- În Data Warehouse, integrarea înseamnă stabilirea unei unități de măsură comune pentru toate datele similare din diferite baze de date
- Depozitul de date este, de asemenea, non-volatil, înseamnă că datele anterioare nu sunt șterse când sunt introduse noi date în acesta.
- Un Datawarehouse este varianta Time, deoarece datele dintr-un DW au o durată de valabilitate ridicată.
- Există în principal 5 componente ale arhitecturii Data Warehouse: 1) Baza de date 2) Instrumente ETL 3) Meta Date 4) Instrumente de interogare 5) DataMarts
- Acestea sunt patru categorii principale de instrumente de interogare 1. Interogare și raportare, instrumente 2. Instrumente de dezvoltare a aplicațiilor, 3. Instrumente de extragere a datelor 4. Instrumente OLAP
- Instrumentele de aprovizionare, transformare și migrare a datelor sunt utilizate pentru efectuarea tuturor conversiilor și rezumărilor.
- În Arhitectura Depozitului de Date, meta-datele joacă un rol important, deoarece specifică sursa, utilizarea, valorile și caracteristicile datelor din depozitul de date.