Ce este Data Lake? Este Arhitectura

Cuprins:

Anonim

Ce este Data Lake?

Data Lake este un depozit de stocare care poate stoca o cantitate mare de date structurate, semi-structurate și nestructurate. Este un loc pentru stocarea fiecărui tip de date în formatul său nativ, fără limite fixe privind dimensiunea contului sau fișierul. Oferă cantități mari de date pentru a spori performanța analitică și integrarea nativă.

Data Lake este ca un container mare, care este foarte asemănător cu lacurile și râurile reale. La fel ca într-un lac, aveți mai mulți afluenți, un lac de date are date structurate, date nestructurate, de la mașină la mașină, jurnale care curg în timp real.

Data Lake democratizează datele și este un mod rentabil de a stoca toate datele unei organizații pentru prelucrare ulterioară. Analistul de cercetare se poate concentra pe găsirea unor modele de semnificație în date și nu în datele în sine.

Spre deosebire de o casă de date ierarhică în care datele sunt stocate în fișiere și foldere, Data Lake are o arhitectură plană. Fiecare element de date dintr-un Data Lake primește un identificator unic și este etichetat cu un set de informații despre metadate.

În acest tutorial, veți învăța-

  • Ce este Data Lake?
  • De ce Data Lake?
  • Data Lake Architecture
  • Conceptele cheie ale lacului de date
  • Etapele maturității Data Lake
  • Cele mai bune practici pentru implementarea Data Lake:
  • Diferența dintre lacurile de date și depozitul de date
  • Avantajele și riscurile utilizării Data Lake:

De ce Data Lake?

Obiectivul principal al construirii unui lac de date este de a oferi oamenilor de știință o viziune nerafinată a datelor.

Motivele pentru utilizarea Data Lake sunt:

  • Odată cu apariția motoarelor de stocare precum Hadoop, stocarea informațiilor disparate a devenit ușoară. Nu este nevoie să modelați datele într-o schemă la nivel de întreprindere cu un Data Lake.
  • Odată cu creșterea volumului de date, a calității datelor și a metadatelor, crește și calitatea analizelor.
  • Data Lake oferă Agility pentru afaceri
  • Învățarea automată și inteligența artificială pot fi utilizate pentru a face predicții profitabile.
  • Oferă un avantaj competitiv organizației de implementare.
  • Nu există o structură a silozului de date. Data Lake oferă o vizualizare la 360 de grade a clienților și face analiza mai robustă.

Data Lake Architecture

Figura arată arhitectura unui Business Data Lake. Nivelurile inferioare reprezintă date care sunt în mare parte în repaus, în timp ce nivelurile superioare arată date tranzacționale în timp real. Aceste date circulă prin sistem cu o latență redusă sau mică. Următoarele sunt nivelurile importante din Data Lake Architecture:

  1. Nivelul de ingestie : Nivelurile din partea stângă descriu sursele de date. Datele ar putea fi încărcate în lacul de date în loturi sau în timp real
  2. Nivel Insights: Nivelurile din dreapta reprezintă partea de cercetare în care sunt utilizate informații din sistem. Interogările SQL, NoSQL sau chiar Excel pot fi utilizate pentru analiza datelor.
  3. HDFS este o soluție rentabilă atât pentru date structurate, cât și pentru date nestructurate. Este o zonă de aterizare pentru toate datele care se află în repaus în sistem.
  4. Nivelul de distilare preia datele din anvelopa de stocare și le convertește în date structurate pentru o analiză mai ușoară.
  5. Procesarea nivelului rulează algoritmi analitici și interogări ale utilizatorilor cu variații în timp real, interactive, în serie, pentru a genera date structurate pentru o analiză mai ușoară.
  6. Nivelul operațiunilor unificate guvernează gestionarea și monitorizarea sistemului. Acesta include auditarea și gestionarea competenței, gestionarea datelor, gestionarea fluxului de lucru.

Conceptele cheie ale lacului de date

Următoarele sunt conceptele cheie Data Lake pe care trebuie să le înțelegeți pentru a înțelege complet Arhitectura Data Lake

Ingerarea datelor

Ingerarea datelor permite conectoarelor să obțină date de la diferite surse de date și să le încarce în lacul de date.

Ingerarea datelor acceptă:

  • Toate tipurile de date structurate, semi-structurate și nestructurate.
  • Ingerări multiple, cum ar fi Batch, în timp real, încărcare unică.
  • Multe tipuri de surse de date, cum ar fi baze de date, webservere, e-mailuri, IoT și FTP.

Stocare a datelor

Stocarea datelor ar trebui să fie scalabilă, să ofere stocare rentabilă și să permită accesul rapid la explorarea datelor. Ar trebui să accepte diverse formate de date.

Guvernarea datelor

Guvernarea datelor este un proces de gestionare a disponibilității, utilizabilității, securității și integrității datelor utilizate într-o organizație.

Securitate

Securitatea trebuie implementată în fiecare strat al lacului de date. Începe cu stocarea, dezgroparea și consumul. Nevoia de bază este oprirea accesului pentru utilizatorii neautorizați. Ar trebui să accepte diferite instrumente pentru a accesa date cu GUI și tablouri de bord ușor de navigat.

Autentificarea, contabilitatea, autorizarea și protecția datelor sunt câteva caracteristici importante ale securității lacului de date.

Calitatea datelor:

Calitatea datelor este o componentă esențială a arhitecturii Data Lake. Datele sunt utilizate pentru a stabili valoarea afacerii. Extragerea de informații din date de calitate slabă va duce la informații de calitate slabă.

Descoperirea datelor

Descoperirea datelor este o altă etapă importantă înainte de a putea începe pregătirea datelor sau analiza. În această etapă, tehnica de etichetare este utilizată pentru a exprima înțelegerea datelor, prin organizarea și interpretarea datelor ingerate în lacul de date.

Auditarea datelor

Două sarcini majore de audit al datelor urmăresc modificările aduse setului de date cheie.

  1. Urmărirea modificărilor aduse elementelor importante ale setului de date
  2. Captează cum / când / și cine modifică aceste elemente.

Auditul datelor ajută la evaluarea riscului și a conformității.

Linia de date

Această componentă tratează originile datelor. Se ocupă în principal de locul în care se mișcă în timp și de ce se întâmplă cu el. Facilitează corectarea erorilor într-un proces de analiză a datelor de la origine la destinație.

Explorarea datelor

Este etapa de început a analizei datelor. Ajută la identificarea setului de date corect este vital înainte de a începe explorarea datelor.

Toate componentele date trebuie să lucreze împreună pentru a juca un rol important în construirea Data Lake, care evoluează și explorează cu ușurință mediul.

Etapele maturității Data Lake

Definiția etapelor de maturitate a lacului de date diferă de la manual la altul. Deși esența rămâne aceeași. După maturitate, definirea etapei este din punct de vedere laic.

Etapa 1: Manipulați și ingerați date la scară

Această primă etapă a Maturității datelor implică îmbunătățirea capacității de transformare și analiză a datelor. Aici, proprietarii de companii trebuie să găsească instrumentele în funcție de setul lor de competențe pentru a obține mai multe date și pentru a construi aplicații analitice.

Etapa 2: Construirea mușchiului analitic

Aceasta este a doua etapă care implică îmbunătățirea capacității de transformare și analiză a datelor. În această etapă, companiile folosesc instrumentul cel mai potrivit pentru setul lor de competențe. Încep să achiziționeze mai multe date și să construiască aplicații. Aici, capacitățile depozitului de date ale întreprinderii și a lacului de date sunt utilizate împreună.

Etapa 3: EDW și Data Lake funcționează la unison

Acest pas implică obținerea de date și analize în mâinile unui număr cât mai mare de oameni posibil. În această etapă, lacul de date și depozitul de date al întreprinderii încep să lucreze într-o uniune. Ambii își joacă rolul în analize

Etapa 4: Capacitatea întreprinderii în lac

În această etapă de maturitate a lacului de date, capacitățile întreprinderii sunt adăugate la Lacul de date. Adoptarea guvernanței informațiilor, a capacităților de gestionare a ciclului de viață a informațiilor și a gestionării metadatelor. Cu toate acestea, foarte puține organizații pot atinge acest nivel de maturitate, dar acest număr va crește în viitor.

Cele mai bune practici pentru implementarea Data Lake:

  • Componentele arhitecturale, interacțiunea acestora și produsele identificate ar trebui să accepte tipuri de date native
  • Proiectarea Data Lake ar trebui să se bazeze pe ceea ce este disponibil în loc de ceea ce este necesar. Cerința de schemă și date nu este definită până când nu este interogată
  • Proiectarea ar trebui să fie ghidată de componente de unică folosință integrate cu API-ul de service.
  • Descoperirea, ingestia, stocarea, administrarea, calitatea, transformarea și vizualizarea datelor ar trebui gestionate independent.
  • Arhitectura Data Lake ar trebui să fie adaptată unei industrii specifice. Ar trebui să se asigure că capacitățile necesare pentru acel domeniu sunt o parte inerentă a proiectării
  • La îmbarcarea mai rapidă a surselor de date nou descoperite este importantă
  • Data Lake ajută managementul personalizat pentru a extrage valoarea maximă
  • Data Lake ar trebui să sprijine tehnicile și metodele existente de gestionare a datelor întreprinderii

Provocările construirii unui lac de date:

  • În Data Lake, volumul de date este mai mare, deci procesul trebuie să se bazeze mai mult pe administrarea programatică
  • Este dificil să se ocupe de date rare, incomplete, volatile
  • Domeniul de aplicare mai larg al setului de date și al sursei necesită o guvernanță și asistență mai mari a datelor

Diferența dintre lacurile de date și depozitul de date

Parametrii Data Lakes Depozit de date
Date Lacurile de date stochează totul. Data Warehouse se concentrează numai asupra proceselor de afaceri.
Prelucrare Datele sunt în principal neprelucrate Date foarte procesate.
Tipul de date Poate fi nestructurat, semi-structurat și structurat. Este în mare parte sub formă și structură tabelară.
Sarcină Distribuiți administrarea datelor Optimizat pentru recuperarea datelor
Agilitate Foarte agil, configurați și reconfigurați după cum este necesar. Compară cu Data Lake, este mai puțin agil și are o configurație fixă.
Utilizatori Data Lake este folosit în cea mai mare parte de Data Scientist Profesioniștii în afaceri folosesc pe scară largă Data Warehouse
Depozitare Proiectarea lacurilor de date pentru stocare la preț redus. Sunt folosite spații de stocare scumpe, care oferă timp de răspuns rapid
Securitate Oferă un control mai mic. Permite un control mai bun al datelor.
Înlocuirea EDW Lacul de date poate fi sursă pentru EDW Complementar EDW (nu înlocuitor)
Schemă Schema de citire (nu există scheme predefinite) Schema de scriere (scheme predefinite)
Procesarea datelor Ajută la ingestia rapidă a noilor date. Consumatoare de timp pentru a introduce conținut nou.
Granularitatea datelor Date la un nivel scăzut de detaliu sau granularitate. Date la nivel de detaliu rezumat sau agregat.
Instrumente Poate folosi open source / instrumente precum Hadoop / Map Reduce În principal instrumente comerciale.

Avantajele și riscurile utilizării Data Lake:

Iată câteva avantaje majore în utilizarea unui Data Lake:

  • Ajută pe deplin cu ionizarea produselor și analize avansate
  • Oferă scalabilitate și flexibilitate rentabile
  • Oferă valoare din tipuri nelimitate de date
  • Reduce costul de proprietate pe termen lung
  • Permite stocarea economică a fișierelor
  • Adaptabil rapid la schimbări
  • Principalul avantaj al lacului de date este centralizarea diferitelor surse de conținut
  • Utilizatorii, din diferite departamente, pot fi împrăștiați pe tot globul, pot avea acces flexibil la date

Riscul utilizării Data Lake:

  • După ceva timp, Data Lake ar putea pierde relevanță și impuls
  • Există un risc mai mare în timpul proiectării Data Lake
  • Datele nestructurate pot duce la Chao neguvernat, date neutilizabile, instrumente diferite și complexe, colaborare la nivel de întreprindere, unificat, coerent și comun
  • De asemenea, crește costurile de stocare și calculare
  • Nu există nicio modalitate de a obține informații de la alții care au lucrat cu datele, deoarece nu există nici o relatare a genealogiei descoperirilor de către analiștii anteriori
  • Cel mai mare risc al lacurilor de date este securitatea și controlul accesului. Uneori, datele pot fi plasate într-un lac fără nici o supraveghere, deoarece unele dintre date pot avea confidențialitate și nevoie de reglementare

Rezumat:

  • Data Lake este un depozit de stocare care poate stoca o cantitate mare de date structurate, semi-structurate și nestructurate.
  • Obiectivul principal al construirii unui lac de date este de a oferi oamenilor de știință o viziune nerafinată a datelor.
  • Nivelul operațiilor unificate, nivelul de procesare, nivelul distilării și HDFS sunt straturi importante ale arhitecturii Data Lake
  • Ingerarea datelor, stocarea datelor, calitatea datelor, auditarea datelor, explorarea datelor, descoperirea datelor sunt câteva componente importante ale arhitecturii Data Lake
  • Proiectarea Data Lake ar trebui să se bazeze pe ceea ce este disponibil în loc de ceea ce este necesar.
  • Data Lake reduce costul de proprietate pe termen lung și permite stocarea economică a fișierelor
  • Cel mai mare risc al lacurilor de date este securitatea și controlul accesului. Uneori, datele pot fi plasate într-un lac fără nici o supraveghere, deoarece unele dintre date pot avea confidențialitate și necesități de reglementare.