Data Lake

Technologia chmurowa i hurtownie danych w chmurze ułatwiają współpracę i zapewniają analitykom 360-stopniowy widok organizacji, dzięki dostępowi do danych z całego przedsiębiorstwa. Analitycy danych mają lepszy wgląd w to, jak ich praca wpływa na całą organizację i jak praca innych wpływa na ich pracę. Istnieje popyt na rozwiązania ułatwiające przechodzenie od modelu silos do chmury danych.

Data Lake to repozytorium, w którym jest przechowywana ogromna ilość nieprzetworzonych danych w oryginalnym formacie. Podczas gdy hierarchiczna hurtownia danych przechowuje informacje w plikach i folderach, Data Lake do przechowywania danych wykorzystuje płaską architekturę. Każdy element znajdujący się w repozytorium ma przypisany unikalny identyfikator i jest oznaczany zestawem znaczników metadanych. Gdy pojawia się zapytanie, repozytorium może zostać przeszukane pod kątem określonych informacji, a następnie mniejszy, wydzielony zestaw danych może zostać poddany analizie, co ma pomóc w rozwiązaniu określonego problemu.

Koncepcja Data Lake polega na konsolidacji infrastruktury do przechowywania i przetwarzania danych nieustrukturyzowanych, znajdujących się poza tradycyjnymi relacyjnymi bazami danych. W Data Lake mogą być jednocześnie przechowywane katalogi domowe pracowników, archiwa dokumentów elektronicznych, pliki multimedialne lub logi z systemów e-commerce. Oczywiście podstawą Data Lake nie może stać się dowolna macierz plikowa, ale taka, która zapewnia skalowalność, elastyczność i dostęp do danych za pośrednictwem różnych protokołów (m.in. dostęp obiektowy i współpraca z rozwiązaniami analitycznymi typu Hadoop).

Data Lake pozwala na maksymalnie szybką, zaawansowaną i kontekstową analizę danych nie tylko historycznych, ale także tych generowanych w czasie rzeczywistym (np. w ramach procesów transakcyjnych). Jest to możliwe m.in. dzięki dynamicznemu przekierowaniu realizowanemu nie na podstawie tablic routingu, ale kontekstu i z wykorzystaniem technologii przetwarzania in-memory, mogącej zastąpić wolniejsze i kosztowne systemy business intelligence. Przetwarzanie in-memory daje firmom lepszy wgląd w prowadzone działania, poprawia ich efektywność oraz obniża koszty IT.

Pozyskiwanie nowych danych do Data Lake może następować stopniowo. W Data Lake najpierw gromadzone są tylko surowe dane. Następnie, w miarę jak przybywa ich coraz więcej, a użytkownicy i maszyny tworzą metadane, repozytorium dojrzewa i rozszerza się jego zastosowania. Wcześniej niejednoznaczne, rozproszone i sprzeczne pojęcia, zamieniają się na dające się odczytać informacje zrozumiałe dla danego profilu działalności biznesowej. Dojrzałość danych jest osiągana wskutek interakcji użytkownika i informacji zwrotnych pochodzących z warstwy zarządzania metadanymi. Te interakcje nieustannie doskonalą repozytorium i stwarzają większe możliwości analiz. Dzięki Data Lake użytkownik może wybrać to, co jest dla niego istotne, nie przejmując się resztą. Nie jest wymagana dokładna klasyfikacja danych. Do wyławiania informacji z Data Lake potrzebni są specjaliści określani jako data scientists, którzy zajmują się analizą danych nieuporządkowanych, w szczególności big data.

Data Lake

Poznaj pozostałe architektury projektu KMD