Krajowy Magazyn Danych

infrastruktura dla składowania i udostępniania danych oraz efektywnego przetwarzania dużych wolumenów danych w modelach HPC, BigData i sztucznej inteligencji

Usługi

Składowanie danych

Obiektowe

Plikowe

Hierarchiczne

Niezawodne

Repozytoria danych

EOSC – otwarty dostęp

Kompatybilny z FAIR

Przetwarzanie danych niestrukturalnych

Bezpieczeństwo danych

Szyfrowanie danych

Repliki geograficzne

Niezawodne składowanie z redundancją

Analityka BIG DATA

Sztuczna inteligencja

Model Data Lake

Środowiska HPC i chmura

Przetwarzanie brzegowe

Składowanie danych

Obiektowe
Plikowe
Hierarchiczne

Niezawodne

Repozytoria danych

EOSC – otwarty dostęp

Kompatybilny z FAIR

Przetwarzanie danych niestrukturalnych

Bezpieczeństwo danych

Niezawodne składowanie z redundancją
Repliki geograficzne
Szyfrowanie danych

Analityka BIG DATA

Sztuczna inteligencja
Model Data Lake
Środowiska HPC i chmura
Przetwarzanie brzegowe

O projekcie

Koncepcja KMD obejmuje fundamentalną przebudowę architektury do postaci otwartego, modularnego, rozszerzalnego oraz zdecentralizowanego i skalowalnego magazynu danych, wyposażonego w szereg interfejsów dostępowych oraz zintegrowanych usług i aplikacji, w tym mechanizmów wspomagających efektywne składowanie i dostęp do danych (wielopunktowa obsługa I/O, buforowanie), długoterminowe zarządzanie danymi, ich eksplorację, analizę i efektywne przetwarzanie.

Otwarta architektura systemu KMD zapewni możliwość dalszego rozszerzania funkcjonalności i dodawania kolejnych protokołów i interfejsów dostępowych do danych, np. usług prezentacji danych, usług do obróbki danych, aplikacji analitycznych czy mechanizmów integracji z systemami przetwarzania danych.

Usługi podstawowe systemu zapewnią możliwość przechowywania i zabezpieczania danych (fizycznego i logicznego), natomiast usługi dodatkowe, osadzone w systemie oraz usługi dostępowe umożliwią realizację zaawansowanych systemów, usług i aplikacji dano-centrycznych, w ramach których wymagane jest wydajne i bezpieczne składowanie, dostęp i przetwarzanie oraz zarządzanie dużymi i złożonymi wolumenami danych.

Technologie

  • Przetwarzanie brzegowe (edge computing)
  • Reguły dostępu FAIR, zgodność z EOSC
  • Model Data Lake
  • Elementy AI w analityce danych

Architektura

Edge computing

Przetwarzanie dużych zbiorów danych z rozproszonych źródeł

Wysoki poziom integracji narzędzi przetwarzania i przechowywania

Obróbka danych w czasie rzeczywistym

BIG DATA

Efektywne wykorzystanie dużych wolumenów danych w biznesie

Integracja zaawansowanych rozwiązań BIG DATA, AI i ML

Wsparcie małych i średnich przedsiębiorstw

DATA LAKE

Dynamiczne repozytorium

Przetwarzanie danych nieustrukturyzowanych

Zaawansowana analiza danych historycznych i generowanych w czasie rzeczywistym

Infrastruktura

Celem bezpośrednim projektu jest opracowanie i dostarczenie produkcyjnych usług przechowywania, dostępu oraz zabezpieczania danych i zarządzania metadanymi a także integracji rozwiązań dla przetwarzania dużych i złożonych wolumenów danych na bazie rozproszonej infrastruktury. Umożliwi to integrację platform analitycznych oraz rozwiązań z zakresu uczenia maszynowego i sztucznej inteligencji w infrastrukturze danych i ścisłą integrację infrastruktury danych z systemami HPC i HTC w centrach HPC w celu efektywnego przetwarzanie obszernych i złożonych wolumenów i zbiorów danych.

Wskazana Infrastruktura KMD wraz z niezbędną regionalną i ogólnokrajową siecią wsparcia będzie tworzyć krajową platformę przechowywania danych i zostanie utworzona w powiązaniu z istniejącą w Polsce naukowo-badawczą infrastrukturą informatyczną. Utworzona przez konsorcjantów infrastruktura w terminie do końca 2024 podniesie pojemność infrastruktury przechowywania danych o 200 petabajtów oraz pojemność przestrzeni taśmowej o 180 petabajtów, a zastosowany przy jej budowie model Data Lake zapewni jej dużą elastyczność. Ponadto w wyniku projektu do 2024 udostępnione zostaną efektywne ekonomicznie usługi podstawowych procesów przechowywania i zarządzania danymi oraz ich przetwarzania i analityki. Więcej >

842 [Converted]_ds_150ppi

Data lake

Koncepcja Data Lake zakłada składowanie danych w postaci nieprzetworzonej (ang. raw data) oraz nadawanie im formatu oraz kontekstu i znaczenia w momencie ich wykorzystania, w ramach dostępu do danych oraz ich prezentacji, a także procesów odkrywania i eksploracji danych. Data Lake wspiera nieograniczone schematem czy strukturą gromadzenie i składowanie danych w miarę ich pozyskiwania oraz późniejszą identyfikację, odkrywanie i eksploatację, przy użyciu coraz to nowych metod i algorytmów oraz protokołów dostępowych.


System przechowywania danych będzie implementacją modelu i architektury tzw. Data Lake (tłum. dosłownie jezioro danych). Model ten i architektura są stosowane przez organizacje naukowe i firmy komercyjne oraz projekty badawcze zarządzające dużymi zbiorami danych w celu organizacji i systematyzacji procesów zbierania, pozyskiwania, przechowywania, zabezpieczania, wzbogacania, odkrywania, identyfikacji i konwersji danych oraz odkrywania, eksploracji i analizy danych, a także realizacji uczenia maszynowego i wnioskowania na podstawie danych oraz przetwarzania danych w dużej skali w modelach HPC, Cloud i BigData.

Partnerzy

Aktualności

Kontakt

Lider projektu

Poznańskie Centrum Superkomputerowo-Sieciowe

ul. Jana Pawła II 10
61-139 Poznań

tel: (+48 61) 858 20 02

https://pcss.pl

office@man.poznan.pl

PCSS - Lider projektu

Poznańskie Centrum Superkomputerowo-Sieciowe

ul. Jana Pawła II 10
61-139 Poznań

tel: (+48 61) 858 20 02

https://pcss.pl

office@man.poznan.pl

 
BIAMAN

Centrum Komputerowych Sieci Rozległych
Politechnika Białostocka

ul. Wiejska 45A

15-351 Białystok
tel: (+48 85) 746 91 55

https://pb.edu.pl/biaman/

biuro@biaman.pl

CI TASK

Centrum Informatyczne Trójmiejskiej Akademickiej Sieci Komputerowej

Politechnika Gdańska

ul. G. Narutowicza 11/12

80-233 Gdańsk

tel: (+ 48 58) 347 24 11

https://task.gda.pl/
office@task.gda.pl

CYFRONET AGH

Akademickie Centrum Komputerowe CYFRONET AGH
ul. Nawojki 11
30-950 Kraków 23

tel: (+48 12) 632 33 55

https://www.cyfronet.krakow.pl/

cyfronet@cyfronet.pl

CzestMAN

Miejska Sieć Komputerowa Czestman

Politechnika Częstochowska

ul. Jana Henryka Dąbrowskiego 69
42-201 Częstochowa

tel: (+48 34) 325 02 99

https://man.pcz.pl/
biuro@man.pcz.pl

KIELMAN

Miejska Sieć Komputerowa Kielman

Politechnika Świętokrzyska
Aleja 1000-lecia Państwa Polskiego 3
25-314 Kielce

tel: (+48 41) 342 44 04

http://www.man.kielce.pl/

LODMAN

Miejska Sieć Komputerowa LODMAN

Politechnika Łódzka

ul. Wólczańska 223

90-924 Łódź

tel: (+48 42) 638 35 00

https://lodman.pl/
office@lodman.pl

NCBJ

Narodowe Centrum Badań Jądrowych
ul. Andrzeja Sołtana 7
05-400 Otwock

tel: (+48 22) 27 31 001

https://www.ncbj.gov.pl/

ncbj@ncbj.gov.pl

WCSS

Wrocławskie Centrum Sieciowo-Superkomputerowe

Politechnika Wrocławska

ul. Wybrzeże Wyspiańskiego 27
50-370 Wrocław

tel: (+48 71) 320 39 21

https://wcss.pl/
kontakt@wcss.pl