Poniższy artykuł jest autorstwa Karola Tajdusia - pasjonata AI i DATA.
Rewolucja w danych nie musi być krwawa!
„Drzewo wolności musi być od czasu do czasu odświeżane krwią patriotów i tyranów”
Inspirowani słowami Thomasa Jeffersona, dostrzegamy, że również dane i ich architektura potrzebują okresowego przefiltrowania przez pryzmat innowacji i doświadczenia.
Nie jest tylko chwytliwe hasło; to zupełnie nowy sposób, w jaki podchodzimy do infrastruktury danych. Żegnamy więc monolityczne platformy i wprowadźmy na nasze sztandary erę „Data Mesh”, erę prawdziwej równości danych i ich efektywnej orkiestracji.”
Data Mesh – „Wolność, Równość, Braterstwo”
Data Mesh to nie tylko aktualizacja obecnych zasad, ale radykalne przesunięcie architektonicznego paradygmatu o potencjale zmieniającym reguły gry. W istocie architektura Data Mesh podważa konwencjonalne, scentralizowane podejście do platform danych. Zamiast kreować jeden masywny, monolityczny magazyn, promuje zdecentralizowany model, w którym różne domeny biznesowe, takie jak marketing, sprzedaż czy logistyka, zarządzają i dostarczają swoje własne dane jako niezależne produkty. Wyobraźmy sobie dynamiczną rewolucję, w której każdy sektor lub departament rozwija się z własną, unikalną charakterystyką, lecz wszystkie koegzystują harmonijnie pod szerokim sztandarem wspólnego celu. Taka jest istota Data Mesh.
Zasady architektury Data Mesh
Architektura Data Mesh opiera się na czterech kluczowych zasadach:
1. Zorientowana na domenę, zdecentralizowana własność i architektura danych: Zamiast jednego zespołu kontrolującego wszystkie dane, własność jest rozproszona między różnymi zespołami lub domenami.
2. Dane jako Produkt: Dane są traktowane z równą surowością i dyscypliną jak rozwój konkretnego produktu. Są one utrzymywane, udoskonalane i dostarczane w celu zaspokojenia potrzeb użytkowników czy też interesariuszy.
3. Samowystarczalna infrastruktura danych jako platforma: Udostępnienie zespołom narzędzi, infrastruktury i wytycznych, które są niezbędne do niezależnego tworzenia i dostarczania ich produktów danych.
4. Wspólna Kontrola: Choć każda domena ma autonomię, istnieje unifikująca warstwa zarządzania, która zapewnia spójne standardy i protokoły.
Adoptując filozofię Data Mesh, skutecznie radzimy sobie z wyzwaniami, które często są bolączką centralnych systemów: z silosami danych, z wolnymi czasami reakcji i z ciągłym ryzykiem utraty jakości. Co więcej, traktując dane jako produkt — co jest podstawą filozofii Data Mesh — zapewniamy im uwagę i opiekę, na którą zasługują, co prowadzi do lepszych, szybszych i bardziej innowacyjnych spostrzeżeń.
„Władza w ręce ludzi!” – demokracja w architekturze
Na pierwszy rzut oka Data Mesh to same plusy. Zwiększona dostępność danych, zwinność, klarowna własność i harmonijna synergia między domenami technologicznymi a biznesowymi. Zdecentralizowana natura Data Mesh może prowadzić do zredukowania wąskich gardeł oraz bardziej demokratycznej i uprawnionej kultury danych.
Natomiast proces zmiany kultury organizacyjnej może być tak trudny jak przekonanie narodu do swoich racji. Wymaga to przedefiniowania ról, podnoszenia kwalifikacji zespołów i kształtowania nowego podejścia do danych. Na froncie technicznym, integracja zdecentralizowanych zestawów danych, zapewnienie jednolitej jakości danych oraz konfigurowanie dostępu między-domenowego może sprawić wrażenie, jakbyś przygotowywał armię, gdzie każdy pułk ma swoje własne niezależne rozkazy.
Co może pomoc we wdrażaniu tak dużych zmian w organizacji jest to iż architektura Data Mesh nie jest jednorodna. To znaczy, że dla różnych typów organizacji możemy wdrożyć różny koncept architektoniczny, który będzie najlepiej odpowiadał naszym potrzebom biznesowym. Wyróżniamy tutaj dwa podstawowe koncepty:
Pełna decentralizacja – gdzie cale dane są w pełni podzielone i zarządzane przez różne działy naszej organizacji, jest to kwintesencja data mesh jednakże jest ona odpowiednia dla firm, które są zrodzone w chmurze, młode i mają wielu wykwalifikowanych inżynierów oprogramowania. Przy bardziej skomplikowanej strukturze organizacyjnej lub małej penetracji technologicznej firmy, może ona okazać się zbyt wymagająca do wdrożenia.
Decentralizacja produktów analitycznych – najczęściej wykorzystywana wersja data-mesh, gdzie jako organizacja posiadamy tzw. Federated-zone czyli scentralizowany datalake, który posiada dane w formatach przychodzących z systemów źródłowych, a cały know-how biznesowy nakładany jest w produktach analitycznych (Domain Zones). Pozwala to zastosować najważniejsze zasady Data Mesh przy jednoczesnym zmniejszeniu obowiązków po stronie właścicieli domeny.
W realnych wdrożeniach widzimy dużo różnych miksów obu architektur, które maja optymalizować zarządzanie danymi w różnych organizacjach – jak chociażby Data mesh operaty na klastrach domen (dla organizacji, które nie maja jasno podzielonych obowiązków biznesowych – gdzie niektóre domeny są zarządzane przez wiele działów). Dzięki tej wolności każda firma może się zdecydować jakie wdrożenie Data Mesh jest dla niej odpowiednie. Natomiast architektura danych to nie jedyna rzecz, o której trzeba pomyśleć przy wdrożeniu data mesh taka rewolucja wymaga także odpowiedniego zestawu narzędzi:
Infrastruktura-jako-Kod (IaaC) (np. Terraform) umożliwia zespołom definiowanie i dostarczanie ich infrastruktury za pomocą kodu. Jest to kluczowe w zdecentralizowanym systemie, takim jak Data Mesh, gdzie domeny muszą autonomicznie wdrażać i zarządzać swoimi produktami danych.
Zarządzanie metadanymi: Kompas naszego zestawu narzędzi. W rozległym, zdecentralizowanym systemie łatwo się zgubić. Narzędzia takie jak Amundsen, Collibra czy DataHub śledzą skąd pochodzą dane, ich pochodzenie i jak się przekształcają z czasem. Są kluczowe dla zapewnienia przejrzystości i wiarygodności.
Platformy samoobsługowe dla danych: Oferując środowiska sandbox i narzędzia dla zespołów, platformy takie jak Dremio, BigQuery, Snowflake pozwalają domenom niezależnie przeszukiwać, przekształcać i dostarczać dane – ucieleśniając ducha zasady „samoobsługi” Data Mesh.
Narzędzia monitorowania i obserwowalności: To czujne strażnicy naszego zestawu narzędzi. Narzędzia takie jak Prometheus czy Grafana zapewniają, że wszystko działa bez zakłóceń. Oferują wgląd w to, jak działają produkty danych, umożliwiając proaktywne dostosowania i optymalizacje.
Event Streaming Platforms: Myśl o nich jak o niesamowicie szybkich drogach łączących różne działy twojego biznesu. Narzędzia takie jak Apache Kafka czy Pub/Sub pozwalają domenom publikować i konsumować dane w czasie rzeczywistym, zapewniając płynność, efektywność i terminowość przepływów danych.
Jak wiemy z życia same narzędzia czy architektura nie wytyczą ścieżki. Obok tych technologii niezbędna jest zmiana mentalności biznesowej. Zespoły biznesowe muszą przejść od roli konsumentów danych do roli zarządców produktów, danych specyficznych dla ich domeny. Przyjęcie tej roli – wspierane odpowiednim zestawem narzędzi – jest kluczem do wykorzystania w pełni Data Mesh.
Idea federacji danych biznesowych – „Nie ma nic potężniejszego niż idea, której czas już nadszedł”
Atrakcyjność Data Mesh tkwi w jego obietnicy przełamania podziału między technologią a biznesem, tworząc spójny ekosystem danych, w którym domeny nie są tylko biernymi konsumentami, ale aktywnymi kuratorami swoich produktów danych. A gdy ten paradygmat się utrwali, pojawia się kilka przewidywań:
Wzrost specjalistów od danych specyficznych dla domeny: W miarę jak domeny przejmują kontrolę nad swoimi danymi, zobaczymy wzrost ról dostosowanych do ekspertyzy w zakresie danych specyficznych dla danej domeny. Warto wspomnieć o menedżerach produktów danych lub architektach danych domenowych, specjalistach, którzy rozumieją zarówno zawiłości swojej domeny, jak i niuanse zarządzania danymi.
Innowacje: Wraz z decentralizacją danych bariery dla innowacji mogą się rozpaść. Domeny, upoważnione autonomią i odpowiednimi narzędziami, będą prototypować, iterować i wprowadzać innowacje szybciej, prowadząc do szybkiej transformacji biznesowej.
Szersze zarządzanie i etyka:
Z wielką mocą idzie wielka odpowiedzialność W miarę jak domeny zyskują większą autonomię, skupienie na etyce danych, bezpieczeństwie i zarządzaniu zostanie wzmocnione. Zapewnienie odpowiedzialnego i etycznego korzystania z danych będzie kluczowe.
Chociaż droga do pełnej realizacji Data Mesh jest etapowa i pełna wyzwań oraz złożoności, to najważniejsze jest podjęcie transformacji i pierwszy krok.
Organizacje, które odważą się dziś wyruszyć w tę podróż, mogą być twórcami jutrzejszych sukcesów. Przyszłość jest pogmatwana ale niezaprzeczalnie obiecująca.
Czy jesteś gotowy przyłączyć się do tej rewolucji?