Наш интерес к Data mesh (Ячейки данных) привлек пристальное внимание в прошлом году, поэтому мы решили, что эта тема будет затронута нами и в 2022 году. Также, согласно Google Trends, «Data mesh» была одной из тем, которая привлекла всеобщий интерес в 2021 году — даже в большей степени, чем «Data lake (Озеро данных)».
Далее мы рассмотрим следующий вопрос, а именно, о ситуации когда мы сбрасываем всевозможные данные в озера данных или другие хранилища данных, а затем теряем их из виду или не используем должным образом и не управляем ими.
Мы ожидаем, что в ближайшие пару лет Data mesh, как возможный ответ на вышеназванный вопрос получит более серьезное развитие.
Data mesh — это идея, которая, практически одновременно была сформулирована Марком Бейером из Gartner и Жамаком Дехгани из Thoughtworks. Идея, суть которой в том, чтобы закрепить данные за их создателями, которые бы отслеживали их качество и актуальность, а не сваливали бы всё в огромные массивы данных, в которых уже трудно выявить их принадлежность, обращаться к ним или управлять ими.
Концепция Gartner больше касается построения структуры метаданных на основе принципов, которые схожи с физическими сетевыми ячейками. Согласно Закону Меткалфа, по мере увеличения количества «узлов» с метаданными в Data mesh, растет и их полнота, которая может быть использована алгоритмами самообучения ИИ. Поскольку воспользоваться решением от Gartner возможно только на платной основе, неудивительно, что более востребованным стало решение разработанное в Thoughtworks. Он основан на самоорганизующихся доменах, определяющих подходы жизненного цикла к обработке данных как продуктов, которые берут на себя ответственность за все, от конвейеров данных до управления и безопасности. Поступая таким образом, команды думают о своих данных шире, чем просто создают конвейеры или систематизируют наборы данных.
Концепция Data mesh решает ряд серьезных проблем, связанных с ограничениями управления данными сверху-вниз или принадлежностью данных. В настоящее время эта концепция еще не совсем проработана, особенно когда речь идет о самообслуживании или совместном управлении. Существующее понимание ячеек данных состоит в том, что домены с соответствующими знаниями предметной области должны быть закреплены за теми, кто оперирует данными, управляет ими на всем протяжении их существования. Это подход к управлению данными теоретически должен улучшить ответственность менеджеров данных. Обратной стороной является то, что без надлежащего управления через ячейки данных хранилища данных могут становиться необъятными и/или разрозненными, что в свою очередь приводит к бесполезным расходам и дублированию данных.
Ячейки данных могут быть проработаны сначала в небольших компаниях. В частности, при реализации между командами, которые уже имеют общий контекст, который может происходить из истории сотрудничества и / или из общих, смежных или пересекающихся знаний в предметной области. Здесь можно предположить появление групп ячеек данных, связанных с конкретными дисциплинами, такими как обслуживание клиентов, управление цепочкой поставок, разработка продуктов и т. Д.
До сих пор объем работ, опубликованных по Data mesh, был в целом положительным, и мы ожидаем, что в том или ином виде в 2022 году появятся продукты, реализующие эту концепцию. Мы говорим о базах данных, бизнес-аналитике, управлении, ELT (extract, load, transform), каталогизация данных, объединенных запросов и управление жизненным циклом информации. Наверняка, поставщики этих продуктов скоро начнут размещать свои маркетинговые предложения для своей целевой аудитории. Кстати, скоро намечается виртуальная конференция.
Но имейте в виду, что Data mesh — это процесс и архитектурный подход, который делегирует ответственность за определенные наборы данных «доменам», которые обладают необходимой квалификацией в предметной области. Data mesh — это не технология. Будем надеяться, что поставщики не будут позиционировать свои предложения как Data mesh продукты. Есть опасения, что неправильное понимание этой концепции может усугубить проблемы разрозненности данных, которые уже существуют у многих компаний.
Даже если Data mesh как концепция были бы полностью проработана, признаком серьезного отношения к этой идее должна являться степень публичного внимания. Обратная связь от пользователей выявит все проблемные места и укажет на путь должного развития.
Но есть еще одна особенность: Data mesh часто противопоставляется фабрикам данных. Фабрики данных предназначены для обеспечения доступа к данным в логических и физических хранилищах, поэтому мы считаем, что противопоставление Data mesh фабрикам данных является ложной дихотомией.
Проблема в том, что определение фабрики данных довольно расплывчато. Например определение от NetApp: «Фабрика данных — это, по сути, интегрированная архитектура данных, которая является адаптивной, гибкой и безопасной. Во многих отношениях фабрика данных — это новый стратегический подход к работе корпоративного хранилища, который раскрывает лучшее при управлении данными в облаке, в локальной среде и на периферийных устройствах». Мы думаем, что фабрика данных начинается с общей объединенной основы с метаданными, поэтому, когда разные команды описывают свои данные, все они играют по общему нотному листу.
Мы предполагаем, что Data mesh и фабрики данных действительно обладают синергией. Мы ожидаем, что общая объединенная основа метаданных станет спящей проблемой в этом году.